AI Agents v3: Hiểu đa phương thức và Quy trình tự động

AI Agents v3 đã có mặt

Chúng tôi vui mừng công bố AI Agents v3 — một bước tiến lớn về khả năng nhận thức, hiểu và thực hiện của AI agents tự động. Phiên bản này giới thiệu ba khả năng mà khách hàng đã yêu cầu: đầu vào đa phương thức, tương tác giọng nói và thực thi quy trình tự động.

Nhìn và Hiểu: Khả năng Thị giác

AI Agents giờ có thể xử lý hình ảnh, ảnh chụp màn hình, tài liệu và khung hình video cùng với văn bản:

Xử lý tài liệu — agents có thể đọc hóa đơn, hợp đồng và biểu mẫu, trích xuất dữ liệu có cấu trúc không cần mẫu thủ công
Kiểm tra trực quan — đội sản xuất và QA có thể triển khai agents nhận diện lỗi từ hình ảnh sản phẩm
Phân tích ảnh chụp màn hình — agents hỗ trợ IT có thể hiểu ảnh chụp màn hình của người dùng để chẩn đoán sự cố nhanh hơn
Diễn giải biểu đồ — agents có thể phân tích biểu đồ và đồ thị trong báo cáo, chuyển dữ liệu trực quan thành insights hành động

Trò chuyện Tự nhiên: Tương tác Giọng nói

Agents hỗ trợ giọng nói mang lại hội thoại tự nhiên cho quy trình khách hàng và nội bộ:

Xử lý giọng nói thời gian thực với độ trễ dưới 200ms cho luồng hội thoại tự nhiên
Thích ứng giọng và phương ngữ hỗ trợ hơn 40 biến thể ngôn ngữ
Nhận diện cảm xúc để chủ động chuyển tiếp người gọi bực bội
Xác thực giọng nói cho xác minh danh tính an toàn không cần mật khẩu

Thiết lập và Quên đi: Quy trình Tự động

Engine quy trình mới cho phép agents thực thi quy trình phức tạp, đa bước một cách độc lập:

Phân nhánh có điều kiện — agents đưa ra quyết định dựa trên dữ liệu và ngữ cảnh thời gian thực
Tích hợp công cụ — agents có thể gọi API, truy vấn cơ sở dữ liệu, gửi thông báo và cập nhật hồ sơ
Điểm kiểm tra có sự tham gia con người cho quyết định quan trọng cần phê duyệt
Mẫu quy trình cho các mẫu phổ biến như onboarding khách hàng, ứng phó sự cố và xử lý đơn hàng

Nâng cấp

Tất cả cấu hình AI Agents v2 hoàn toàn tương thích với v3. Các khả năng mới có thể được kích hoạt dần — bắt đầu với thị giác cho xử lý tài liệu, sau đó mở rộng sang giọng nói và quy trình tự động khi đội ngũ sẵn sàng.