AI Agents v3: Hiểu đa phương thức và Quy trình tự động
Phiên bản mới nhất của Venizia AI Agents giới thiệu khả năng thị giác, tương tác giọng nói và quy trình tự động đa bước hoàn toàn.
AI Agents v3 đã có mặt
Chúng tôi vui mừng công bố AI Agents v3 — một bước tiến lớn về khả năng nhận thức, hiểu và thực hiện của AI agents tự động. Phiên bản này giới thiệu ba khả năng mà khách hàng đã yêu cầu: đầu vào đa phương thức, tương tác giọng nói và thực thi quy trình tự động.
Nhìn và Hiểu: Khả năng Thị giác
AI Agents giờ có thể xử lý hình ảnh, ảnh chụp màn hình, tài liệu và khung hình video cùng với văn bản:
- Xử lý tài liệu — agents có thể đọc hóa đơn, hợp đồng và biểu mẫu, trích xuất dữ liệu có cấu trúc không cần mẫu thủ công
- Kiểm tra trực quan — đội sản xuất và QA có thể triển khai agents nhận diện lỗi từ hình ảnh sản phẩm
- Phân tích ảnh chụp màn hình — agents hỗ trợ IT có thể hiểu ảnh chụp màn hình của người dùng để chẩn đoán sự cố nhanh hơn
- Diễn giải biểu đồ — agents có thể phân tích biểu đồ và đồ thị trong báo cáo, chuyển dữ liệu trực quan thành insights hành động
Trò chuyện Tự nhiên: Tương tác Giọng nói
Agents hỗ trợ giọng nói mang lại hội thoại tự nhiên cho quy trình khách hàng và nội bộ:
- Xử lý giọng nói thời gian thực với độ trễ dưới 200ms cho luồng hội thoại tự nhiên
- Thích ứng giọng và phương ngữ hỗ trợ hơn 40 biến thể ngôn ngữ
- Nhận diện cảm xúc để chủ động chuyển tiếp người gọi bực bội
- Xác thực giọng nói cho xác minh danh tính an toàn không cần mật khẩu
Thiết lập và Quên đi: Quy trình Tự động
Engine quy trình mới cho phép agents thực thi quy trình phức tạp, đa bước một cách độc lập:
- Phân nhánh có điều kiện — agents đưa ra quyết định dựa trên dữ liệu và ngữ cảnh thời gian thực
- Tích hợp công cụ — agents có thể gọi API, truy vấn cơ sở dữ liệu, gửi thông báo và cập nhật hồ sơ
- Điểm kiểm tra có sự tham gia con người cho quyết định quan trọng cần phê duyệt
- Mẫu quy trình cho các mẫu phổ biến như onboarding khách hàng, ứng phó sự cố và xử lý đơn hàng
Nâng cấp
Tất cả cấu hình AI Agents v2 hoàn toàn tương thích với v3. Các khả năng mới có thể được kích hoạt dần — bắt đầu với thị giác cho xử lý tài liệu, sau đó mở rộng sang giọng nói và quy trình tự động khi đội ngũ sẵn sàng.