Giới thiệu Cekura
Chúng tôi là Tarush, Sidhant, và Shashij từ Cekura (https://www.cekura.ai). Chúng tôi đã hoạt động trong lĩnh vực mô phỏng tác nhân giọng nói 1,5 năm và mở rộng sang chat gần đây. Cekura được sử dụng để mô phỏng hội thoại người dùng thực, kiểm tra độ ổn định của prompt và hành vi của LLM.
Vấn đề chính
Bạn không thể QA tác nhân AI thủ công. Khi xuất bản prompt mới, thay đổi mẫu, hoặc thêm công cụ, làm sao biết nó vẫn hoạt động đúng ở hàng ngàn cách người dùng tương tác? Hầu hết đội ngũ làm việc thủ công hoặc chờ người dùng phản hồi - không hiệu quả và quá muộn. Phương pháp của chúng tôi là mô phỏng: người dùng tổng hợp tương tác với tác nhân như người dùng thật và đánh giá của LLM để kiểm tra tính chính xác của phản hồi.
Các yếu tố làm cho Cekura hiệu quả
- Tạo tình huống và import hội thoại thực: Tạo test suite từ mô tả tác nhân của bạn và ingestion hội thoại thực tế để tự động trích xuất case thử nghiệm.
- Nền tảng công cụ giả lập: Định nghĩa các schema công cụ, hành vi và giá trị trả về để mô phỏng mà không cần chạm đến hệ thống sản xuất.
- Test case có cấu trúc, xác định: Sử dụng cây hành động có điều kiện để các lỗi được phát hiện là thực sự, không phải là ngẫu nhiên.
Giám sát lưu lượng tác nhân trực tiếp
Cekura theo dõi toàn bộ phiên hội thoại chứ không phải từng turn riêng lẻ, giúp phát hiện lỗi xuất hiện khi các turn có quan hệ với nhau.
Thử nghiệm Cekura
Dùng thử miễn phí trong 7 ngày, không cần thẻ tín dụng. Các gói trả phí bắt đầu từ $30/tháng. Xem video sản phẩm tại Cekura Video.
Phản hồi từ cộng đồng HN
Chúng tôi rất muốn biết cách bạn đang kiểm thử hồi quy hành vi trong tác nhân của mình và các lỗi nào gây khó khăn nhất cho bạn.