Voxtral phát hành Transcribe 2
Hôm nay, chúng tôi chính thức ra mắt Voxtral Transcribe 2, hai mô hình phiên âm giọng nói thế hệ mới với chất lượng hàng đầu, tự động hóa và độ trễ cực thấp. Dòng sản phẩm bao gồm Voxtral Mini Transcribe V2 cho phiên âm hàng loạt và Voxtral Realtime cho ứng dụng trực tiếp. Voxtral Realtime cung cấp mã nguồn mở dưới giấy phép Apache 2.0.
Chúng tôi cũng ra mắt phòng thử nghiệm âm thanh trong Mistral Studio để kiểm tra ngay lập tức, với khả năng tự động phân biệt người nói và dán nhãn thời gian.
Điểm nổi bật
-
Voxtral Mini Transcribe V2: Phiên âm chất lượng cao với tự động hóa người nói, điều chỉnh theo ngữ cảnh và dấu thời gian từ trong 13 ngôn ngữ.
-
Voxtral Realtime: Tối ưu hóa cho phiên âm trực tiếp với độ trễ có thể cấu hình xuống dưới 200ms, hỗ trợ các ứng dụng thời gian thực và trợ lý giọng nói.
-
Hiệu quả vượt trội: Độ chính xác hàng đầu trong ngành với chi phí thấp, Voxtral Mini Transcribe V2 đạt tỷ lệ lỗi từ thấp nhất với giá tốt nhất.
-
Mã nguồn mở: Voxtral Realtime phát hành dưới Apache 2.0, có khả năng triển khai trên thiết bị để đảm bảo quyền riêng tư.
Voxtral Realtime
Voxtral Realtime được thiết kế cho các ứng dụng mà độ trễ là quan trọng. Không giống như những phương pháp xử lý âm thanh theo khối ngoại tuyến, Realtime sử dụng kiến trúc streaming mới để phiên âm âm thanh khi vừa nhận được. Mô hình này có thể điều chỉnh độ trễ xuống dưới 200ms, mở ra một lớp ứng dụng giọng nói mới.
Mô hình này hỗ trợ đa ngôn ngữ mạnh mẽ với 13 ngôn ngữ và trọng số mô hình được phát hành trên Hugging Face Hub.
Voxtral Mini Transcribe V2
Voxtral Mini Transcribe V2 mang lại cải tiến đáng kể trong chất lượng phiên âm và tự động phân biệt người nói trong nhiều ngôn ngữ và lĩnh vực.
Tính năng sẵn sàng cho doanh nghiệp
-
Tự động phân biệt người nói: Tạo phiên âm với nhãn người nói và thời gian bắt đầu/kết thúc chính xác.
-
Điều chỉnh theo ngữ cảnh: Hướng dẫn mô hình sử dụng đúng tên, thuật ngữ kỹ thuật hoặc từ vựng chuyên ngành.
-
Dấu thời gian từ: Tạo dấu thời gian chính xác để phục vụ cho việc tạo phụ đề, tìm kiếm âm thanh, và định tuyến nội dung.
-
Hỗ trợ ngôn ngữ mở rộng: Hỗ trợ 13 ngôn ngữ; hiệu suất không tiếng Anh vượt xa đối thủ cạnh tranh.
-
Khả năng chống ồn: Giữ vững độ chính xác trong môi trường âm thanh khó khăn.
-
Hỗ trợ âm thanh dài: Xử lý bản ghi âm lên đến 3 giờ trong một yêu cầu.
Phòng thử nghiệm âm thanh
Thử ngay Voxtral Transcribe 2 trong Mistral Studio. Hỗ trợ tải lên đến 10 tập tin âm thanh.
Ứng dụng giọng nói tiên tiến
-
Thông tin cuộc họp: Phiên âm các bản ghi âm đa ngôn ngữ với tự động hóa người nói.
-
Trợ lý giọng nói và ảo: Xây dựng giao diện giọng nói kết nối giao tiếp một cách tự nhiên.
-
Tự động hóa trung tâm liên lạc: Phiên âm cuộc gọi theo thời gian thực.
-
Truyền thông và phát thanh: Tạo phụ đề trực tiếp đa ngôn ngữ với độ trễ tối thiểu.
-
Tuân thủ và tài liệu hóa: Giám sát và phiên âm tương tác cho tuân thủ quy định.
Cả hai mô hình hỗ trợ triển khai phù hợp với GDPR và HIPAA qua các phương thức on-premise hoặc đám mây riêng.
Bắt đầu
Voxtral Mini Transcribe V2 hiện có sẵn qua API với giá $0,003 mỗi phút. Thử ngay trong phòng thử nghiệm Mistral Studio.
Voxtral Realtime cũng có sẵn qua API và dưới dạng mã nguồn mở trên Hugging Face.
Khám phá tài liệu về khả năng âm thanh và phiên âm của Mistral.