Voxtral Transcribe 2: Giải pháp chuyển giọng nói thành văn bản hiện đại
Hôm nay, chúng tôi ra mắt Voxtral Transcribe 2, hai mô hình chuyển giọng nói thành văn bản thế hệ mới với chất lượng tiên tiến nhất, hỗ trợ xác định người nói và độ trễ cực thấp. Bộ sản phẩm gồm có Voxtral Mini Transcribe V2 để xử lý hàng loạt và Voxtral Realtime cho các ứng dụng trực tiếp. Voxtral Realtime có mã nguồn mở theo giấy phép Apache 2.0.
Chúng tôi cũng ra mắt một audio playground tại Mistral Studio để thử nghiệm chuyển giọng nói thành văn bản tức thì, được hỗ trợ bởi Voxtral Transcribe 2, với tính năng xác định người nói và đánh dấu thời gian.
Điểm nổi bật
-
Voxtral Mini Transcribe V2: Chất lượng chuyển giọng nói thành văn bản tiên tiến với xác định người nói, bias ngữ cảnh, và đánh dấu thời gian từng từ trong 13 ngôn ngữ.
-
Voxtral Realtime: Tối ưu cho chuyển giọng trực tiếp với độ trễ có thể cấu hình dưới 200ms, phục vụ cho tác vụ thực tế tức thì.
-
Hiệu suất tốt nhất trong ngành: Chuẩn xác cao với chi phí thấp nhất, Voxtral Mini Transcribe V2 đạt tỷ lệ sai sót từ thấp nhất ở mức giá thấp nhất.
-
Mã nguồn mở: Voxtral Realtime được phát hành dưới giấy phép Apache 2.0, triển khai trên thiết bị edge để bảo mật dữ liệu.
Voxtral Realtime: Tối ưu cho tốc độ
Voxtral Realtime được thiết kế riêng cho các ứng dụng khi độ trễ là yếu tố quan trọng. Khác với các phương pháp truyền thống xử lý âm thanh theo khối, Realtime sử dụng kiến trúc streaming mới, chuyển âm thanh thành văn bản khi nó đến. Model cung cấp chuyển văn bản với độ trễ điều chỉnh được xuống dưới 200ms, mở ra lớp ứng dụng giọng nói mới.

Tỷ lệ sai sót từ (thấp hơn là tốt hơn) qua các ngôn ngữ trong tiêu chuẩn FLEURS.
Với độ trễ 2.4 giây, lý tưởng cho phụ đề, Realtime sánh ngang với Voxtral Mini Transcribe V2, mô hình xử lý hàng loạt mới nhất của chúng tôi. Với độ trễ 480ms, nó giữ tỷ lệ sai sót từ trong khoảng 1-2%, cho phép các tác vụ gần như offline.
Model này hỗ trợ đa ngôn ngữ từ bản địa, đạt hiệu suất chuyển ngữ mạnh mẽ trong 13 ngôn ngữ bao gồm tiếng Anh, Trung Quốc, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý, và Hà Lan. Với 4 tỷ tham số, nó hoạt động hiệu quả trên thiết bị edge, đảm bảo bảo mật cho các ứng dụng nhạy cảm.
Chúng tôi phát hành các trọng số mô hình dưới giấy phép Apache 2.0 trên Hugging Face Hub.
Voxtral Mini Transcribe V2: Chất lượng hàng đầu

Tỷ lệ lỗi xác định người nói trung bình (thấp hơn là tốt hơn) trên năm tiêu chuẩn Anh (Switchboard, CallHome, AMI-IHM, AMI-SDM, SBCSAE) và tiêu chuẩn TalkBank đa ngữ (Đức, Tây Ban Nha, Anh, Trung Quốc, Nhật).

Tỷ lệ sai sót từ trung bình (thấp hơn là tốt hơn) trên 10 ngôn ngữ hàng đầu trong tiêu chuẩn FLEURS.
Voxtral Mini Transcribe V2 mang lại cải tiến đáng kể về chất lượng chuyển giọng và xác định người nói trên các ngôn ngữ và lĩnh vực. Với khoảng 4% tỷ lệ sai sót từ trên FLEURS và giá $0.003/phút, Voxtral cung cấp hiệu suất giá-tốt nhất trong các API chuyển giọng. Nó vượt qua GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal và Deepgram Nova về độ chính xác, và xử lý âm thanh nhanh hơn khoảng 3 lần so với ElevenLabs’ Scribe v2 trong khi vẫn giữ chất lượng tương đương với chi phí chỉ bằng một phần năm.
Tính năng doanh nghiệp sẵn sàng
Voxtral Mini Transcribe V2 giới thiệu các khả năng quan trọng cho việc triển khai trong doanh nghiệp.

Xác định người nói
Tạo bản chuyển ngữ với nhãn người nói và thời gian bắt đầu/kết thúc chính xác. Lý tưởng cho việc ghi chép cuộc họp, phân tích phỏng vấn, và xử lý cuộc gọi nhiều bên. Lưu ý: Với giọng nói chồng lấn, model thường chuyển ngữ một người nói.

Bias ngữ cảnh
Cung cấp tối đa 100 từ hoặc cụm từ để hướng dẫn model đến các chính tả đúng của tên, thuật ngữ kỹ thuật, hoặc từ vựng chuyên ngành. Đặc biệt hữu ích cho tên riêng hoặc thuật ngữ ngành mà các model tiêu chuẩn thường bỏ sót. Bias ngữ cảnh được tối ưu hóa cho tiếng Anh; hỗ trợ các ngôn ngữ khác đang trong giai đoạn thử nghiệm.
Timestamps từng từ
Tạo thời gian bắt đầu và kết thúc chính xác cho từng từ, cho phép các ứng dụng như tạo phụ đề, tìm kiếm âm thanh, và căn chỉnh nội dung.

Hỗ trợ ngôn ngữ mở rộng
Giống như Realtime, model này nay hỗ trợ 13 ngôn ngữ: Anh, Trung Quốc, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý, và Hà Lan. Hiệu suất không tiếng Anh vượt xa các đối thủ.
Khả năng chịu tiếng ồn
Duy trì độ chính xác chuyển giọng trong môi trường âm thanh khó khăn, như nhà máy, trung tâm cuộc gọi bận rộn, và ghi chép hiện trường.
Hỗ trợ âm thanh dài hơn
Xử lý bản ghi âm lên tới 3 giờ trong một lần yêu cầu.

Tỷ lệ sai sót từ (thấp hơn là tốt hơn) qua các ngôn ngữ trong tiêu chuẩn FLEURS.
Audio playground
Thử nghiệm Voxtral Transcribe 2 trực tiếp trong Mistral Studio. Tải lên tối đa 10 tập tin âm thanh, tùy chỉnh xác định người nói, chọn mức độ chi tiết timestamps, và thêm các từ nhấn mạnh cho từ vựng chuyên ngành. Hỗ trợ định dạng .mp3, .wav, .m4a, .flac, .ogg lên tới 1GB mỗi tập tin.
Biến đổi ứng dụng giọng nói
Voxtral hỗ trợ quy trình giọng nói trong nhiều ứng dụng và ngành công nghiệp.
-
Trí thông minh cuộc họp
Chuyển ngữ các bản ghi đa ngôn ngữ với xác định người nói rõ ràng cho biết ai đã nói gì và khi nào. Với mức giá của Voxtral, chỉ định nội dung cuộc họp ở quy mô lớn với hiệu quả chi phí hàng đầu ngành.
-
Tác nhân giọng nói và trợ lý ảo
Xây dựng AI đối thoại với độ trễ chuyển ngữ dưới 200ms. Kết nối Voxtral Realtime với pipeline LLM và TTS của bạn cho các giao diện giọng nói phản hồi tự nhiên.
-
Tự động hóa trung tâm liên lạc
Chuyển ngữ cuộc gọi trong thời gian thực, cho phép các hệ thống AI phân tích cảm xúc, gợi ý phản hồi, và điền thông tin CRM khi các cuộc trò chuyện vẫn đang diễn ra. Xác định người nói đảm bảo sự rõ ràng giữa nhân viên và khách hàng.
-
Truyền thông và phát sóng
Tạo phụ đề đa ngôn ngữ trực tiếp với độ trễ tối thiểu. Bias ngữ cảnh xử lý tên riêng và thuật ngữ kỹ thuật mà các dịch vụ chuyển ngữ chung không đảm đương được.
-
Tuân thủ và lưu trữ tài liệu
Theo dõi và chuyển ngữ các tương tác để tuân thủ quy định, với xác định người nói cung cấp sự định danh rõ ràng và timestamps cho phép theo dõi chính xác.
Cả hai mô hình hỗ trợ triển khai tuân thủ GDPR và HIPAA thông qua các thiết lập an toàn trên chỗ hoặc đám mây riêng.
Bắt đầu
Voxtral Mini Transcribe V2 có sẵn qua API với giá $0.003 mỗi phút. Thử ngay trong Mistral Studio audio playground hoặc Le Chat.
Voxtral Realtime có sẵn qua API với giá $0.006 mỗi phút và là mã nguồn mở trên Hugging Face.
Khám phá tài liệu về khả năng chuyển giọng và âm thanh của Mistral.
Tuyển dụng
Nếu bạn hứng thú với việc xây dựng AI giọng nói đẳng cấp thế giới và mang các mô hình tiên phong đến tay các nhà phát triển khắp nơi, chúng tôi rất vui được lắng nghe từ bạn. Nộp đơn gia nhập đội ngũ của chúng tôi.