Voxtral chuyển giọng nói thành văn bản với tốc độ âm thanh

Voxtral Transcribe 2: Giải pháp chuyển giọng nói thành văn bản hiện đại

Hôm nay, chúng tôi ra mắt Voxtral Transcribe 2, hai mô hình chuyển giọng nói thành văn bản thế hệ mới với chất lượng tiên tiến nhất, hỗ trợ xác định người nói và độ trễ cực thấp. Bộ sản phẩm gồm có Voxtral Mini Transcribe V2 để xử lý hàng loạt và Voxtral Realtime cho các ứng dụng trực tiếp. Voxtral Realtime có mã nguồn mở theo giấy phép Apache 2.0.

Chúng tôi cũng ra mắt một audio playground tại Mistral Studio để thử nghiệm chuyển giọng nói thành văn bản tức thì, được hỗ trợ bởi Voxtral Transcribe 2, với tính năng xác định người nói và đánh dấu thời gian.

Điểm nổi bật

Voxtral Mini Transcribe V2: Chất lượng chuyển giọng nói thành văn bản tiên tiến với xác định người nói, bias ngữ cảnh, và đánh dấu thời gian từng từ trong 13 ngôn ngữ.
Voxtral Realtime: Tối ưu cho chuyển giọng trực tiếp với độ trễ có thể cấu hình dưới 200ms, phục vụ cho tác vụ thực tế tức thì.
Hiệu suất tốt nhất trong ngành: Chuẩn xác cao với chi phí thấp nhất, Voxtral Mini Transcribe V2 đạt tỷ lệ sai sót từ thấp nhất ở mức giá thấp nhất.
Mã nguồn mở: Voxtral Realtime được phát hành dưới giấy phép Apache 2.0, triển khai trên thiết bị edge để bảo mật dữ liệu.

Voxtral Realtime: Tối ưu cho tốc độ

Voxtral Realtime được thiết kế riêng cho các ứng dụng khi độ trễ là yếu tố quan trọng. Khác với các phương pháp truyền thống xử lý âm thanh theo khối, Realtime sử dụng kiến trúc streaming mới, chuyển âm thanh thành văn bản khi nó đến. Model cung cấp chuyển văn bản với độ trễ điều chỉnh được xuống dưới 200ms, mở ra lớp ứng dụng giọng nói mới.

Hình ảnh 1: Fleur Voxtral 2

Tỷ lệ sai sót từ (thấp hơn là tốt hơn) qua các ngôn ngữ trong tiêu chuẩn FLEURS.

Với độ trễ 2.4 giây, lý tưởng cho phụ đề, Realtime sánh ngang với Voxtral Mini Transcribe V2, mô hình xử lý hàng loạt mới nhất của chúng tôi. Với độ trễ 480ms, nó giữ tỷ lệ sai sót từ trong khoảng 1-2%, cho phép các tác vụ gần như offline.

Model này hỗ trợ đa ngôn ngữ từ bản địa, đạt hiệu suất chuyển ngữ mạnh mẽ trong 13 ngôn ngữ bao gồm tiếng Anh, Trung Quốc, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý, và Hà Lan. Với 4 tỷ tham số, nó hoạt động hiệu quả trên thiết bị edge, đảm bảo bảo mật cho các ứng dụng nhạy cảm.

Chúng tôi phát hành các trọng số mô hình dưới giấy phép Apache 2.0 trên Hugging Face Hub.

Voxtral Mini Transcribe V2: Chất lượng hàng đầu

Hình ảnh 2: Voxtral 2.0 Avg Diarization Error Rate Priceper Min

Tỷ lệ lỗi xác định người nói trung bình (thấp hơn là tốt hơn) trên năm tiêu chuẩn Anh (Switchboard, CallHome, AMI-IHM, AMI-SDM, SBCSAE) và tiêu chuẩn TalkBank đa ngữ (Đức, Tây Ban Nha, Anh, Trung Quốc, Nhật).

Hình ảnh 3: Voxtral 2.0 Transcription Performance Fleurs Priceper Min

Tỷ lệ sai sót từ trung bình (thấp hơn là tốt hơn) trên 10 ngôn ngữ hàng đầu trong tiêu chuẩn FLEURS.

Voxtral Mini Transcribe V2 mang lại cải tiến đáng kể về chất lượng chuyển giọng và xác định người nói trên các ngôn ngữ và lĩnh vực. Với khoảng 4% tỷ lệ sai sót từ trên FLEURS và giá $0.003/phút, Voxtral cung cấp hiệu suất giá-tốt nhất trong các API chuyển giọng. Nó vượt qua GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal và Deepgram Nova về độ chính xác, và xử lý âm thanh nhanh hơn khoảng 3 lần so với ElevenLabs’ Scribe v2 trong khi vẫn giữ chất lượng tương đương với chi phí chỉ bằng một phần năm.

Tính năng doanh nghiệp sẵn sàng

Voxtral Mini Transcribe V2 giới thiệu các khả năng quan trọng cho việc triển khai trong doanh nghiệp.

Hình ảnh 4: Icon Ngôn ngữ

Xác định người nói

Tạo bản chuyển ngữ với nhãn người nói và thời gian bắt đầu/kết thúc chính xác. Lý tưởng cho việc ghi chép cuộc họp, phân tích phỏng vấn, và xử lý cuộc gọi nhiều bên. Lưu ý: Với giọng nói chồng lấn, model thường chuyển ngữ một người nói.

Hình ảnh 5: Icon Bộ lọc

Bias ngữ cảnh

Cung cấp tối đa 100 từ hoặc cụm từ để hướng dẫn model đến các chính tả đúng của tên, thuật ngữ kỹ thuật, hoặc từ vựng chuyên ngành. Đặc biệt hữu ích cho tên riêng hoặc thuật ngữ ngành mà các model tiêu chuẩn thường bỏ sót. Bias ngữ cảnh được tối ưu hóa cho tiếng Anh; hỗ trợ các ngôn ngữ khác đang trong giai đoạn thử nghiệm.

Hình ảnh 6: Timestamps từng từ

Timestamps từng từ

Tạo thời gian bắt đầu và kết thúc chính xác cho từng từ, cho phép các ứng dụng như tạo phụ đề, tìm kiếm âm thanh, và căn chỉnh nội dung.

Hình ảnh 7: Icon Trái Đất Đen

Hỗ trợ ngôn ngữ mở rộng

Giống như Realtime, model này nay hỗ trợ 13 ngôn ngữ: Anh, Trung Quốc, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý, và Hà Lan. Hiệu suất không tiếng Anh vượt xa các đối thủ.

Hình ảnh 8: Khả năng chịu tiếng ồn

Khả năng chịu tiếng ồn

Duy trì độ chính xác chuyển giọng trong môi trường âm thanh khó khăn, như nhà máy, trung tâm cuộc gọi bận rộn, và ghi chép hiện trường.

Hình ảnh 9: Hỗ trợ âm thanh dài hơn

Hỗ trợ âm thanh dài hơn

Xử lý bản ghi âm lên tới 3 giờ trong một lần yêu cầu.

Hình ảnh 10: FlEURS

Tỷ lệ sai sót từ (thấp hơn là tốt hơn) qua các ngôn ngữ trong tiêu chuẩn FLEURS.

Audio playground

Thử nghiệm Voxtral Transcribe 2 trực tiếp trong Mistral Studio. Tải lên tối đa 10 tập tin âm thanh, tùy chỉnh xác định người nói, chọn mức độ chi tiết timestamps, và thêm các từ nhấn mạnh cho từ vựng chuyên ngành. Hỗ trợ định dạng .mp3, .wav, .m4a, .flac, .ogg lên tới 1GB mỗi tập tin.

Biến đổi ứng dụng giọng nói

Voxtral hỗ trợ quy trình giọng nói trong nhiều ứng dụng và ngành công nghiệp.

Trí thông minh cuộc họp

Chuyển ngữ các bản ghi đa ngôn ngữ với xác định người nói rõ ràng cho biết ai đã nói gì và khi nào. Với mức giá của Voxtral, chỉ định nội dung cuộc họp ở quy mô lớn với hiệu quả chi phí hàng đầu ngành.

Tác nhân giọng nói và trợ lý ảo

Xây dựng AI đối thoại với độ trễ chuyển ngữ dưới 200ms. Kết nối Voxtral Realtime với pipeline LLM và TTS của bạn cho các giao diện giọng nói phản hồi tự nhiên.

Tự động hóa trung tâm liên lạc

Chuyển ngữ cuộc gọi trong thời gian thực, cho phép các hệ thống AI phân tích cảm xúc, gợi ý phản hồi, và điền thông tin CRM khi các cuộc trò chuyện vẫn đang diễn ra. Xác định người nói đảm bảo sự rõ ràng giữa nhân viên và khách hàng.

Truyền thông và phát sóng

Tạo phụ đề đa ngôn ngữ trực tiếp với độ trễ tối thiểu. Bias ngữ cảnh xử lý tên riêng và thuật ngữ kỹ thuật mà các dịch vụ chuyển ngữ chung không đảm đương được.

Tuân thủ và lưu trữ tài liệu

Theo dõi và chuyển ngữ các tương tác để tuân thủ quy định, với xác định người nói cung cấp sự định danh rõ ràng và timestamps cho phép theo dõi chính xác.

Cả hai mô hình hỗ trợ triển khai tuân thủ GDPR và HIPAA thông qua các thiết lập an toàn trên chỗ hoặc đám mây riêng.

Bắt đầu

Voxtral Mini Transcribe V2 có sẵn qua API với giá $0.003 mỗi phút. Thử ngay trong Mistral Studio audio playground hoặc Le Chat.

Voxtral Realtime có sẵn qua API với giá $0.006 mỗi phút và là mã nguồn mở trên Hugging Face.

Khám phá tài liệu về khả năng chuyển giọng và âm thanh của Mistral.

Tuyển dụng

Nếu bạn hứng thú với việc xây dựng AI giọng nói đẳng cấp thế giới và mang các mô hình tiên phong đến tay các nhà phát triển khắp nơi, chúng tôi rất vui được lắng nghe từ bạn. Nộp đơn gia nhập đội ngũ của chúng tôi.

Voxtral chuyển giọng nói thành văn bản với tốc độ âm thanh

TL;DR

Voxtral Transcribe 2: Giải pháp chuyển giọng nói thành văn bản hiện đại

Điểm nổi bật

Voxtral Realtime: Tối ưu cho tốc độ

Voxtral Mini Transcribe V2: Chất lượng hàng đầu

Tính năng doanh nghiệp sẵn sàng

Xác định người nói

Bias ngữ cảnh

Timestamps từng từ

Hỗ trợ ngôn ngữ mở rộng

Khả năng chịu tiếng ồn

Hỗ trợ âm thanh dài hơn

Audio playground

Biến đổi ứng dụng giọng nói

Trí thông minh cuộc họp

Tác nhân giọng nói và trợ lý ảo

Tự động hóa trung tâm liên lạc

Truyền thông và phát sóng

Tuân thủ và lưu trữ tài liệu

Bắt đầu

Tuyển dụng

Đường dẫn nguồn

Voxtral chuyển giọng nói thành văn bản với tốc độ âm thanh

TL;DR

Voxtral Transcribe 2: Giải pháp chuyển giọng nói thành văn bản hiện đại

Điểm nổi bật

Voxtral Realtime: Tối ưu cho tốc độ

Voxtral Mini Transcribe V2: Chất lượng hàng đầu

Tính năng doanh nghiệp sẵn sàng

Xác định người nói

Bias ngữ cảnh

Timestamps từng từ

Hỗ trợ ngôn ngữ mở rộng

Khả năng chịu tiếng ồn

Hỗ trợ âm thanh dài hơn

Audio playground

Biến đổi ứng dụng giọng nói

Trí thông minh cuộc họp

Tác nhân giọng nói và trợ lý ảo

Tự động hóa trung tâm liên lạc

Truyền thông và phát sóng

Tuân thủ và lưu trữ tài liệu

Bắt đầu

Tuyển dụng

Đường dẫn nguồn

Cùng bản tin này