Skip to content
tinAI
Go back

Voxtral chuyển giọng nói thành văn bản với tốc độ âm thanh

Bài gốc: Voxtral transcribes at the speed of sound.

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Voxtral Transcribe 2 giới thiệu hai mô hình chuyển giọng nói thành văn bản với chất lượng tiên tiến, bao gồm Voxtral Mini Transcribe V2 cho xử lý hàng loạt và Voxtral Realtime cho ứng dụng trực tiếp. Voxtral Realtime có thể giảm độ trễ xuống dưới 200ms, tối ưu cho các tác vụ thời gian thực.

Voxtral Transcribe 2: Giải pháp chuyển giọng nói thành văn bản hiện đại

Hôm nay, chúng tôi ra mắt Voxtral Transcribe 2, hai mô hình chuyển giọng nói thành văn bản thế hệ mới với chất lượng tiên tiến nhất, hỗ trợ xác định người nói và độ trễ cực thấp. Bộ sản phẩm gồm có Voxtral Mini Transcribe V2 để xử lý hàng loạt và Voxtral Realtime cho các ứng dụng trực tiếp. Voxtral Realtime có mã nguồn mở theo giấy phép Apache 2.0.

Chúng tôi cũng ra mắt một audio playground tại Mistral Studio để thử nghiệm chuyển giọng nói thành văn bản tức thì, được hỗ trợ bởi Voxtral Transcribe 2, với tính năng xác định người nói và đánh dấu thời gian.

Điểm nổi bật

Voxtral Realtime: Tối ưu cho tốc độ

Voxtral Realtime được thiết kế riêng cho các ứng dụng khi độ trễ là yếu tố quan trọng. Khác với các phương pháp truyền thống xử lý âm thanh theo khối, Realtime sử dụng kiến trúc streaming mới, chuyển âm thanh thành văn bản khi nó đến. Model cung cấp chuyển văn bản với độ trễ điều chỉnh được xuống dưới 200ms, mở ra lớp ứng dụng giọng nói mới.

Hình ảnh 1: Fleur Voxtral 2

Tỷ lệ sai sót từ (thấp hơn là tốt hơn) qua các ngôn ngữ trong tiêu chuẩn FLEURS.

Với độ trễ 2.4 giây, lý tưởng cho phụ đề, Realtime sánh ngang với Voxtral Mini Transcribe V2, mô hình xử lý hàng loạt mới nhất của chúng tôi. Với độ trễ 480ms, nó giữ tỷ lệ sai sót từ trong khoảng 1-2%, cho phép các tác vụ gần như offline.

Model này hỗ trợ đa ngôn ngữ từ bản địa, đạt hiệu suất chuyển ngữ mạnh mẽ trong 13 ngôn ngữ bao gồm tiếng Anh, Trung Quốc, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý, và Hà Lan. Với 4 tỷ tham số, nó hoạt động hiệu quả trên thiết bị edge, đảm bảo bảo mật cho các ứng dụng nhạy cảm.

Chúng tôi phát hành các trọng số mô hình dưới giấy phép Apache 2.0 trên Hugging Face Hub.

Voxtral Mini Transcribe V2: Chất lượng hàng đầu

Hình ảnh 2: Voxtral 2.0   Avg Diarization Error Rate   Priceper Min

Tỷ lệ lỗi xác định người nói trung bình (thấp hơn là tốt hơn) trên năm tiêu chuẩn Anh (Switchboard, CallHome, AMI-IHM, AMI-SDM, SBCSAE) và tiêu chuẩn TalkBank đa ngữ (Đức, Tây Ban Nha, Anh, Trung Quốc, Nhật).

Hình ảnh 3: Voxtral 2.0   Transcription Performance Fleurs   Priceper Min

Tỷ lệ sai sót từ trung bình (thấp hơn là tốt hơn) trên 10 ngôn ngữ hàng đầu trong tiêu chuẩn FLEURS.

Voxtral Mini Transcribe V2 mang lại cải tiến đáng kể về chất lượng chuyển giọng và xác định người nói trên các ngôn ngữ và lĩnh vực. Với khoảng 4% tỷ lệ sai sót từ trên FLEURS và giá $0.003/phút, Voxtral cung cấp hiệu suất giá-tốt nhất trong các API chuyển giọng. Nó vượt qua GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal và Deepgram Nova về độ chính xác, và xử lý âm thanh nhanh hơn khoảng 3 lần so với ElevenLabs’ Scribe v2 trong khi vẫn giữ chất lượng tương đương với chi phí chỉ bằng một phần năm.

Tính năng doanh nghiệp sẵn sàng

Voxtral Mini Transcribe V2 giới thiệu các khả năng quan trọng cho việc triển khai trong doanh nghiệp.

Hình ảnh 4: Icon Ngôn ngữ

Xác định người nói

Tạo bản chuyển ngữ với nhãn người nói và thời gian bắt đầu/kết thúc chính xác. Lý tưởng cho việc ghi chép cuộc họp, phân tích phỏng vấn, và xử lý cuộc gọi nhiều bên. Lưu ý: Với giọng nói chồng lấn, model thường chuyển ngữ một người nói.

Hình ảnh 5: Icon Bộ lọc

Bias ngữ cảnh

Cung cấp tối đa 100 từ hoặc cụm từ để hướng dẫn model đến các chính tả đúng của tên, thuật ngữ kỹ thuật, hoặc từ vựng chuyên ngành. Đặc biệt hữu ích cho tên riêng hoặc thuật ngữ ngành mà các model tiêu chuẩn thường bỏ sót. Bias ngữ cảnh được tối ưu hóa cho tiếng Anh; hỗ trợ các ngôn ngữ khác đang trong giai đoạn thử nghiệm.

Hình ảnh 6: Timestamps từng từ

Timestamps từng từ

Tạo thời gian bắt đầu và kết thúc chính xác cho từng từ, cho phép các ứng dụng như tạo phụ đề, tìm kiếm âm thanh, và căn chỉnh nội dung.

Hình ảnh 7: Icon Trái Đất Đen

Hỗ trợ ngôn ngữ mở rộng

Giống như Realtime, model này nay hỗ trợ 13 ngôn ngữ: Anh, Trung Quốc, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý, và Hà Lan. Hiệu suất không tiếng Anh vượt xa các đối thủ.

Hình ảnh 8: Khả năng chịu tiếng ồn

Khả năng chịu tiếng ồn

Duy trì độ chính xác chuyển giọng trong môi trường âm thanh khó khăn, như nhà máy, trung tâm cuộc gọi bận rộn, và ghi chép hiện trường.

Hình ảnh 9: Hỗ trợ âm thanh dài hơn

Hỗ trợ âm thanh dài hơn

Xử lý bản ghi âm lên tới 3 giờ trong một lần yêu cầu.

Hình ảnh 10: FlEURS

Tỷ lệ sai sót từ (thấp hơn là tốt hơn) qua các ngôn ngữ trong tiêu chuẩn FLEURS.

Audio playground

Thử nghiệm Voxtral Transcribe 2 trực tiếp trong Mistral Studio. Tải lên tối đa 10 tập tin âm thanh, tùy chỉnh xác định người nói, chọn mức độ chi tiết timestamps, và thêm các từ nhấn mạnh cho từ vựng chuyên ngành. Hỗ trợ định dạng .mp3, .wav, .m4a, .flac, .ogg lên tới 1GB mỗi tập tin.

Biến đổi ứng dụng giọng nói

Voxtral hỗ trợ quy trình giọng nói trong nhiều ứng dụng và ngành công nghiệp.

Chuyển ngữ các bản ghi đa ngôn ngữ với xác định người nói rõ ràng cho biết ai đã nói gì và khi nào. Với mức giá của Voxtral, chỉ định nội dung cuộc họp ở quy mô lớn với hiệu quả chi phí hàng đầu ngành.

Xây dựng AI đối thoại với độ trễ chuyển ngữ dưới 200ms. Kết nối Voxtral Realtime với pipeline LLM và TTS của bạn cho các giao diện giọng nói phản hồi tự nhiên.

Chuyển ngữ cuộc gọi trong thời gian thực, cho phép các hệ thống AI phân tích cảm xúc, gợi ý phản hồi, và điền thông tin CRM khi các cuộc trò chuyện vẫn đang diễn ra. Xác định người nói đảm bảo sự rõ ràng giữa nhân viên và khách hàng.

Tạo phụ đề đa ngôn ngữ trực tiếp với độ trễ tối thiểu. Bias ngữ cảnh xử lý tên riêng và thuật ngữ kỹ thuật mà các dịch vụ chuyển ngữ chung không đảm đương được.

Theo dõi và chuyển ngữ các tương tác để tuân thủ quy định, với xác định người nói cung cấp sự định danh rõ ràng và timestamps cho phép theo dõi chính xác.

Cả hai mô hình hỗ trợ triển khai tuân thủ GDPR và HIPAA thông qua các thiết lập an toàn trên chỗ hoặc đám mây riêng.

Bắt đầu

Voxtral Mini Transcribe V2 có sẵn qua API với giá $0.003 mỗi phút. Thử ngay trong Mistral Studio audio playground hoặc Le Chat.

Voxtral Realtime có sẵn qua API với giá $0.006 mỗi phút và là mã nguồn mở trên Hugging Face.

Khám phá tài liệu về khả năng chuyển giọng và âm thanh của Mistral.

Tuyển dụng

Nếu bạn hứng thú với việc xây dựng AI giọng nói đẳng cấp thế giới và mang các mô hình tiên phong đến tay các nhà phát triển khắp nơi, chúng tôi rất vui được lắng nghe từ bạn. Nộp đơn gia nhập đội ngũ của chúng tôi.


Read Original (EN) Quay lại Newsletter