Skip to content
tinAI
Go back

VibeVoice: Microsoft open-source bộ ba voice AI — ASR 60 phút, TTS 90 phút, Realtime 0.5B 300ms

Bài gốc: microsoft/VibeVoice: Open-Source Frontier Voice AI

Tác giả: Microsoft

Ngày đăng: Dịch ngày:

TL;DR

Microsoft release VibeVoice — bộ ba model voice open-source dưới MIT, base trên Qwen2.5 1.5B: ASR xử lý 60 phút audio liền mạch với speaker diarization và custom hotword; TTS multi-speaker tới 90 phút cho 4 voice trong cùng conversation, hỗ trợ EN/CN + cross-lingual; Realtime 0.5B với ~300ms first-audible latency cho streaming.

Giới thiệu

VibeVoice là bộ ba speech model open-source của Microsoft, gồm: ASR long-form, TTS multi-speaker long-form, và Realtime streaming TTS. Tất cả MIT license, base trên Qwen2.5 1.5B.

Repo: https://github.com/microsoft/VibeVoice

Tính năng chính

1. VibeVoice-ASR — Long-form Speech Recognition

Unified speech-to-text model handle 60 phút audio liền mạch trong 1 pass. Output structured: Who (speaker), When (timestamp), What (content). Hỗ trợ Customized Hotword.

Link: Documentation | Hugging Face | Playground | Finetuning | Paper

2. VibeVoice-TTS — Long-form Multi-speaker TTS

Best for: long-form conversational audio, podcast, multi-speaker dialogue.

Link: Documentation | Hugging Face | Paper

3. VibeVoice-Streaming — Real-time Streaming TTS

Lightweight real-time TTS model hỗ trợ streaming text input và robust long-form generation.

Link: Documentation | Hugging Face | Colab

Cách sử dụng

Risk + Limitation (Microsoft note)

Dev nên quan tâm vì…

  1. Nếu build podcast / meeting transcription: VibeVoice-ASR đáng thử ngay — 60 phút single-pass + diarization + custom hotword là feature set hiếm có ở model open-source.
  2. Nếu build TTS cho long-form content (audiobook, podcast, dialogue agent): TTS variant 90 phút, 4 speaker, EN/CN + cross-lingual mạnh hơn nhiều TTS open hiện có (Bark, XTTS-v2).
  3. Nếu deploy edge / CPU: Realtime 0.5B với ~300ms latency là baseline mới cho TTS lightweight.
  4. Nếu build voice product cần verification: nhớ disclaimer của MS — voice clone từ model này tốt đủ để bypass weak biometric. Nâng threshold liveness check + phrase challenge khi sản phẩm đụng tới voice auth.

Read Original (EN) Quay lại Newsletter