GitHub - antirez/voxtral.c: Triển khai mô hình chuyển giọng nói thành văn bản Voxtral Realtime 4B bằng C thuần túy

Bản dịch tiếng Việt của tinAI · Từ GitHub - antirez/voxtral.c: Pure C inference of Mistral Voxtral Realtime 4B speech to text model (github.com) · Ngày gốc: 2026-02-11 · Dịch ngày: 2026-02-11

Bài gốc: GitHub - antirez/voxtral.c: Pure C inference of Mistral Voxtral Realtime 4B speech to text model (github.com)

Tác giả: Unknown

Ngày đăng: 2026-02-11 Dịch ngày: 2026-02-11

TL;DR

Voxtral.c là triển khai mô hình Voxtral Realtime 4B sử dụng C thuần túy mà không cần phụ thuộc vào bất kỳ thư viện bên ngoài nào. Nó hỗ trợ xử lý âm thanh theo thời gian thực và cung cấp API C để xử lý dữ liệu âm thanh liên tục.

Ước tính đọc: 2 phút

Triển khai Voxtral Realtime 4B bằng C

Giới thiệu

Đây là một triển khai bằng C cho quá trình suy luận của mô hình Voxtral Realtime 4B của Mistral AI. Không có bất kỳ phụ thuộc bên ngoài nào ngoài thư viện chuẩn C. Suy luận MPS tốc độ khá nhanh, trong khi gia tốc BLAS chậm hơn do liên tục chuyển đổi trọng số bf16 sang fp32.

Chức năng nổi bật

Không phụ thuộc thư viện ngoài: C triển khai thuần túy, hoạt động độc lập cho MPS. BLAS được yêu cầu cho các mục tiêu khác
Tăng tốc GPU Metal: Tự động trên máy Apple Silicon với các phép toán trên GPU được hợp nhất.
Xuất ra liên tục: Các token được in ra khi được tạo.
API C phát trực tuyến: Nhập âm thanh dần dần, nhận lại chuỗi token ngay khi chúng có sẵn.

Bắt đầu nhanh

make mps
./download_model.sh
./voxtral -d voxtral-model -i audio.wav
./voxtral -d voxtral-model --from-mic

Sử dụng microphone: --from-mic bắt và phiên âm từ microphone mặc định (macOS).
Truyền phát trực tiếp với độ trễ thấp với ffmpeg.

Triển khai Python

Triển khai đơn giản có trong Python để đọc và hiểu mô hình:

pip install torch safetensors soundfile soxr
python python_simple_implementation.py voxtral-model audio.wav

Mô hình kiến trúc

Voxtral Realtime 4B là mô hình chuyển giọng nói thành văn bản theo thời gian thực với ~4 tỷ tham số. Kiến trúc chủ yếu gồm bộ mã hóa âm thanh và bộ giải mã LLM.

Thành phần	Giá trị
Total parameters	~4B
Weight format	BF16
Vocab size	131,072

Yêu cầu bộ nhớ

Thành phần	Kích thước
Model weights	8.9 GB
KV cache	~1.8 GB

Giấy phép

MIT