Skip to content
tinAI
Go back

GitHub - antirez/voxtral.c: Triển khai mô hình chuyển giọng nói thành văn bản Voxtral Realtime 4B bằng C thuần túy

Bài gốc: GitHub - antirez/voxtral.c: Pure C inference of Mistral Voxtral Realtime 4B speech to text model

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Voxtral.c là triển khai mô hình Voxtral Realtime 4B sử dụng C thuần túy mà không cần phụ thuộc vào bất kỳ thư viện bên ngoài nào. Nó hỗ trợ xử lý âm thanh theo thời gian thực và cung cấp API C để xử lý dữ liệu âm thanh liên tục.

Triển khai Voxtral Realtime 4B bằng C

Giới thiệu

Đây là một triển khai bằng C cho quá trình suy luận của mô hình Voxtral Realtime 4B của Mistral AI. Không có bất kỳ phụ thuộc bên ngoài nào ngoài thư viện chuẩn C. Suy luận MPS tốc độ khá nhanh, trong khi gia tốc BLAS chậm hơn do liên tục chuyển đổi trọng số bf16 sang fp32.

Chức năng nổi bật

Bắt đầu nhanh

make mps
./download_model.sh
./voxtral -d voxtral-model -i audio.wav
./voxtral -d voxtral-model --from-mic

Triển khai Python

Triển khai đơn giản có trong Python để đọc và hiểu mô hình:

pip install torch safetensors soundfile soxr
python python_simple_implementation.py voxtral-model audio.wav

Mô hình kiến trúc

Voxtral Realtime 4B là mô hình chuyển giọng nói thành văn bản theo thời gian thực với ~4 tỷ tham số. Kiến trúc chủ yếu gồm bộ mã hóa âm thanh và bộ giải mã LLM.

Thành phầnGiá trị
Total parameters~4B
Weight formatBF16
Vocab size131,072

Yêu cầu bộ nhớ

Thành phầnKích thước
Model weights8.9 GB
KV cache~1.8 GB

Giấy phép

MIT


Read Original (EN) Quay lại Newsletter