Triển khai Voxtral Realtime 4B bằng C
Giới thiệu
Đây là một triển khai bằng C cho quá trình suy luận của mô hình Voxtral Realtime 4B của Mistral AI. Không có bất kỳ phụ thuộc bên ngoài nào ngoài thư viện chuẩn C. Suy luận MPS tốc độ khá nhanh, trong khi gia tốc BLAS chậm hơn do liên tục chuyển đổi trọng số bf16 sang fp32.
Chức năng nổi bật
- Không phụ thuộc thư viện ngoài: C triển khai thuần túy, hoạt động độc lập cho MPS. BLAS được yêu cầu cho các mục tiêu khác
- Tăng tốc GPU Metal: Tự động trên máy Apple Silicon với các phép toán trên GPU được hợp nhất.
- Xuất ra liên tục: Các token được in ra khi được tạo.
- API C phát trực tuyến: Nhập âm thanh dần dần, nhận lại chuỗi token ngay khi chúng có sẵn.
Bắt đầu nhanh
make mps
./download_model.sh
./voxtral -d voxtral-model -i audio.wav
./voxtral -d voxtral-model --from-mic
- Sử dụng microphone:
--from-micbắt và phiên âm từ microphone mặc định (macOS). - Truyền phát trực tiếp với độ trễ thấp với ffmpeg.
Triển khai Python
Triển khai đơn giản có trong Python để đọc và hiểu mô hình:
pip install torch safetensors soundfile soxr
python python_simple_implementation.py voxtral-model audio.wav
Mô hình kiến trúc
Voxtral Realtime 4B là mô hình chuyển giọng nói thành văn bản theo thời gian thực với ~4 tỷ tham số. Kiến trúc chủ yếu gồm bộ mã hóa âm thanh và bộ giải mã LLM.
| Thành phần | Giá trị |
|---|---|
| Total parameters | ~4B |
| Weight format | BF16 |
| Vocab size | 131,072 |
Yêu cầu bộ nhớ
| Thành phần | Kích thước |
|---|---|
| Model weights | 8.9 GB |
| KV cache | ~1.8 GB |
Giấy phép
MIT