Kitten TTS
Kitten TTS là thư viện chuyển văn bản thành giọng nói (TTS) mở rộng,trọng lượng nhẹ, phát triển trên nền tảng ONNX. Với các mô hình có kích thước từ 15M đến 80M tham số (25-80 MB trên đĩa), nó cung cấp khả năng tổng hợp giọng nói chất lượng cao trên CPU mà không cần dùng đến GPU.
Tính năng
- Siêu nhẹ: Kích thước mô hình từ 25 MB (int8) đến 80 MB, phù hợp cho triển khai edge.
- Tối ưu hóa CPU: Phân giải dựa trên ONNX chạy hiệu quả không cần GPU.
- 8 giọng nói tích hợp: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, và Leo.
- Điều chỉnh tốc độ phát: Kiểm soát tốc độ thông qua tham số
speed. - Tiền xử lý văn bản: Xử lý số, đơn vị tiền tệ, đơn vị và nhiều hơn nữa.
- Đầu ra 24 kHz: Âm thanh chất lượng cao với tỷ lệ mẫu chuẩn.
Mô Hình Sẵn Có
| Mô Hình | Tham Số | Kích Thước | Tải Về |
|---|---|---|---|
| kitten-tts-mini | 80M | 80 MB | KittenML/kitten-tts-mini-0.8 |
| kitten-tts-micro | 40M | 41 MB | KittenML/kitten-tts-micro-0.8 |
| kitten-tts-nano | 15M | 56 MB | KittenML/kitten-tts-nano-0.8-fp32 |
| kitten-tts-nano (int8) | 15M | 25 MB | KittenML/kitten-tts-nano-0.8-int8 |
Lưu ý: Một số người dùng đã báo cáo vấn đề với mô hình
kitten-tts-nano-0.8-int8. Nếu bạn gặp vấn đề, hãy mở một issue.
Hướng Dẫn Nhanh
Yêu Cầu
- Python 3.8 trở lên
- pip
Cài đặt
pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
Sử Dụng Cơ Bản
from kittentts import KittenTTS
model = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = model.generate("This high-quality TTS model runs without a GPU.", voice="Jasper")
import soundfile as sf
sf.write("output.wav", audio, 24000)
Sử Dụng Nâng Cao
# Điều chỉnh tốc độ phát (mặc định: 1.0)
audio = model.generate("Hello, world.", voice="Luna", speed=1.2)
# Lưu trực tiếp vào file
model.generate_to_file("Hello, world.", "output.wav", voice="Bruno", speed=0.9)
# Danh sách giọng nói có sẵn
print(model.available_voices)
# ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']
Yêu Cầu Hệ Thống
- Hệ điều hành: Linux, macOS, hoặc Windows
- Python: 3.8 hoặc cao hơn
- Phần cứng: Chạy trên CPU; không cần GPU
- Dung lượng đĩa: 25-80 MB tùy theo mô hình
Hỗ Trợ Thương Mại
Chúng tôi cung cấp hỗ trợ thương mại cho các đội nhóm tích hợp Kitten TTS vào sản phẩm của họ. Điều này bao gồm hỗ trợ tích hợp, phát triển giọng nói tùy chỉnh, và cấp phép doanh nghiệp. Liên hệ chúng tôi hoặc email info@stellonlabs.com.
Cộng Đồng và Hỗ Trợ
- Discord: Tham gia cộng đồng
- Website: kittenml.com
- Hỗ trợ tùy chỉnh: Mẫu yêu cầu
- Email: info@stellonlabs.com
- Issues: GitHub Issues
Giấy Phép
Dự án này được cấp quyền sử dụng theo Apache License 2.0.