GitHub - KittenML/KittenTTS: Mô hình TTS tiên tiến dưới 25MB 😻

Kitten TTS

Kitten TTS là thư viện chuyển văn bản thành giọng nói (TTS) mở rộng,trọng lượng nhẹ, phát triển trên nền tảng ONNX. Với các mô hình có kích thước từ 15M đến 80M tham số (25-80 MB trên đĩa), nó cung cấp khả năng tổng hợp giọng nói chất lượng cao trên CPU mà không cần dùng đến GPU.

Tính năng

Siêu nhẹ: Kích thước mô hình từ 25 MB (int8) đến 80 MB, phù hợp cho triển khai edge.
Tối ưu hóa CPU: Phân giải dựa trên ONNX chạy hiệu quả không cần GPU.
8 giọng nói tích hợp: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, và Leo.
Điều chỉnh tốc độ phát: Kiểm soát tốc độ thông qua tham số speed.
Tiền xử lý văn bản: Xử lý số, đơn vị tiền tệ, đơn vị và nhiều hơn nữa.
Đầu ra 24 kHz: Âm thanh chất lượng cao với tỷ lệ mẫu chuẩn.

Mô Hình Sẵn Có

Mô Hình	Tham Số	Kích Thước	Tải Về
kitten-tts-mini	80M	80 MB	KittenML/kitten-tts-mini-0.8
kitten-tts-micro	40M	41 MB	KittenML/kitten-tts-micro-0.8
kitten-tts-nano	15M	56 MB	KittenML/kitten-tts-nano-0.8-fp32
kitten-tts-nano (int8)	15M	25 MB	KittenML/kitten-tts-nano-0.8-int8

Lưu ý: Một số người dùng đã báo cáo vấn đề với mô hình kitten-tts-nano-0.8-int8. Nếu bạn gặp vấn đề, hãy mở một issue.

Hướng Dẫn Nhanh

Yêu Cầu

Python 3.8 trở lên
pip

Cài đặt

pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl

Sử Dụng Cơ Bản

from kittentts import KittenTTS

model = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = model.generate("This high-quality TTS model runs without a GPU.", voice="Jasper")

import soundfile as sf
sf.write("output.wav", audio, 24000)

Sử Dụng Nâng Cao

# Điều chỉnh tốc độ phát (mặc định: 1.0)
audio = model.generate("Hello, world.", voice="Luna", speed=1.2)

# Lưu trực tiếp vào file
model.generate_to_file("Hello, world.", "output.wav", voice="Bruno", speed=0.9)

# Danh sách giọng nói có sẵn
print(model.available_voices)
# ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

Yêu Cầu Hệ Thống

Hệ điều hành: Linux, macOS, hoặc Windows
Python: 3.8 hoặc cao hơn
Phần cứng: Chạy trên CPU; không cần GPU
Dung lượng đĩa: 25-80 MB tùy theo mô hình

Hỗ Trợ Thương Mại

Chúng tôi cung cấp hỗ trợ thương mại cho các đội nhóm tích hợp Kitten TTS vào sản phẩm của họ. Điều này bao gồm hỗ trợ tích hợp, phát triển giọng nói tùy chỉnh, và cấp phép doanh nghiệp. Liên hệ chúng tôi hoặc email info@stellonlabs.com.

Cộng Đồng và Hỗ Trợ

Discord: Tham gia cộng đồng
Website: kittenml.com
Hỗ trợ tùy chỉnh: Mẫu yêu cầu
Email: info@stellonlabs.com
Issues: GitHub Issues

Giấy Phép

Dự án này được cấp quyền sử dụng theo Apache License 2.0.

GitHub - KittenML/KittenTTS: Mô hình TTS tiên tiến dưới 25MB 😻

TL;DR

Kitten TTS

Tính năng

Mô Hình Sẵn Có

Hướng Dẫn Nhanh

Yêu Cầu

Cài đặt

Sử Dụng Cơ Bản

Sử Dụng Nâng Cao

Yêu Cầu Hệ Thống

Hỗ Trợ Thương Mại

Cộng Đồng và Hỗ Trợ

Giấy Phép

Đường dẫn nguồn

GitHub - KittenML/KittenTTS: Mô hình TTS tiên tiến dưới 25MB 😻

TL;DR

Kitten TTS

Tính năng

Mô Hình Sẵn Có

Hướng Dẫn Nhanh

Yêu Cầu

Cài đặt

Sử Dụng Cơ Bản

Sử Dụng Nâng Cao

Yêu Cầu Hệ Thống

Hỗ Trợ Thương Mại

Cộng Đồng và Hỗ Trợ

Giấy Phép

Đường dẫn nguồn

Cùng bản tin này