Skip to content
tinAI
Go back

Moonshine: Công nghệ Nhận Dạng Giọng Nói Tự Động Cho Thiết Bị Cạnh

Bài gốc: GitHub - moonshine-ai/moonshine: Fast and accurate automatic speech recognition (ASR) for edge devices

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Moonshine là một toolkit AI mã nguồn mở cho các ứng dụng giọng nói thời gian thực, hoạt động nhanh, riêng tư và không yêu cầu tài khoản. Nó được tối ưu hóa cho các ứng dụng streaming với độ trễ thấp và hỗ trợ nhiều ngôn ngữ.

Moonshine Voice

Giao Diện Giọng Nói Cho Mọi Người

Moonshine là một toolkit AI mã nguồn mở dành cho các nhà phát triển xây dựng ứng dụng giọng nói thời gian thực.

Quickstart

Python

pip install moonshine-voice
python -m moonshine_voice.mic_transcriber --language en

iOS

Tải và mở dự án Transcriber.xcodeproj trong Xcode.

Android

Tải và mở thư mục Transcriber trong Android Studio.

Linux

git clone https://github.com/moonshine-ai/moonshine
cd core
mkdir build
cmake ..
cmake --build .
./moonshine-cpp-test

MacOS

Tải và mở dự án MicTranscription.xcodeproj trong Xcode.

Raspberry Pi

sudo pip install --break-system-packages moonshine-voice
python -m moonshine_voice.mic_transcriber --language en

Khi Nào Chọn Moonshine Thay Vì Whisper?

Moonshine hoạt động tốt hơn Whisper trong các ứng dụng giọng nói trực tiếp nhờ độ trễ thấp và sự tối ưu hóa cho thiết bị cạnh.

ModelWERParametersMacBook ProLinux x86
Moonshine Medium Streaming6.65%245 triệu107ms269ms
Whisper Large v37.44%1.5 tỷ11,286ms16,919ms

Sử dụng Thư viện

Moonshine API cung cấp giải pháp toàn diện cho các thao tác phổ biến như phiên âm giọng nói, nhận diện người nói và nhận lệnh mà không cần chuyên môn sâu.

Cấu Trúc Hệ Thống

class TestListener(TranscriptEventListener):
    def on_line_started(self, event):
        print(f"Line started: {event.line.text}")

Kiến trúc

Moonshine bao gồm tất cả các bước trong một thư viện đơn để chuyển âm thanh giọng nói thành các sự kiện hoặc văn bản có thể phản hồi.

Nhận Lệnh

Ví dụ

Chạy lệnh:

python -m moonshine_voice.intent_recognizer

Xây dựng giao diện giọng nói dễ dàng với khả năng nhận diện lệnh từ ngôn ngữ tự nhiên.

Ví Dụ

Tìm các ví dụ mã nguồn trong thư mục examples trên GitHub.

DEBUG

Lưu Âm Thanh Đầu Vào

Đặt save_input_wav_path khi tạo Transcriber để lưu lại âm thanh đầu vào cho kiểm tra chất lượng phiên âm.

Cần Giúp Đỡ?

Tham gia cộng đồng Moonshine trên Discord để nhận sự hỗ trợ.

Cảm ơn

Moonshine cảm ơn Lambda và cộng đồng ONNX Runtime.

License

Mã nguồn theo MIT License, các mô hình tiếng Anh cũng theo MIT, trong khi các ngôn ngữ khác theo giấy phép cộng đồng Moonshine.


Read Original (EN) Quay lại Newsletter