Skip to content
tinAI
Go back

GitHub - fikrikarim/parlor: AI đa phương thức thời gian thực trên thiết bị

Bài gốc: GitHub - fikrikarim/parlor: On-device, real-time multimodal AI. Have natural voice and vision conversations with an AI that runs entirely on your machine. Powered by Gemma 4 E2B and Kokoro.

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Parlor là một ứng dụng AI đa phương thức chạy trên thiết bị của bạn, cho phép trò chuyện bằng giọng nói và hình ảnh một cách tự nhiên. Ứng dụng này không cần server, giúp tiết kiệm chi phí và có thể hỗ trợ học ngôn ngữ hiệu quả.

Parlor: AI Đa Phương Thức Trên Thiết Bị

Parlor cho phép bạn trò chuyện qua giọng nói và hình ảnh với AI mà không cần kết nối máy chủ ngoài. Ứng dụng này chạy hoàn toàn trên máy của bạn, sử dụng Gemma 4 E2B để hiểu giọng nói và hình ảnh, và Kokoro để chuyển văn bản thành giọng nói.

Nghiên cứu sơ bộ: Đây là một trải nghiệm ban đầu với nhiều cải tiến trong tương lai.

Lý do phát triển

Parlor được phát triển để hỗ trợ học tiếng Anh với chi phí thấp. Bằng cách chạy tất cả trên thiết bị, ứng dụng loại bỏ chi phí server và có khả năng chạy trên các thiết bị có hiệu suất thấp hơn.

Cách hoạt động

Trình duyệt (mic + camera)

│  WebSocket (audio PCM + JPEG frames)

FastAPI server
├── Gemma 4 E2B via LiteRT-LM (GPU)  →  hiểu giọng nói + hình ảnh
└── Kokoro TTS (MLX trên Mac, ONNX trên Linux)  →  phản hồi lại

│  WebSocket (luồng âm thanh)

Trình duyệt (phát âm + bản dịch)

Yêu cầu

Bắt đầu nhanh

git clone https://github.com/fikrikarim/parlor.git
cd parlor

# Cài đặt uv nếu chưa có
curl -LsSf https://astral.sh/uv/install.sh | sh

cd src
uv sync
uv run server.py

Mở http://localhost:8000, cho phép truy cập camera và micro, và bắt đầu trò chuyện.

Cấu hình

BiếnMặc địnhMiêu tả
MODEL_PATHTự động tải từ HuggingFaceĐường dẫn tới tệp gemma-4-E2B-it.litertlm
PORT8000Cổng server

Hiệu năng (Apple M3 Pro)

Giai đoạnThời gian
Hiểu giọng nói + hình ảnh~1.8-2.2s
Tạo phản hồi (~25 tokens)~0.3s
Chuyển văn bản thành giọng nói (1-3 câu)~0.3-0.7s
Tổng thời gian~2.5-3.0s

Cấu trúc dự án

src/
├── server.py              # FastAPI WebSocket server + Gemma 4 inference
├── tts.py                 # TTS sao cho phù hợp với nền tảng
├── index.html             # Giao diện UI
├── pyproject.toml         # Dependencies
└── benchmarks/
    ├── bench.py           # Đo hiệu năng WebSocket end-to-end
    └── benchmark_tts.py   # So sánh tts backend

Cám ơn

Giấy phép

Apache 2.0


Read Original (EN) Quay lại Newsletter