bitnet.cpp
Bitnet.cpp là khung suy luận chính thức cho các mô hình 1-bit LLMs (ví dụ: BitNet b1.58). Nó cung cấp một tập hợp các kernel được tối ưu hóa, hỗ trợ suy luận nhanh chóng và không tổn thất của các mô hình 1.58-bit trên CPU và GPU (sắp hỗ trợ NPU).
Phiên bản đầu tiên của bitnet.cpp hỗ trợ suy luận trên CPU. Bitnet.cpp đạt được tốc độ từ 1.37x đến 5.07x trên CPU ARM và giảm tiêu thụ năng lượng từ 55.4% đến 70.0%. Trên CPU x86, tốc độ tăng từ 2.37x đến 6.17x và giảm tiêu thụ năng lượng từ 71.9% đến 82.2%. Bitnet.cpp có thể chạy mô hình BitNet b1.58 100B trên một CPU đơn lẻ với tốc độ tương đương với tốc độ đọc của con người (5-7 tokens mỗi giây).
Tối ưu hóa mới nhất giới thiệu các triển khai kernel song song với khả năng cấu hình và hỗ trợ lượng tử hóa nhúng, đạt tốc độ từ 1.15x đến 2.1x so với phiên bản gốc. Xem hướng dẫn tối ưu hóa để biết thêm thông tin chi tiết.
Demo
Một demo của bitnet.cpp chạy mô hình BitNet b1.58 3B trên Apple M2:
demo.mp4
What’s New
- 01/15/2026 BitNet CPU Inference Optimization
- 05/20/2025 BitNet Official GPU inference kernel
- 04/14/2025 BitNet Official 2B Parameter Model on Hugging Face
Acknowledgements
Dự án này dựa trên khung llama.cpp. Cảm ơn tất cả các tác giả đã đóng góp cho cộng đồng mã nguồn mở.
Official Models
| Model | Parameters | CPU | Kernel |
|---|---|---|---|
| BitNet-b1.58-2B-4T | 2.4B | x86 | ✅ |
Installation
Requirements
- python>=3.9
- cmake>=3.22
- clang>=18
Build from Source
-
Clone the repo
git clone --recursive https://github.com/microsoft/BitNet.git cd BitNet -
Install the dependencies
conda create -n bitnet-cpp python=3.9 conda activate bitnet-cpp pip install -r requirements.txt -
Build the project
huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s
Usage
Basic usage
Chạy suy luận với mô hình lượng tử hóa
python run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv