Skip to content
tinAI
Go back

GitHub - Microsoft/BitNet: Khung suy luận chính thức cho Mô hình Ngôn ngữ Lớn 1-bit

Bài gốc: GitHub - microsoft/BitNet: Official inference framework for 1-bit LLMs

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

BitNet là một khung suy luận tối ưu cho các mô hình 1-bit LLMs, tạo ra hiệu suất cao và tiết kiệm năng lượng trên CPU và GPU. Các nhà phát triển có thể dễ dàng thử nghiệm hoặc triển khai trên thiết bị cá nhân.

bitnet.cpp

Bitnet.cpp là khung suy luận chính thức cho các mô hình 1-bit LLMs (ví dụ: BitNet b1.58). Nó cung cấp một tập hợp các kernel được tối ưu hóa, hỗ trợ suy luận nhanh chóngkhông tổn thất của các mô hình 1.58-bit trên CPU và GPU (sắp hỗ trợ NPU).

Phiên bản đầu tiên của bitnet.cpp hỗ trợ suy luận trên CPU. Bitnet.cpp đạt được tốc độ từ 1.37x đến 5.07x trên CPU ARM và giảm tiêu thụ năng lượng từ 55.4% đến 70.0%. Trên CPU x86, tốc độ tăng từ 2.37x đến 6.17x và giảm tiêu thụ năng lượng từ 71.9% đến 82.2%. Bitnet.cpp có thể chạy mô hình BitNet b1.58 100B trên một CPU đơn lẻ với tốc độ tương đương với tốc độ đọc của con người (5-7 tokens mỗi giây).

Tối ưu hóa mới nhất giới thiệu các triển khai kernel song song với khả năng cấu hình và hỗ trợ lượng tử hóa nhúng, đạt tốc độ từ 1.15x đến 2.1x so với phiên bản gốc. Xem hướng dẫn tối ưu hóa để biết thêm thông tin chi tiết.

Demo

Một demo của bitnet.cpp chạy mô hình BitNet b1.58 3B trên Apple M2:

demo.mp4

What’s New

Acknowledgements

Dự án này dựa trên khung llama.cpp. Cảm ơn tất cả các tác giả đã đóng góp cho cộng đồng mã nguồn mở.

Official Models

ModelParametersCPUKernel
BitNet-b1.58-2B-4T2.4Bx86

Installation

Requirements

Build from Source

  1. Clone the repo

    git clone --recursive https://github.com/microsoft/BitNet.git
    cd BitNet
  2. Install the dependencies

    conda create -n bitnet-cpp python=3.9
    conda activate bitnet-cpp
    
    pip install -r requirements.txt
  3. Build the project

    huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T
    python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s

Usage

Basic usage

Chạy suy luận với mô hình lượng tử hóa

python run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv

Read Original (EN) Quay lại Newsletter