🦥 Unsloth Dynamic 2.0 GGUFs
Một nâng cấp lớn mới cho Dynamic Quants!
Chúng tôi vui mừng giới thiệu phương pháp lượng tử hóa Unsloth Dynamic v2.0 - một cải tiến lớn so với các phương pháp cũ. Phương pháp này vượt trội hơn các phương pháp lượng tử hàng đầu, thiết lập tiêu chuẩn mới cho Aider Polglot, 5-shot MMLU và KL Divergence.
Điều này có nghĩa là bạn có thể chạy và điều chỉnh LLM đã lượng tử hóa mà vẫn giữ được độ chính xác cao nhất có thể. Bạn có thể chạy 2.0 GGUFs trên hầu hết các công cụ suy luận như llama.cpp, LM Studio, v.v.


Nâng cấp chính trong Dynamic 2.0 GGUFs:
- Lựa chọn lớp thông minh: Dynamic 2.0 giờ đây chọn lớp lượng tử hóa thông minh hơn và rộng khắp.
- Tùy biến cho từng mô hình: Mỗi mô hình sử dụng một sơ đồ lượng tử hóa riêng.
- Hiệu quả tối đa trên các thiết bị ARM: Sử dụng các định dạng Q4_NL, Q5.1, Q5.0, Q4.1 và Q4.0.
Để đảm bảo độ chính xác cho benchmaking, chúng tôi xây dựng một khung đánh giá nội bộ so sánh với MMLU chính thức và chuẩn GGUF imatrix và QAT.
Điểm nổi bật phân tích sâu về KL Divergence:
KL Divergence nên là tiêu chuẩn vàng để báo cáo lỗi lượng tử hóa. Sử dụng perplexity không chính xác vì giá trị đầu ra có thể triệt tiêu nhau.
Để đảm bảo đánh giá công bằng và có kiểm soát, chúng tôi không sử dụng bộ dữ liệu hiệu chuẩn của riêng mình khi đánh giá KL Divergence.
MMLU và Khả năng nhân bản:
Replicating MMLU 5-shot rất khó khăn. Chúng tôi không thể lặp lại kết quả MMLU cho nhiều mô hình do các vấn đề triển khai tinh tế.
Gemma 3 QAT Replication, Benchmarks:
Gemma đã phát hành hai phiên bản QAT của Gemma 3.
Q4_0 GGUF:
-
Mô hình 12B Q4_0 QAT đạt 67.07%, rất gần với phiên bản bfloat16 12B (67.15%).
-
Hiệu quả: Chúng tôi thiết kế một chỉ số hiệu quả mới để đo lường sự hữu ích của mô hình.
🦙 Llama 4 Sửa lỗi và Chạy thử:
Chúng tôi đã giúp sửa một số lỗi của Llama 4:
- Thay đổi cấu hình RoPE Scaling.
- Sửa lỗi chia sẻ QK Norm.
Chạy Llama 4 Scout:
Đầu tiên, clone llama.cpp:
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
Sau đó tải bản Dynamic v2.0 cho Scout:
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
allow_patterns = ["*IQ2_XXS*"],
)
Và thực hiện suy luận!
./llama.cpp/llama-cli \
--model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \
--threads 32 \
--ctx-size 16384 \
--n-gpu-layers 99 \
-ot ".ffn_.*_exps.=CPU" \
--seed 3407 \
--prio 3 \
--temp 0.6 \
--min-p 0.01 \
--top-p 0.9 \
-no-cnv \
--prompt "<|header_start|>user<|header_end|>\n\nCreate a Flappy Bird game.<|eot|><|header_start|>assistant<|header_end|>\n\n"