Skip to content
tinAI
Go back

Unsloth Dynamic 2.0 GGUFs - Tài liệu Unsloth

Bài gốc: Unsloth Dynamic 2.0 GGUFs | Unsloth Documentation

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Unsloth Dynamic 2.0 GGUF là một nâng cấp lớn cho quants với khả năng vượt trội so với các phương pháp hiện có. Nó giúp tối ưu hiệu suất và độ chính xác khi xử lý LLMs. Các nâng cấp mới bao gồm điều chỉnh thông minh, tùy biến theo mô hình và cải thiện đáng kể hiệu suất benchmarks.

🦥 Unsloth Dynamic 2.0 GGUFs

Một nâng cấp lớn mới cho Dynamic Quants!

Chúng tôi vui mừng giới thiệu phương pháp lượng tử hóa Unsloth Dynamic v2.0 - một cải tiến lớn so với các phương pháp cũ. Phương pháp này vượt trội hơn các phương pháp lượng tử hàng đầu, thiết lập tiêu chuẩn mới cho Aider Polglot, 5-shot MMLU và KL Divergence.

Điều này có nghĩa là bạn có thể chạy và điều chỉnh LLM đã lượng tử hóa mà vẫn giữ được độ chính xác cao nhất có thể. Bạn có thể chạy 2.0 GGUFs trên hầu hết các công cụ suy luận như llama.cpp, LM Studio, v.v.

DeepSeek-V3.2 Thinking Aider Benchmarks

Llama 4 5-shot MMLU Benchmarks

Nâng cấp chính trong Dynamic 2.0 GGUFs:

Để đảm bảo độ chính xác cho benchmaking, chúng tôi xây dựng một khung đánh giá nội bộ so sánh với MMLU chính thức và chuẩn GGUF imatrix và QAT.

Điểm nổi bật phân tích sâu về KL Divergence:

KL Divergence nên là tiêu chuẩn vàng để báo cáo lỗi lượng tử hóa. Sử dụng perplexity không chính xác vì giá trị đầu ra có thể triệt tiêu nhau.

Để đảm bảo đánh giá công bằng và có kiểm soát, chúng tôi không sử dụng bộ dữ liệu hiệu chuẩn của riêng mình khi đánh giá KL Divergence.

MMLU và Khả năng nhân bản:

Replicating MMLU 5-shot rất khó khăn. Chúng tôi không thể lặp lại kết quả MMLU cho nhiều mô hình do các vấn đề triển khai tinh tế.

Gemma 3 QAT Replication, Benchmarks:

Gemma đã phát hành hai phiên bản QAT của Gemma 3.

Q4_0 GGUF:

🦙 Llama 4 Sửa lỗi và Chạy thử:

Chúng tôi đã giúp sửa một số lỗi của Llama 4:

Chạy Llama 4 Scout:

Đầu tiên, clone llama.cpp:

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sau đó tải bản Dynamic v2.0 cho Scout:

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)

Và thực hiện suy luận!

./llama.cpp/llama-cli \
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -no-cnv \
    --prompt "<|header_start|>user<|header_end|>\n\nCreate a Flappy Bird game.<|eot|><|header_start|>assistant<|header_end|>\n\n"

Read Original (EN) Quay lại Newsletter