Hướng dẫn tinh chỉnh Qwen3.5

Học cách tinh chỉnh mô hình Qwen3.5 LLMs cục bộ với Unsloth.

Tổng quan

Qwen3.5 có thể tinh chỉnh cho các kích thước mô hình: 0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B với Unsloth. Hỗ trợ tinh chỉnh cả vision và text. Ví dụ, Qwen3.5‑35B‑A3B - bf16 LoRA cần 74GB VRAM.

Unsloth giúp Qwen3.5 train nhanh hơn 1.5× và tiết kiệm 50% VRAM so với FA2 setups.
Qwen3.5 bf16 LoRA VRAM dùng:
- 0.8B: 3GB
- 2B: 5GB
- 4B: 10GB
- 9B: 22GB
- 27B: 56GB
Tinh chỉnh 0.8B, 2B và 4B bf16 LoRA qua Google Colab miễn phí:

Quan trọng

Để bảo toàn khả năng suy luận, nên pha trộn ví dụ suy luận với câu trả lời trực tiếp (tối thiểu 75% suy luận).
Full fine-tuning (FFT) sử dụng nhiều VRAM hơn 4 lần.
Qwen3.5 hỗ trợ 201 ngôn ngữ cho tinh chỉnh đa ngôn ngữ.
Sau khi tinh chỉnh, có thể xuất sang GGUF hoặc vLLM.
Reinforcement Learning cho Qwen3.5 VLM hoạt động qua Unsloth inference.

MoE fine-tuning (35B, 122B)

Sử dụng notebook Qwen3.5‑35B‑A3B (A100).
Hỗ trợ cập nhật MoE nhanh hơn 12x với >35% ít VRAM hơn.

Quickstart

Sử dụng công thức SFT tối thiểu cho tinh chỉnh chỉ-text. Đảm bảo các thư viện như torchvision, pillow được cài đặt. Sử dụng phiên bản mới nhất của Transformers cho Qwen3.5.

from unsloth import FastLanguageModel
import torch
from datasets import load_dataset
from trl import SFTTrainer, SFTConfig

max_seq_length = 2048

Tinh chỉnh Vision

Unsloth hỗ trợ vision fine-tuning cho mô hình Qwen3.5 đa hệ. Sử dụng notebook Qwen3.5 và thay đổi tên mô hình theo mong muốn.

Lưu trữ / xuất mô hình đã tinh chỉnh

Unsloth hỗ trợ lưu trữ trực tiếp tới GGUF. Sử dụng hướng dẫn inference / deployment của GGUF hoặc vLLM.

Mã mẫu

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")

Cài đặt transformers v5 cho Qwen3.5 là cần thiết.

Hướng dẫn tinh chỉnh Qwen3.5 | Tài liệu Unsloth

TL;DR