Giới thiệu
Qwen3.6-35B-A3B là MoE (Mixture of Experts) model mã nguồn mở từ Alibaba, với 35 tỷ tổng tham số nhưng chỉ kích hoạt 3 tỷ khi inference. Kiến trúc này cho phép chạy trên máy cá nhân mà hiệu suất ngang dense model lớn hơn nhiều lần.
Model hỗ trợ cả văn bản và hình ảnh (natively multimodal), và có cả chế độ thinking và non-thinking.
Hiệu suất
Coding và agentic tasks
| Benchmark | Qwen3.6-35B-A3B | Qwen3.5-27B (dense) | Qwen3.5-35B-A3B |
|---|---|---|---|
| SWE-bench Verified | 73.4% | 75.0% | 70.0% |
| Terminal-Bench 2.0 | 51.5% | 41.6% | 40.5% |
| AIME 2026 | 92.7% | 92.6% | 91.0% |
| MCPMark | 37.0 | 36.3 | 27.0 |
Nổi bật nhất là Terminal-Bench 2.0 — tăng 11 điểm so với người tiền nhiệm Qwen3.5-35B-A3B.
Vision
Trên nhiều vision benchmark, Qwen3.6-35B-A3B ngang bằng Claude Sonnet 4.5 và vượt trội ở spatial intelligence:
- RefCOCO (avg): 92.0 vs 89.2 của Qwen3.5-35B-A3B
- MMBench EN: 92.8 (cao hơn Claude Sonnet 4.5 ở 88.3)
- VideoMMMU: 83.7 vs 77.6 của Claude Sonnet 4.5
Cách sử dụng
Tải về tự host
# Hugging Face
huggingface-cli download Qwen/Qwen3.6-35B-A3B
# ModelScope
modelscope download Qwen/Qwen3.6-35B-A3B
API (OpenAI-compatible)
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-flash", # API name
messages=[{"role": "user", "content": "Review this code..."}],
extra_body={"enable_thinking": True}, # bật thinking mode
stream=True
)
Lưu ý: Dùng preserve_thinking: true cho agentic tasks để giữ reasoning context qua các turns.
Dùng với Claude Code
Qwen hỗ trợ Anthropic-compatible API, cho phép dùng trực tiếp với Claude Code:
export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude
Tổng kết
Qwen3.6-35B-A3B là lựa chọn tốt nhất hiện tại nếu bạn muốn:
- Chạy model agentic coding local mà không cần GPU server
- Không tốn API fee trong development và testing
- Tích hợp với Claude Code hoặc OpenAI-compatible tools
- Multimodal: xử lý cả text lẫn hình ảnh
Model đang live trên Qwen Studio, HuggingFace, ModelScope, và Alibaba Cloud API (coming soon).