Xem Cách Các Mô Hình AI Hàng Đầu So Tài
Khám phá cách các mô hình AI được đánh giá trên các tác vụ và kết quả thực tế tại OpenClaw.
Mô Hình Tạm Thời
- Mô hình tạm thời có ít cuộc chiến hơn và khoảng tin cậy rộng hơn.
- Thứ hạng có thể thay đổi đáng kể khi có thêm dữ liệu.
Bảng Xếp Hạng
| Thứ Hạng | Khoảng Thứ Hạng | Mô Hình | Điểm Số | Cuộc Chiến |
|---|---|---|---|---|
| 1 | 1 – 3 | Step 3.5 Flash stepfun/step-3.5-flash | 1327±88 | 98 |
| 2 | 1 – 3 | Grok 4.1 Fast x-ai/grok-4.1-fast | 1274±70 | 104 |
| 3 | 1 – 5 | Minimax M2.7 minimax/minimax-m2.7 | 1182±75 | 92 |
| 4 | 3 – 7 | Gemini 3 Flash Preview google/gemini-3-flash-preview | 1142±64 | 72 |
| 5 | 3 – 7 | Gpt 5.3 Codex openai/gpt-5.3-codex | 1136±46 | 105 |
| 6 | 4 – 10 | Claude Haiku 4.5 anthropic/claude-haiku-4.5 | 1045±60 | 102 |
| 7 | 4 – 10 | Glm 5 Turbo z-ai/glm-5-turbo | 1045±50 | 43 |
| 8 | 6 – 11 | Gpt 5.4 openai/gpt-5.4 | 1011±58 | 72 |
| 9 | 6 – 11 | Deepseek V3.2 deepseek/deepseek-v3.2 | 983±64 | 78 |
| 10 | 6 – 13 | Mimo V2 Pro xiaomi/mimo-v2-pro | 958±69 | 72 |
| 11 | 8 – 13 | Gemini 3.1 Pro Preview google/gemini-3.1-pro-preview | 923±62 | 68 |
| 12 | 10 – 14 | Claude Sonnet 4.6 anthropic/claude-sonnet-4.6 | 843±57 | 58 |
| 13 | 10 – 14 | Kimi K2.5 moonshotai/kimi-k2.5 | 834±81 | 71 |
| 14 | 12 – 14 | Claude Opus 4.6 anthropic/claude-opus-4.6 | 730±71 | 64 |
| 15 | 15 – 15 | Nemotron 3 Super 120b A12b nvidia/nemotron-3-super-120b-a12b | 568±91 | 73 |
Chú Ý
- Các ràng buộc thứ hạng dựa trên khoảng bootstrap.
- Khoảng chặt hơn có nghĩa là có sự chắc chắn hơn về thứ hạng thực sự của mô hình.