Giới Thiệu
Hai tháng trước, tôi đã viết về lý do tại sao chúng tôi quyết định tự mình thực hiện giai đoạn pretraining.
Các Biến Thể của Trinity Large
- Trinity-Large-Preview: Đã được hậu huấn luyện nhẹ và sẵn sàng cho chat.
- Trinity-Large-Base: Điểm dừng checkpoint tốt nhất sau chu kỳ 17T.
- TrueBase: Checkpoint sớm từ cùng một lần chạy tại 10T token, không gồm instruct data.
Cấu Trúc Mô Hình
Trinity Large có 400B tham số MoE Sparsity với 13B tham số hoạt động cho mỗi token. Nó sử dụng 256 chuyên gia với 4 chuyên gia hoạt động cho mỗi token. Tỷ lệ sparsity cao giúp ổn định định tuyến.
| Model | Routing (k-of-N) | Routing fraction |
| --- | --- | --- |
| Trinity Large | 4-of-256 | 1.56% |
| DeepSeek-V3 | 8-of-256 | 3.13% |
| MiniMax-M2 | 8-of-256 | 3.13% |
| GLM-4.5 | 8-of-160 | 5.0% |
| Qwen3-235B-A22B | 8-of-128 | 6.25% |
| Llama 4 Maverick | 1-of-128 | 0.78% |
Hiệu Suất Suy Luận
Sử dụng 2048 Nvidia B300 GPUs, mô hình được huấn luyện trong hơn 30 ngày, nhanh hơn 2-3 lần so với đối thủ, không làm giảm hiệu suất.
Cân Bằng tải MoE
Chúng tôi điều chỉnh độ lệch router qua bias từng chuyên gia để ổn định việc định tuyến, sử dụng kỹ thuật cắt tanh và thêm động lượng.
z-loss
Z-loss được sử dụng để ngăn chặn logit nan đầu tăng vô hạn trong quá trình huấn luyện, giữ cho quy mô logit ổn định.
Dữ Liệu Huấn Luyện
Trinity Large được huấn luyện trên 17T token, với dữ liệu được đảm nhận bởi DatologyAI, bao gồm mã, STEM và ngôn ngữ đa dạng.
Trinity-Large-Preview
Đây không phải mô hình reasoning, nhưng nổi bật trong viết sáng tạo, kể chuyện, và hỗ trợ giọng nói thời gian thực. Hiện đang có sẵn miễn phí trên OpenRouter.
| Benchmark | Llama 4 Maverick | Trinity-Large Preview |
| --- | --- | --- |
| MMLU | 85.5 | 87.2 |
| MMLU-Pro | 80.5 | 75.2 |
| GPQA-Diamond | 69.8 | 63.3 |
| AIME 2025 | 19.3 | 24.0 |
Chi Phí
Tổng chi phí lên tới 20 triệu USD cho toàn bộ dự án này, bao gồm cả compute và nhân sự.
TrueBase và Ứng Dụng
- TrueBase không có bất kỳ dữ liệu instrct nào, là điểm đối chiếu tuyệt vời cho nghiên cứu.
- Sẵn có trên OpenRouter, cùng với các nền tảng như Kilo Code, Cline, và OpenCode.
Thử Nghiệm Trinity Large
- Weights:
- API/Chat: chat.arcee.ai
- Docs: docs.arcee.ai
- OpenRouter: Trinity-Large-Preview
Chúng tôi xây dựng Trinity để bạn có thể sở hữu nó. Chúng tôi tự hào về mô hình frontier-level này.