Skip to content
tinAI
Go back

Arcee AI | Trinity Large: Mô Hình MoE 400B Mở

Bài gốc: Arcee AI | Trinity Large: An Open 400B Sparse MoE Model

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Trinity Large là mô hình 400 tỷ tham số sử dụng MoE với tỷ lệ sparsity cao, giúp tăng hiệu suất suy luận và huấn luyện nhanh gấp 2-3 lần so với các đối thủ. Mô hình có ba biến thể: Preview, Base, và TrueBase, phù hợp cho nghiên cứu và ứng dụng thực tế.

Giới Thiệu

Hai tháng trước, tôi đã viết về lý do tại sao chúng tôi quyết định tự mình thực hiện giai đoạn pretraining.

Các Biến Thể của Trinity Large

Cấu Trúc Mô Hình

Trinity Large có 400B tham số MoE Sparsity với 13B tham số hoạt động cho mỗi token. Nó sử dụng 256 chuyên gia với 4 chuyên gia hoạt động cho mỗi token. Tỷ lệ sparsity cao giúp ổn định định tuyến.

| Model | Routing (k-of-N) | Routing fraction |
| --- | --- | --- |
| Trinity Large | 4-of-256 | 1.56% |
| DeepSeek-V3 | 8-of-256 | 3.13% |
| MiniMax-M2 | 8-of-256 | 3.13% |
| GLM-4.5 | 8-of-160 | 5.0% |
| Qwen3-235B-A22B | 8-of-128 | 6.25% |
| Llama 4 Maverick | 1-of-128 | 0.78% |

Hiệu Suất Suy Luận

Sử dụng 2048 Nvidia B300 GPUs, mô hình được huấn luyện trong hơn 30 ngày, nhanh hơn 2-3 lần so với đối thủ, không làm giảm hiệu suất.

Cân Bằng tải MoE

Chúng tôi điều chỉnh độ lệch router qua bias từng chuyên gia để ổn định việc định tuyến, sử dụng kỹ thuật cắt tanh và thêm động lượng.

z-loss

Z-loss được sử dụng để ngăn chặn logit nan đầu tăng vô hạn trong quá trình huấn luyện, giữ cho quy mô logit ổn định.

Dữ Liệu Huấn Luyện

Trinity Large được huấn luyện trên 17T token, với dữ liệu được đảm nhận bởi DatologyAI, bao gồm mã, STEM và ngôn ngữ đa dạng.

Trinity-Large-Preview

Đây không phải mô hình reasoning, nhưng nổi bật trong viết sáng tạo, kể chuyện, và hỗ trợ giọng nói thời gian thực. Hiện đang có sẵn miễn phí trên OpenRouter.

| Benchmark | Llama 4 Maverick | Trinity-Large Preview |
| --- | --- | --- |
| MMLU | 85.5 | 87.2 |
| MMLU-Pro | 80.5 | 75.2 |
| GPQA-Diamond | 69.8 | 63.3 |
| AIME 2025 | 19.3 | 24.0 |

Chi Phí

Tổng chi phí lên tới 20 triệu USD cho toàn bộ dự án này, bao gồm cả compute và nhân sự.

TrueBase và Ứng Dụng

Thử Nghiệm Trinity Large

Chúng tôi xây dựng Trinity để bạn có thể sở hữu nó. Chúng tôi tự hào về mô hình frontier-level này.


Read Original (EN) Quay lại Newsletter