Bộ Sưu Tập Kiến Trúc LLM
Bài viết này tổng hợp các sơ đồ kiến trúc và tài liệu kỹ thuật từ các bài viết như The Big LLM Architecture Comparison và A Dream of Spring for Open-Weight LLMs. Mục tiêu chính là trình bày các bảng kiến trúc một cách chi tiết.
Nếu bạn phát hiện sheet thông tin không chính xác, kiến trúc bị sai nhãn, hoặc liên kết hỏng, vui lòng gửi vấn đề tại đây: Architecture Gallery issue tracker.
Llama 3 8B
- Link: Xem chi tiết bài viết
- Thông số: 8B tham số
- Ngày phát hành: 18/04/2024
- Loại decoder: Dense
- Attention: GQA với RoPE
- Chi tiết quan trọng: Tiêu chuẩn pre-norm; rộng hơn OLMo 2 ở cùng tỉ lệ.
OLMo 2 7B
- Link: Xem chi tiết bài viết
- Thông số: 7B tham số
- Ngày phát hành: 25/11/2024
- Loại decoder: Dense
- Attention: MHA với QK-Norm
- Chi tiết quan trọng: Sử dụng bố cục post-norm bên trong-residual thay vì bài bố cục pre-norm thông thường.
DeepSeek V3
- Link: Xem chi tiết bài viết
- Thông số: 671B tổng, 37B hoạt động
- Ngày phát hành: 26/12/2024
- Loại decoder: Sparse MoE
- Attention: MLA
- Chi tiết quan trọng: Dùng một prefix dense và một chuyên gia chung để giữ mô hình rất lớn khả thi ở inference.
Gemma 3 27B
- Link: Xem chi tiết bài viết
- Thông số: 27B tham số
- Ngày phát hành: 11/03/2025
- Loại decoder: Dense
- Attention: GQA với QK-Norm và attention trượt/cố định 5:1
- Chi tiết quan trọng: Xây dựng dựa trên điểm ngọt 27B với sự chú ý cục bộ mạnh hơn và một từ vựng đa ngôn ngữ lớn.
Qwen3 Next 80B-A3B
- Link: Xem chi tiết bài viết
- Thông số: 80B tổng, 3B hoạt động
- Ngày phát hành: 09/09/2025
- Loại decoder: Sparse hybrid
- Attention: 3:1 Gated DeltaNet và Gated Attention
- Chi tiết quan trọng: Thêm nhiều chuyên gia hơn, thêm một chuyên gia chung và hỗ trợ context 262k bản địa.
MiniMax M2 230B
- Link: Xem chi tiết bài viết
- Thông số: 230B tổng, 10B hoạt động
- Ngày phát hành: 23/10/2025
- Loại decoder: Sparse MoE
- Attention: GQA với QK-Norm và một phần RoPE
- Chi tiết quan trọng: Dùng mỗi lớp QK-Norm và MoE routing thưa thớt hơn đáng kể so với Qwen3.
Ling 2.5 1T
- Link: Xem chi tiết bài viết
- Thông số: 1T tổng, 63B hoạt động
- Ngày phát hành: 15/02/2026
- Loại decoder: Sparse hybrid
- Attention: Lightning Attention cộng với MLA
- Chi tiết quan trọng: Sử dụng tỷ lệ 7:1 attention tuyến tính/MLA và một con đường hoạt động 63B lớn hơn nhiều.
Nguồn tham khảo bài viết: