Bộ Sưu Tập Kiến Trúc LLM

Bài viết này tổng hợp các sơ đồ kiến trúc và tài liệu kỹ thuật từ các bài viết như The Big LLM Architecture Comparison và A Dream of Spring for Open-Weight LLMs. Mục tiêu chính là trình bày các bảng kiến trúc một cách chi tiết.

Nếu bạn phát hiện sheet thông tin không chính xác, kiến trúc bị sai nhãn, hoặc liên kết hỏng, vui lòng gửi vấn đề tại đây: Architecture Gallery issue tracker.

Llama 3 8B

Link: Xem chi tiết bài viết
Thông số: 8B tham số
Ngày phát hành: 18/04/2024
Loại decoder: Dense
Attention: GQA với RoPE
Chi tiết quan trọng: Tiêu chuẩn pre-norm; rộng hơn OLMo 2 ở cùng tỉ lệ.

OLMo 2 7B

Link: Xem chi tiết bài viết
Thông số: 7B tham số
Ngày phát hành: 25/11/2024
Loại decoder: Dense
Attention: MHA với QK-Norm
Chi tiết quan trọng: Sử dụng bố cục post-norm bên trong-residual thay vì bài bố cục pre-norm thông thường.

DeepSeek V3

Link: Xem chi tiết bài viết
Thông số: 671B tổng, 37B hoạt động
Ngày phát hành: 26/12/2024
Loại decoder: Sparse MoE
Attention: MLA
Chi tiết quan trọng: Dùng một prefix dense và một chuyên gia chung để giữ mô hình rất lớn khả thi ở inference.

Gemma 3 27B

Link: Xem chi tiết bài viết
Thông số: 27B tham số
Ngày phát hành: 11/03/2025
Loại decoder: Dense
Attention: GQA với QK-Norm và attention trượt/cố định 5:1
Chi tiết quan trọng: Xây dựng dựa trên điểm ngọt 27B với sự chú ý cục bộ mạnh hơn và một từ vựng đa ngôn ngữ lớn.

Qwen3 Next 80B-A3B

Link: Xem chi tiết bài viết
Thông số: 80B tổng, 3B hoạt động
Ngày phát hành: 09/09/2025
Loại decoder: Sparse hybrid
Attention: 3:1 Gated DeltaNet và Gated Attention
Chi tiết quan trọng: Thêm nhiều chuyên gia hơn, thêm một chuyên gia chung và hỗ trợ context 262k bản địa.

MiniMax M2 230B

Link: Xem chi tiết bài viết
Thông số: 230B tổng, 10B hoạt động
Ngày phát hành: 23/10/2025
Loại decoder: Sparse MoE
Attention: GQA với QK-Norm và một phần RoPE
Chi tiết quan trọng: Dùng mỗi lớp QK-Norm và MoE routing thưa thớt hơn đáng kể so với Qwen3.

Ling 2.5 1T

Link: Xem chi tiết bài viết
Thông số: 1T tổng, 63B hoạt động
Ngày phát hành: 15/02/2026
Loại decoder: Sparse hybrid
Attention: Lightning Attention cộng với MLA
Chi tiết quan trọng: Sử dụng tỷ lệ 7:1 attention tuyến tính/MLA và một con đường hoạt động 63B lớn hơn nhiều.

Nguồn tham khảo bài viết:

Bộ Sưu Tập Kiến Trúc LLM

TL;DR

Bộ Sưu Tập Kiến Trúc LLM

Llama 3 8B

OLMo 2 7B

DeepSeek V3

Gemma 3 27B

Qwen3 Next 80B-A3B

MiniMax M2 230B

Ling 2.5 1T

Đường dẫn nguồn

Bộ Sưu Tập Kiến Trúc LLM

TL;DR

Bộ Sưu Tập Kiến Trúc LLM

Llama 3 8B

OLMo 2 7B

DeepSeek V3

Gemma 3 27B

Qwen3 Next 80B-A3B

MiniMax M2 230B

Ling 2.5 1T

Đường dẫn nguồn

Cùng bản tin này