2017
2017.1 Mô hình
- Transformer (12/06): Bài báo ‘Attention Is All You Need’ giới thiệu kiến trúc Transformer — nền tảng của các LLM hiện đại.
2018
2018.3 Mô hình
- ELMo (15/02): Embeddings from Language Models. Đại diện ngữ cảnh bằng LSTMs hai chiều.
- GPT-1 (11/06): Mô hình GPT đầu tiên. Sử dụng transformer chỉ có decoder, minh chứng khả năng tiền đào tạo cho hiểu ngôn ngữ.
- BERT (11/10): Đại diện từ ngữ với transformer hai chiều. Cách mạng hóa chuẩn đoánhí NLP.
2019
2019.4 Mô hình
- GPT-2 (14/02): Ban đầu chưa phát hành vì lo ngại lạm dụng. Chất lượng tạo văn bản được nâng cao.
- XLNet (19/06): Tiền đào tạo autoregressive tổng quát. Vượt trội BERT trên 20 tác vụ NLP.
- RoBERTa (26/07): Tối ưu hóa BERT mạnh mẽ. Thiết lập SOTA mới với đào tạo tốt hơn.
- T5 (23/10): Text-to-Text Transfer Transformer. Khuôn mẫu thống nhất cho các tác vụ NLP.
2020
2020.2 Mô hình
- GPT-3 (28/05): 175B tham số. Cho thấy khả năng học vài bước mà không cần fine-tuning.
- GShard (30/06): Mô hình Mixture of Experts đầu tiên ở quy mô lớn. 600B tham số.
2021
2021.7 Mô hình
- Switch Transformer (11/01): Mô hình MoE 1.6 nghìn tỷ tham số. Cho thấy quy mô mở rộng hiệu quả.
- HyperCLOVA (25/02): LLM quy mô lớn đầu tiên của Hàn Quốc. 560B tham số.
- GPT-Neo (21/03): Phiên bản nhân bản mở của GPT-3 từ EleutherAI. Thay thế mở tạo nguồn nghiêm túc.
- GPT-J (09/06): Mô hình mở chạy trên phần cứng người tiêu dùng đầu tiên.
- Codex (10/08): GPT-3 tinh chỉnh cho mã nguồn. Cung cấp sức mạnh cho GitHub Copilot.
2022
2022.10 Mô hình
- LaMDA (20/01): Ngôn ngữ mô hình cho ứng dụng hội thoại.
- InstructGPT (27/01): Giới thiệu RLHF. Kỹ thuật tiên phong huấn luyện mô hình theo hướng dẫn an toàn.
- Chinchilla (29/03): Chứng minh mô hình nhỏ hơn huấn luyện trên nhiều dữ liệu hoạt động tốt hơn.
… (Danh sách tiếp tục theo định dạng tương tự) …
2024
2024.55 Mô hình
- Gemini 1.0 Ultra (08/02): Gemini 1.0 tiên tiến nhất. Vượt GPT-4 trên 30/32 chuẩn đoánhí.
2025
2025.79 Mô hình
- Mistral Small 3.0 (15/01): Làm mới Small với hiệu suất tối tân ở mức 24B.
2026
2026.13 Mô hình
- Sarvam-2B (15/01): LLM đa ngôn ngữ của Ấn Độ. Hỗ trợ hơn 10 ngôn ngữ Ấn Độ.
- Qwen3-Max-Thinking (27/01): Mô hình suy luận hàng đầu với sử dụng công cụ thích ứng.
(Danh sách tiếp tục với các mô hình quan trọng khác theo định dạng trên)