A.T.L.A.S
Adaptive Test-time Learning and Autonomous Specialization
A.T.L.A.S đạt 74,6% LiveCodeBench pass@1-v(k=3) trên mô hình 14B bị đóng băng chỉ với một GPU cho người tiêu dùng thông qua việc tạo ra ràng buộc và tự kiểm chứng tinh chỉnh. Không cần tinh chỉnh, không cần API, không cần đám mây.
Kết Quả Benchmark
Phần cứng: RTX 5060 Ti 16GB | Model: Qwen3-14B-Q4_K_M (đóng băng)
| Benchmark | Điểm số | Tác vụ | Phương pháp |
|---|---|---|---|
| LiveCodeBench v5 | 74,6% pass@1-v(k=3) | 599 | Ống dẫn V3: Tìm kiếm kế hoạch + sửa lỗi PR-CoT tự kiểm, Điểm số V3 |
| GPQA Diamond | 47,0% | 198 | k=5, lý luận lựa chọn đa năng, Điểm số V2 |
| SciCode | 14,7% (vấn đề phụ) | 341 | k=1, mã hóa khoa học đa ngành, Điểm số V2 |
*Chi tiết phương pháp:methodology.
Chi Phí và Hiệu Suất
| Hệ thống | LCB pass@1 | Ước tính chi phí/tác vụ | Chú thích |
|---|---|---|---|
| ATLAS V3 (pass@1-v(k=3)) | 74,6% | ~$0.004 | chỉ tính điện năng địa phương |
Ghi chú phương pháp & nguồn:
Ghi chú phương pháp: Điểm ATLAS từ 599 tác vụ LCB sử dụng ống dẫn V3 hoàn chỉnh, không giống như các điểm số pass@1 của đối thủ cạnh tranh.
Cách Hoạt Động
flowchart LR subgraph Phase1[“Pha 1: Tạo”] PS[Tìm kiếm kế hoạch\nRàng buộc + kế hoạch đa dạng] BF[Ép Ngân Sách\nKiểm soát token suy nghĩ] end
subgraph Verify[“Điểm + Kiểm tra”] GL[Thấu kính Hình học\nĐiểm năng lượng C x\nTự-đính kèm 5120-dim] end
subgraph Phase3[“Pha 3: Sửa”] ST[Tạo Kiểm tra Tự\nCặp I/O tạo bởi model] PR[Sửa lỗi PR-CoT\nMạch logic đa chiều] end
Bắt Đầu Nhanh
Trước khi bắt đầu: ATLAS được phát triển và thử nghiệm trên phần cứng cụ thể. Đọc phần Hardware & Reproduction để đảm bảo tương thích.
git clone https://github.com/itigges22/ATLAS.git && cd ATLAS
cp atlas.conf.example atlas.conf # đặt MODEL_PATH, DATA_DIR, thiết bị GPU
sudo ./scripts/install.sh
./scripts/verify-install.sh
python3 benchmark/v3_runner.py
Phần Cứng & Tái Tạo
| Tài nguyên | Tối thiểu | Đã thử nghiệm |
|---|---|---|
| GPU VRAM | 16 GB | RTX 5060 Ti 16 GB |
Cấu Trúc Dự Án
benchmark/ Bộ công cụ benchmark (chạy V2, đường ống V3, dữ liệu)
rag-api/ API chính: Thấu kính Hình học, bộ định tuyến tin cậy, RAG
Lộ Trình
V3.0 — Hoàn Thành (2026-03-05)
74.6% LCB pass@1-v(k=3) trên Qwen3-14B-Q4_K_M. Tìm kiếm kế hoạch + Ép Ngân Sách + Thấu kính Hình học + Sửa lỗi PR-CoT.
Hạn Chế Hiện Tại
- Tối ưu hóa chỉ cho LCB. V3 được thiết kế cho LiveCodeBench…
V3.1 — Đang Tiến Hành
- Thay đổi model: Qwen3-14B → Qwen3.5-9B…
Giấy Phép
Licensed under the A.T.L.A.S Source Available License v1.0 — xem LICENSE.