Skip to content
tinAI
Go back

GitHub - itigges22/ATLAS: Học Tùy Biến Theo Thời Gian Kiểm Tra và Chuyên Môn Tự Động

Bài gốc: GitHub - itigges22/ATLAS: Adaptive Test-time Learning and Autonomous Specialization

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

ATLAS là một hệ thống tự lưu trữ cho phép sử dụng mô hình AI nhỏ gọn nhưng hiệu quả, không yêu cầu điều chỉnh thêm hay gọi API. Nó có khả năng sinh mã bằng cấu trúc thông minh và tinh chỉnh lặp lại, tối ưu cho các tác vụ xử lý mã.

A.T.L.A.S

Adaptive Test-time Learning and Autonomous Specialization

A.T.L.A.S đạt 74,6% LiveCodeBench pass@1-v(k=3) trên mô hình 14B bị đóng băng chỉ với một GPU cho người tiêu dùng thông qua việc tạo ra ràng buộc và tự kiểm chứng tinh chỉnh. Không cần tinh chỉnh, không cần API, không cần đám mây.


Kết Quả Benchmark

Phần cứng: RTX 5060 Ti 16GB | Model: Qwen3-14B-Q4_K_M (đóng băng)

BenchmarkĐiểm sốTác vụPhương pháp
LiveCodeBench v574,6% pass@1-v(k=3)599Ống dẫn V3: Tìm kiếm kế hoạch + sửa lỗi PR-CoT tự kiểm, Điểm số V3
GPQA Diamond47,0%198k=5, lý luận lựa chọn đa năng, Điểm số V2
SciCode14,7% (vấn đề phụ)341k=1, mã hóa khoa học đa ngành, Điểm số V2

*Chi tiết phương pháp:methodology.


Chi Phí và Hiệu Suất

Hệ thốngLCB pass@1Ước tính chi phí/tác vụChú thích
ATLAS V3 (pass@1-v(k=3))74,6%~$0.004chỉ tính điện năng địa phương

Ghi chú phương pháp & nguồn:

Ghi chú phương pháp: Điểm ATLAS từ 599 tác vụ LCB sử dụng ống dẫn V3 hoàn chỉnh, không giống như các điểm số pass@1 của đối thủ cạnh tranh.

Nguồn: Artificial Analysis LCB Leaderboard


Cách Hoạt Động

flowchart LR subgraph Phase1[“Pha 1: Tạo”] PS[Tìm kiếm kế hoạch\nRàng buộc + kế hoạch đa dạng] BF[Ép Ngân Sách\nKiểm soát token suy nghĩ] end

subgraph Verify[“Điểm + Kiểm tra”] GL[Thấu kính Hình học\nĐiểm năng lượng C x\nTự-đính kèm 5120-dim] end

subgraph Phase3[“Pha 3: Sửa”] ST[Tạo Kiểm tra Tự\nCặp I/O tạo bởi model] PR[Sửa lỗi PR-CoT\nMạch logic đa chiều] end


Bắt Đầu Nhanh

Trước khi bắt đầu: ATLAS được phát triển và thử nghiệm trên phần cứng cụ thể. Đọc phần Hardware & Reproduction để đảm bảo tương thích.

  git clone https://github.com/itigges22/ATLAS.git && cd ATLAS
  cp atlas.conf.example atlas.conf    # đặt MODEL_PATH, DATA_DIR, thiết bị GPU
  sudo ./scripts/install.sh
  ./scripts/verify-install.sh
  python3 benchmark/v3_runner.py

Phần Cứng & Tái Tạo

Tài nguyênTối thiểuĐã thử nghiệm
GPU VRAM16 GBRTX 5060 Ti 16 GB

Cấu Trúc Dự Án

benchmark/       Bộ công cụ benchmark (chạy V2, đường ống V3, dữ liệu)
rag-api/         API chính: Thấu kính Hình học, bộ định tuyến tin cậy, RAG 

Lộ Trình

V3.0 — Hoàn Thành (2026-03-05)

74.6% LCB pass@1-v(k=3) trên Qwen3-14B-Q4_K_M. Tìm kiếm kế hoạch + Ép Ngân Sách + Thấu kính Hình học + Sửa lỗi PR-CoT.

Hạn Chế Hiện Tại

  1. Tối ưu hóa chỉ cho LCB. V3 được thiết kế cho LiveCodeBench…

V3.1 — Đang Tiến Hành


Giấy Phép

Licensed under the A.T.L.A.S Source Available License v1.0 — xem LICENSE.


Read Original (EN) Quay lại Newsletter