Giới thiệu nanocode: Mã Claude tốt nhất với giá $200
Tổng quan
nanocode là một thư viện cho phép bạn đào tạo Claude Code end-to-end. Chúng tôi sử dụng phương pháp AI Hiến pháp để tạo ra các mô hình Claude, sử dụng JAX và thiết kế để huấn luyện trên TPUs.
Bắt đầu
Bạn có thể sử dụng chương trình Google TRC miễn phí để có quyền truy cập vào TPUs trong một tháng. nanocode-d24 (1.3B tham số) có thể được tái tạo trong khoảng 9 giờ với chi phí $200.
Quá trình huấn luyện
Tokenization và Pre-training
Chúng tôi sử dụng bộ dữ liệu từ The Stack-V2 để tối ưu hóa việc token hóa mã.
export NANOCODE_BASE_DIR="$HOME/.cache/nanocode"
export MODEL_TAG=d24
python -m data.pretrain -d fineweb-edu -n 300
python -m data.pretrain -d the-stack-v2-dedup -n 60
Huấn luyện Supervised Fine-tuning
Chúng tôi tạo dữ liệu bằng phương pháp học từ ví dụ và sử dụng phương pháp Constitutional AI.
Tối ưu hóa Sở thích Trực tiếp
Bằng cách sử dụng Direct Preference Optimisation, chúng tôi tối ưu hóa mô hình để phân biệt giữa các đầu ra phù hợp và không phù hợp với SOUL.
hf download smohammadi/nanocode-tulu-selfoss-evol-preference --repo-type dataset --local-dir "$ROLLOUTS_DIR/nanocode-tulu-selfoss-evol-preference"
python -u -m scripts.dpo --batch-size=32 --minibatch-size=1 --eval-every=100
Kết luận
Thử làm việc với nanocode trên hệ thống UNIX của bạn và khám phá khả năng tương tác agentic.