GitHub - karpathy/autoresearch: AI tự động nghiên cứu với đào tạo nanochat trên một GPU

Giới thiệu

Teaser Image

Trong quá khứ, nghiên cứu AI được thực hiện bởi con người. Tuy nhiên, giờ đây các tác vụ nghiên cứu hoàn toàn do các AI agent thực hiện. Dự án này chia sẻ cách nó bắt đầu.

Ý tưởng là cung cấp cho một AI agent một thiết lập đào tạo LLM nhỏ và cho phép nó tự động thử nghiệm qua đêm. Nó sẽ điều chỉnh mã, đào tạo trong 5 phút, kiểm tra kết quả và tiếp tục hoặc hủy bỏ dựa trên cải thiện.

Chi tiết hoạt động

Repository này chỉ có ba tệp chính:

prepare.py — Cố định các hằng số, chuẩn bị dữ liệu một lần (tải dữ liệu, huấn luyện tokenizer BPE).
train.py — Tệp chỉnh sửa bởi agent, chứa mô hình GPT, optimizer, và vòng lặp đào tạo.
program.md — Hướng dẫn cơ bản cho agent, do con người chỉnh sửa.

Giới hạn thời gian đào tạo là 5 phút để đảm bảo tính so sánh giữa các lần thử.

Bắt đầu

Yêu cầu Cấu hình: Một NVIDIA GPU, Python 3.10+, uv.

# 1. Cài đặt uv project manager
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. Cài đặt dependencies
uv sync

# 3. Tải dữ liệu và huấn luyện tokenizer
uv run prepare.py

# 4. Thử nghiệm đào tạo đơn
uv run train.py

Các lựa chọn thiết kế

Chỉnh sửa một tệp: Agent chỉ sửa train.py để giữ phạm vi manageable.
Giới hạn thời gian cố định: Đào tạo luôn kéo dài 5 phút, so sánh giữa các lần thử nghiệm dễ dàng.
Tự chứa: Không phụ thuộc nhiều ngoài PyTorch và một số package nhỏ.

Ghi chú

Dự án yêu cầu NVIDIA GPU, chưa hỗ trợ CPU hoặc các nền tảng khác hiện tại.

License

Repository này theo giấy phép MIT.

GitHub - karpathy/autoresearch: AI tự động nghiên cứu với đào tạo nanochat trên một GPU

TL;DR

Giới thiệu

Chi tiết hoạt động

Bắt đầu

Các lựa chọn thiết kế

Ghi chú

License

Đường dẫn nguồn

GitHub - karpathy/autoresearch: AI tự động nghiên cứu với đào tạo nanochat trên một GPU

TL;DR

Giới thiệu

Chi tiết hoạt động

Bắt đầu

Các lựa chọn thiết kế

Ghi chú

License

Đường dẫn nguồn

Cùng bản tin này