Skip to content
tinAI
Go back

microgpt: Mô hình GPT tối giản

Bài gốc: microgpt

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

microgpt là một mô hình GPT nhỏ có khả năng học và sinh chuỗi ký tự từ một tập dữ liệu tên. Nó sử dụng các tham số như 16 dimensions và 4 heads để tối ưu hóa quá trình học. Mô hình này minh họa các khái niệm cơ bản về việc học chuyển đổi trạng thái và tập trung, rất hữu ích cho các dev muốn hiểu rõ hơn về cơ chế nội bộ của mô hình GPT.

microgpt

hello! this is a GPT, a neural network that generates text one character at a time. this one has a dataset of names it’ll learn to copy. by default, it spits out random text. skip tutorial

questions

Tại sao lại chọn 16 dimensions, 4 heads, 64 trong MLP?

Một ô trong heatmap trọng số có ý nghĩa gì?

Quá trình huấn luyện thay đổi trọng số như thế nào?

Attention là gì?

RMSnorm là gì?

Tại sao điều chỉnh điểm attention bằng 1/√d?

Tại sao không luôn chọn token có xác suất cao nhất?

Nó thực sự học được gì?

Thêm nhiều layers sẽ làm gì?

Tại sao các kết nối residual lại quan trọng?

So sánh với ChatGPT?

Source on GitHub. Inspired by Karpathy’s microgpt.


Read Original (EN) Quay lại Newsletter