tinAI #095: Wuphf: Karpathy-style LLM wiki cho team agents, ship được trên Go

tinAI tóm tắt nguồn công khai, thêm bối cảnh biên tập cho độc giả, và giữ liên kết nguồn trong từng mục.

Tin nổi bật

Wuphf: Karpathy-style LLM wiki cho team agents, ship được trên Go · 6 phút https://github.com/nex-crm/wuphf

Karpathy nói LLM cần wiki để tích lũy kiến thức theo thời gian — đây là implementation đầu tiên thấy được thật sự ship code chứ không phải slide. Wuphf cho Claude Code, Codex, OpenClaw cùng chạy trong một broker; mỗi agent ghi episode rồi một synthesis worker shell ra LLM CLI của bạn để gộp thành facts, commit vào git repo dưới identity archivist, full author chain hiện trong git log. Điểm tinh tế kỹ thuật: per-role MCP scoping (DM mode chỉ load 4 tools thay vì 27) đẩy Anthropic prompt cache hit lên 97%, agents wake bằng push notification từ broker — không heartbeat polling, không idle burn token. Worktree isolation cho từng agent, fresh session mỗi turn (tránh tích tụ context), Sonnet làm CEO mặc định và --opus-ceo để upgrade khi tác vụ phức tạp. Repo có claim status table mapping từng feature về file path cụ thể — đọc table đó là cách nhanh nhất để biết cái gì shipped, cái gì còn partial.

Models & Tools

Stash: memory layer open-source dùng được với mọi AI agent · 4 phút https://alash3al.github.io/stash?_v01

Postgres + pgvector backend, MCP native, tổ chức memory theo namespace giống folder — write chính xác vào một path, read recursive xuống cả subtree. Pipeline xử lý có 6 tầng: episode → fact → relationship → causal link → pattern → contradiction, kèm goal inference và failure detection để agent không lặp sai lầm cũ. Cài bằng docker compose up, nhớ set STASH_VECTOR_DIM đúng dimension model embedding trước run đầu — sau migration không sửa được.

OpenAI mở Bio Bug Bounty cho GPT-5.5: $25K cho universal jailbreak · 3 phút https://openai.com/index/gpt-5-5-bio-bug-bounty/

Năm câu hỏi bio safety, một prompt jailbreak duy nhất phải clear hết từ chat sạch — $25K cho ai làm được đầu tiên, partial wins có thể được award nhỏ hơn. Test trên Codex Desktop với GPT-5.5, ứng tuyển mở đến 22/06/2026, testing kéo dài đến 27/07. Invite-only sau khi review hồ sơ red team/biosecurity, mọi prompt và finding đều dưới NDA — chương trình này dành cho researcher có background, không phải bug bounty mở cho hobbyist.

Research & Insights

LamBench: GPT-5.5 thua GPT-5.4 và Opus 4.7 trên lambda calculus · 2 phút https://victortaelin.github.io/lambench/

Ranking cho thấy gpt-5.5 chỉ đạt 78.3% (94/120), thấp hơn rõ rệt gpt-5.4 (91.7%) và opus-4.7 (88.3%) — newer flagship không tự động giỏi hơn ở task functional reasoning. Sonnet 4.6 được 82.5%, vẫn vượt gpt-5.5 trên benchmark này. So what cho dev: nếu code bạn nặng symbolic manipulation, combinator, hoặc functional transformation, đừng auto-upgrade lên model mới nhất theo phản xạ phiên bản — chạy benchmark thực của task mình trước, đôi khi model cũ hơn lại đúng lựa chọn.

— tinAI

tinAI #095: Wuphf: Karpathy-style LLM wiki cho team agents, ship được trên Go

Bài dịch trong bản tin này

Tin nổi bật

Models & Tools

Research & Insights