tinAI #098: AGENTS.md tốt = upgrade Haiku lên Opus, tệ = tệ hơn không có

tinAI tóm tắt nguồn công khai, thêm bối cảnh biên tập cho độc giả, và giữ liên kết nguồn trong từng mục.

Tin nổi bật

AGENTS.md tốt = upgrade Haiku lên Opus, tệ = tệ hơn không có · 8 phút https://www.augmentcode.com/blog/how-to-write-good-agents-dot-md-files

Augment Code chạy AuggieBench trên hàng chục AGENTS.md thật từ monorepo của họ và đo: file tốt nhất bump quality ngang upgrade từ Haiku 4.5 lên Opus, file tệ nhất khiến output xấu hơn cả việc xoá file đi. Ngạc nhiên hơn: cùng một file boost best_practices 25% trên bug fix nhưng kéo completeness -30% trên feature task — context rot là kẻ phản diện chính. Pattern thắng đo được rõ: 100–150 dòng + reference docs riêng (10–15% gain cross-metric), decision table thay vì đoạn văn dài (25% boost best_practices), procedural workflow numbered, và mỗi “Don’t” phải đi kèm “Do” cụ thể. Pattern giết hiệu suất: 30–50 warnings không kèm alternative khiến agent mở migration script + auth middleware ngay cả khi task không liên quan, và AGENTS.md 150 dòng đẹp đè lên 500K spec xung quanh thì agent đọc spec chứ không đọc bạn. Discovery rate cũng đắt giá: AGENTS.md 100%, reference từ nó 90%+, README cùng folder 80%, README sub-folder 40%, docs mồ côi trong _docs/ <10% — nếu tài liệu không ở AGENTS.md hoặc reference trực tiếp từ đó, agent gần như không bao giờ đọc.

Models & Tools

Poolside ship Laguna M.1 (225B-A23B) và Laguna XS.2 (33B-A3B) — XS.2 open-weight Apache 2.0 · 10 phút https://poolside.ai/blog/laguna-a-deeper-dive

Poolside (lab vốn tập trung public sector + air-gapped deployment) lần đầu release open-weight: Laguna XS.2 33B-A3B đạt SWE-bench Verified 68.2 / SWE-bench Pro 44.5, ngang Qwen3.5 35B-A3B (69.2 / 44.6) và vượt Devstral Small 2 (68.0). Laguna M.1 225B-A23B train from scratch trên 30T token với 6.144 H100, dùng Muon optimizer (đạt cùng loss với AdamW trong 15% step ít hơn) và async on-policy RL với weight transfer GPUDirect RDMA dưới 5s cho BF16 weights. Catch: Terminal-Bench 2.0 chỉ 30.1 (XS.2) và 40.7 (M.1), thua xa Claude Sonnet 4.6 (59.1) và DeepSeek-V4-Flash (56.9) — nên dùng cho SWE-bench-style patch task chứ chưa phải shell agent generic. Day‑1 support TensorRT-LLM, có NVFP4 cho Blackwell, free trial qua API + OpenRouter + Ollama.

Microsoft VibeVoice: ASR 60 phút, TTS 90 phút 4‑speaker, Realtime 0.5B với 300ms first‑audible latency · 4 phút https://github.com/microsoft/VibeVoice

Ba model voice open-source dưới MIT, base trên Qwen2.5 1.5B. VibeVoice-ASR: nhận 60 phút audio liền mạch trong 64K token, output có speaker diarization + timestamp + custom hotword (tên nhân vật, term kỹ thuật) — bỏ pattern slice 30s rồi ghép. VibeVoice-TTS: synth tới 90 phút conversation cho 4 speaker, EN/CN, support cross-lingual và spontaneous singing. VibeVoice-Realtime 0.5B: streaming text input, ~300ms first-audible latency, ~10 phút long-form, deploy nhẹ. MS note rõ “research only, không khuyến nghị production” vì voice-clone deepfake risk — nhưng nhánh ASR thì đã production-ready cho podcast/meeting transcription.

OpenAI models lên AWS Bedrock: GPT‑5.5 + GPT‑5.4 preview, kèm Bedrock Managed Agents powered by OpenAI · 3 phút https://aws.amazon.com/bedrock/openai/

Hệ quả trực tiếp của amendment Microsoft–OpenAI hôm qua: GPT‑5.5 và GPT‑5.4 vào limited preview trên Bedrock với cùng IAM / VPC / CloudTrail bạn đang dùng cho Claude và Llama. Sản phẩm chính kèm theo là Bedrock Managed Agents, powered by OpenAI — managed runtime cho multi-step agent với persistent memory, tool calling, sandboxed execution, exposed qua một API stateful duy nhất. Team stuck với Claude trên Bedrock vì compliance giờ có option swap GPT‑5.x mà không phải build infra mới — chính đây là lý do AWS đồng ý ngồi cùng OpenAI sau khi đã đầu tư $4B vào Anthropic.

Research & Insights

AISLE AI analyzer tìm 38 CVE trong OpenEMR (100k provider, 200M bệnh nhân) trong 1 quý · 7 phút https://aisle.com/blog/aisle-discovers-38-critical-security-vulnerabilities-in-healthcare-software-used-by-100000-providers

Cùng engine từng find 12/12 zero-day trong OpenSSL, AISLE quét OpenEMR Q1/2026 và phát hiện 38 CVE — nhiều hơn báo cáo Project Insecurity 2018 (23 vuln sau nhiều tháng team người). Phân loại: 24 IDOR / missing-authz (có 1 critical bypass auth hoàn toàn cho patient identity disclosure), 9 XSS (3 high, có cross-portal patient → clinician), 2 SQL injection critical, 2 path traversal, 1 session-timeout bypass. Tất cả đã fix qua advisory channel với maintainer. So what cho dev OSS: AI fuzzing + static analysis giờ cheap đến mức nên chủ động chạy lên repo của mình trước khi attacker chạy — và pattern “audit security mất nhiều tháng human” sắp lỗi thời, threshold cho responsible disclosure cũng cần adjust theo throughput mới.

talkie-1930-13b: vintage LM train trên ZERO text sau 31/12/1930, dùng làm probe khả năng forecast của LLM · 7 phút https://talkie-lm.com/introducing-talkie

Levine, Duvenaud, Radford ship “vintage language model”: kiến trúc giống LM hiện đại nhưng corpus chỉ pre-1931, để trả lời câu hỏi rất concrete — model có dự đoán được tương lai nó chưa thấy không? Phương pháp: lấy ~5.000 sự kiện “On This Day” từ NYT, đo bits-per-byte surprisingness theo decade trên 13B model — surprisingness tăng rõ sau 1931 (peak ở 1950–60s) rồi plateau, gợi ý vintage LM vẫn extrapolate được phần nào. Hai con số phụ ít người nhắc: OCR cũ chỉ cho 30% learning efficiency so với human-transcribed (regex clean kéo lên 70%), và post-train phải làm scratch từ etiquette manual + cookbook + letter-writing guide vì instruction-tuning data hiện đại bake vào kiến thức tương lai. Practical takeaway cho dev build eval: cắt knowledge bằng training cutoff cleaner hơn nhiều so với MMLU masking khi muốn đo “model có suy luận được khỏi cutoff không”.

— tinAI

tinAI #098: AGENTS.md tốt = upgrade Haiku lên Opus, tệ = tệ hơn không có

Bài dịch trong bản tin này

Tin nổi bật

Models & Tools

Research & Insights