tinAI #094: GPT-5.5 ra mắt, vượt Claude Opus 4.7 trên coding và rẻ bằng một nửa Opus

tinAI tóm tắt nguồn công khai, thêm bối cảnh biên tập cho độc giả, và giữ liên kết nguồn trong từng mục.

Tin nổi bật

GPT-5.5 ra mắt, vượt Claude Opus 4.7 trên coding và rẻ bằng một nửa Opus · 12 phút https://openai.com/index/introducing-gpt-5-5/

Bản release này mạnh về số liệu cứng: Terminal-Bench 2.0 đạt 82.7% (Opus 4.7 được 69.4%), Expert-SWE 73.1%, Graphwalks BFS 1M đạt 45.4% so với 9.4% của GPT-5.4 — long-context thực sự dùng được chứ không còn hallucinate ở cuối window. Pricing trong API là $5/1M input và $30/1M output (so với $15/$75 của Opus 4.7), context 1M token, Batch và Flex giảm tiếp một nửa. Trong Codex có Fast mode sinh token nhanh 1.5x với giá 2.5x — lựa chọn cho ai cần turnaround ngắn. Đáng nhắc: GPT-5.5 thực tế dùng ít token hơn GPT-5.4 cho cùng task Codex, nên cost thực tế có thể không tăng như sticker price gợi ý. API roll-out còn chờ — ChatGPT/Codex đã có sẵn.

Models & Tools

Browser Harness: để LLM tự viết thêm tool cho chính nó · 3 phút https://github.com/browser-use/browser-harness

592 dòng Python, kết trực tiếp Chrome qua CDP websocket — không có abstraction layer nào ở giữa. Điểm khác biệt so với Browser Use hoặc Playwright MCP: khi agent thiếu capability, nó tự sửa harness và viết thêm tool cho mình thay vì fail. Domain skill files được auto-generate cho task lặp lại. Triết lý là cho agent tự học pattern thay vì ép theo recipe — hợp với ai đang thử nghiệm agent autonomy, không hợp với production pipeline cần reproducibility.

CC-Canary: phát hiện Claude Code regression trên chính máy bạn · 4 phút https://github.com/delta-hq/cc-canary

Cài dưới dạng Agent Skill, quét session JSONL trong ~/.claude/projects/, tính read:edit ratio, writing share, reasoning loops và token usage theo thời gian — rồi verdict từ HOLDING đến CONFIRMED REGRESSION kèm ngày inflection. Dev nên quan tâm vì cảm nhận “Claude dở dần” thường chủ quan; tool này cho bạn con số trên dữ liệu chính mình, hoàn toàn offline, không telemetry. Python 3.8+, không cần account.

Research & Insights

Các LLM khác kiến trúc vẫn hội tụ về cùng cách biểu diễn số · 8 phút https://arxiv.org/abs/2604.20817

Transformer, Linear RNN, LSTM, word embedding cổ điển — tất cả đều học ra periodic features với period dominant T=2, 5, 10 qua hierarchy hai tầng. Phát hiện cụ thể hơn: Fourier sparsity là điều kiện cần nhưng không đủ cho mod-T geometric separability. So what cho dev: nếu model bạn fine-tune vẫn yếu về arithmetic, vấn đề có thể không nằm ở architecture mà ở data pipeline — vì paper cho thấy co-occurrence text-số và multi-token arithmetic problem là hai đường chính model học số. Tokenizer choice quan trọng hơn nhiều người nghĩ.

— tinAI

tinAI #094: GPT-5.5 ra mắt, vượt Claude Opus 4.7 trên coding và rẻ bằng một nửa Opus

Bài dịch trong bản tin này

Tin nổi bật

Models & Tools

Research & Insights