Skip to content
tinAI
Go back

tinAI #094: GPT-5.5 ra mắt, vượt Claude Opus 4.7 trên coding và rẻ bằng một nửa Opus

Tin nổi bật

GPT-5.5 ra mắt, vượt Claude Opus 4.7 trên coding và rẻ bằng một nửa Opus · 12 phút https://openai.com/index/introducing-gpt-5-5/

Bản release này mạnh về số liệu cứng: Terminal-Bench 2.0 đạt 82.7% (Opus 4.7 được 69.4%), Expert-SWE 73.1%, Graphwalks BFS 1M đạt 45.4% so với 9.4% của GPT-5.4 — long-context thực sự dùng được chứ không còn hallucinate ở cuối window. Pricing trong API là $5/1M input và $30/1M output (so với $15/$75 của Opus 4.7), context 1M token, Batch và Flex giảm tiếp một nửa. Trong Codex có Fast mode sinh token nhanh 1.5x với giá 2.5x — lựa chọn cho ai cần turnaround ngắn. Đáng nhắc: GPT-5.5 thực tế dùng ít token hơn GPT-5.4 cho cùng task Codex, nên cost thực tế có thể không tăng như sticker price gợi ý. API roll-out còn chờ — ChatGPT/Codex đã có sẵn.


Models & Tools

Browser Harness: để LLM tự viết thêm tool cho chính nó · 3 phút https://github.com/browser-use/browser-harness

592 dòng Python, kết trực tiếp Chrome qua CDP websocket — không có abstraction layer nào ở giữa. Điểm khác biệt so với Browser Use hoặc Playwright MCP: khi agent thiếu capability, nó tự sửa harness và viết thêm tool cho mình thay vì fail. Domain skill files được auto-generate cho task lặp lại. Triết lý là cho agent tự học pattern thay vì ép theo recipe — hợp với ai đang thử nghiệm agent autonomy, không hợp với production pipeline cần reproducibility.


CC-Canary: phát hiện Claude Code regression trên chính máy bạn · 4 phút https://github.com/delta-hq/cc-canary

Cài dưới dạng Agent Skill, quét session JSONL trong ~/.claude/projects/, tính read:edit ratio, writing share, reasoning loops và token usage theo thời gian — rồi verdict từ HOLDING đến CONFIRMED REGRESSION kèm ngày inflection. Dev nên quan tâm vì cảm nhận “Claude dở dần” thường chủ quan; tool này cho bạn con số trên dữ liệu chính mình, hoàn toàn offline, không telemetry. Python 3.8+, không cần account.


Research & Insights

Các LLM khác kiến trúc vẫn hội tụ về cùng cách biểu diễn số · 8 phút https://arxiv.org/abs/2604.20817

Transformer, Linear RNN, LSTM, word embedding cổ điển — tất cả đều học ra periodic features với period dominant T=2, 5, 10 qua hierarchy hai tầng. Phát hiện cụ thể hơn: Fourier sparsity là điều kiện cần nhưng không đủ cho mod-T geometric separability. So what cho dev: nếu model bạn fine-tune vẫn yếu về arithmetic, vấn đề có thể không nằm ở architecture mà ở data pipeline — vì paper cho thấy co-occurrence text-số và multi-token arithmetic problem là hai đường chính model học số. Tokenizer choice quan trọng hơn nhiều người nghĩ.


— tinAI


Share this post on:

Previous Post
tinAI #095: Wuphf: Karpathy-style LLM wiki cho team agents, ship được trên Go
Next Post
tinAI #093: Claude Code bị rút khỏi gói Pro của Anthropic