tinAI #097: Microsoft và OpenAI chính thức chấm dứt thỏa thuận độc quyền cloud

tinAI tóm tắt nguồn công khai, thêm bối cảnh biên tập cho độc giả, và giữ liên kết nguồn trong từng mục.

Tin nổi bật

Microsoft và OpenAI chính thức chấm dứt thỏa thuận độc quyền cloud · 6 phút https://www.bloomberg.com/news/articles/2026-04-27/microsoft-to-stop-sharing-revenue-with-main-ai-partner-openai

Bốn năm sau khi rót $13B vào OpenAI để giành quyền độc quyền phân phối model trên cloud, Microsoft vừa nhả quyền đó — OpenAI giờ tự do bán API trên AWS, Google Cloud, Oracle hay bất kỳ hyperscaler nào khác. Đổi lại, MS không còn phải trả revenue share cho mọi sản phẩm OpenAI mà mình resell qua Azure — một deal khá có lợi cho margin của Satya Nadella nếu nhìn vào 9 quý gần nhất Azure phải chia phần ChatGPT cho Sam Altman. So what cho dev: chuẩn bị tinh thần thấy GPT‑5.x lên Bedrock và Vertex AI trong vài tháng tới — nhiều cloud hơn nghĩa là giá rẻ hơn, latency thấp hơn theo region, và OpenAI có thêm áp lực phải compete trực tiếp với Anthropic trên cùng marketplace. Đây cũng là tín hiệu rõ rằng OpenAI đã đủ leverage để không cần “sleep with one hyperscaler”, giống Anthropic đã làm từ đầu với cả AWS lẫn Google. Câu hỏi mở: Stargate cluster mà MS đang xây cho OpenAI có còn ràng buộc nếu OpenAI bắt đầu chạy training trên cụm khác?

Models & Tools

Chrome 138 ship Prompt API: Gemini Nano on-device, multimodal text/image/audio input · 5 phút https://developer.chrome.com/docs/ai/prompt-api

API JavaScript trực tiếp gọi Gemini Nano trong browser — không gửi data ra ngoài, không tốn API cost, và giờ accept input multimodal (text, image, audio). Đang trong origin trial cho Chrome 138 (web) và 148 (sampling parameters), session API có topK, temperature, signal để abort, plus initialPrompts cho conversational state. Catch: chỉ output text, ngôn ngữ giới hạn en/ja/es, và yêu cầu model download lần đầu — nên dùng cho extension hoặc app web nội bộ trước khi nghĩ đến public production.

Dirac đứng đầu Terminal-Bench-2 với 65.2% trên Gemini-3-flash-preview, vượt Junie CLI · 7 phút https://github.com/dirac-run/dirac

OSS coding agent fork từ Cline, claim giảm 64.8% API cost so với agent khác bằng hash-anchored parallel edits + AST manipulation thay vì rewrite cả file. Trên Terminal-Bench-2 leaderboard cho gemini-3-flash-preview, Dirac đạt 65.2% — vượt cả baseline chính thức của Google (47.6%) lẫn Junie CLI closed-source (64.3%), không cần AGENTS.md hay benchmark hint. Triết lý: context curation hơn minimal prompting, và họ thẳng thắn ghi “no MCP” trong README.

Mercor leak 4TB voice + ID của 40k contractor: voice clone giờ kèm CCCD verified · 7 phút https://app.oravys.com/blog/mercor-breach-2026

Lapsus$ post Mercor lên leak site ngày 4/4: 2-5 phút audio studio-clean mỗi người + driver license/passport scan + selfie webcam — full kit cho synthetic voice cloning vượt qua bank verification. WSJ đã đo: voice clone production-grade chỉ cần 15s audio sạch, mà Mercor leak gấp ~10 lần ngưỡng đó cho mỗi nạn nhân. Nếu sản phẩm bạn build có voice biometric auth (bank, telco, KYC), threshold cũ đã chết — thêm liveness check + phrase challenge tối thiểu, và cảnh báo team product trước khi compliance nhắc.

Research & Insights

Decoupled DiLoCo: train Gemma 4 12B trên 4 region US với 2-5 Gbps WAN, nhanh gấp 20x · 8 phút https://deepmind.google/blog/decoupled-diloco/

Google DeepMind ship paper xử lý bottleneck “thousands of chips phải sync hoàn hảo” — chia training thành “islands” compute, async data flow giữa các island, fault trong island này không block island khác. Số liệu thực: 0.84 Gbps đủ cross-datacenter (so với 198 Gbps cho data-parallel), goodput 88% ở 1.2M chip với failure rate cao (data-parallel rớt còn 27%), accuracy 64.1% ngang baseline 64.4%. Practical takeaway: lần đầu mix TPU v5p + v6e trong cùng training run mà vẫn đạt cùng ML perf, nghĩa là hardware đời cũ không phải retire mà còn dùng được vào training frontier.

Local LLM trên M5 Max 128GB, 10 tiếng bay LHR-LAS, 4M token: cable iPhone bóp throughput 36% · 6 phút https://deploy.live/blog/running-local-llms-offline-on-a-ten-hour-flight/

Engineer loveholidays test Gemma 4 31B + Qwen 4.6 36B trên LM Studio, build full billing analytics tool DuckDB-based + 4M token refactor/CLI work — kết luận: tight-scope coding hoàn toàn viable offline, frontier task vẫn cần cloud. Three limit thực tế: 1% pin/phút khi sustained load, chassis nóng tới mức phải kê chăn ở 70-80W, throughput rớt mạnh sau 100k token. Hidden gem: cable iPhone deliver 60W vs cable MacBook 94W — 36% gap chỉ vì nhầm cable, và bạn không tự tìm ra nếu không có powermonitor đo trực tiếp.

— tinAI

tinAI #097: Microsoft và OpenAI chính thức chấm dứt thỏa thuận độc quyền cloud

Bài dịch trong bản tin này

Tin nổi bật

Models & Tools

Research & Insights