tinAI #001: OpenAI ra mắt o3 — reasoning model mạnh nhất

Tin nổi bật

OpenAI ra mắt o3 — reasoning model mạnh nhất hiện tại

OpenAI vừa công bố o3, thế hệ tiếp theo của series reasoning model. Điểm đáng chú ý:

Đạt 87.5% trên ARC-AGI benchmark (trước đó Claude và GPT-4 chỉ ~5%)
Có thể “suy nghĩ” lâu hơn để giải quyết vấn đề phức tạp
API đã available cho developer

Dev nên quan tâm vì: Nếu bạn đang build app cần reasoning phức tạp (code generation, math, logic puzzles), o3 sẽ là game changer. Tuy nhiên, cost per token cao hơn đáng kể — cân nhắc khi nào cần dùng reasoning model vs standard model.

Models & Tools

Anthropic cập nhật Claude 3.5 Sonnet với computer use

Claude giờ có thể điều khiển máy tính như người dùng thật — click, gõ, navigate. Accuracy còn thấp (~15%) nhưng tiềm năng cho automation testing rất lớn.

Dev nên quan tâm vì: Đây là bước đầu tiên hướng tới AI agents thực sự autonomous. Dev làm QA/testing có thể bắt đầu experiment với use case này.

Meta open-source Llama 3.3 70B

Meta tiếp tục chiến lược open-source với Llama 3.3 70B. Performance gần bằng GPT-4 nhưng có thể self-host.

Dev nên quan tâm vì: Nếu bạn cần on-premise AI hoặc muốn fine-tune model cho use case riêng, Llama 3.3 là lựa chọn tốt nhất hiện tại.

Research & Insights

Paper: “Constitutional AI” từ Anthropic

Anthropic công bố chi tiết về cách họ train Claude để “harmless but helpful”. Kỹ thuật RLHF kết hợp với self-critique.

Dev nên quan tâm vì: Nếu bạn đang build AI product, hiểu cách các công ty lớn handle safety là quan trọng. Paper này là tài liệu tham khảo tốt.

tinAI — 5 phút mỗi sáng, cập nhật AI cho dev Việt Nam.