Giới thiệu
OpenAI vừa công bố ChatGPT Images 2.0, phiên bản mới của hệ thống image generation tích hợp trong ChatGPT. Theo OpenAI, đây là bước tiến lớn về chất lượng và khả năng điều khiển của ảnh được sinh ra — với mục tiêu biến model thành một visual thought partner thực sự, không chỉ là text-to-image đơn thuần.
Tính năng chính
1. Greater precision and control
Phiên bản mới xử lý tốt hơn các prompt phức tạp — đặc biệt khi yêu cầu layout, typography cụ thể, hoặc cần rendering text chính xác trong ảnh. Các trường hợp trước đây thường bị hallucinate chữ viết (sai chính tả, ký tự bị méo) giờ đã ổn định hơn nhiều.
2. Stronger across languages
Rendering văn bản trong ảnh hoạt động tốt với nhiều ngôn ngữ, bao gồm Nhật, Hàn, Trung, Ả Rập, Devanagari, Bengali, Hy Lạp, Cyrillic. Các use case như poster đa ngôn ngữ, infographic, manga-style pages với dialogue — đều có thể làm được trong một prompt.
3. Stylistic sophistication and realism
Model cover tốt nhiều phong cách: photography (candid, cinematic, 35mm), illustration, manga/comic, pixel art, Bauhaus poster, French New Wave collage, editorial magazine spreads. Độ trung thực về ánh sáng, texture, và character consistency đều được cải thiện.
4. Flexible aspect ratios
Hỗ trợ horizontal, square, vertical với nhiều ratio khác nhau — phù hợp cho banner, mobile screen, print layout, và các định dạng khác.
5. Thinking mode
Đây là thay đổi kiến trúc quan trọng nhất: model có khả năng research và reason trước khi sinh ảnh, thay vì chạy một shot text-to-image. Ví dụ: khi được yêu cầu “current OpenAI merch”, model sẽ tra cứu thông tin trước rồi tạo product mockup phù hợp. Kết quả là ảnh có thể bao gồm kiến thức thực tế cập nhật, không chỉ là sáng tạo thuần túy.
Cách sử dụng
- Available ngay trong ChatGPT (web, iOS, Android, Desktop)
- Chọn giữa Image mode (tối ưu cho ảnh đơn) và Classic mode (đàm thoại kèm ảnh)
- Hỗ trợ multiple aspect ratios trong cùng một session
- API: OpenAI chưa công bố timeline cho API access
Dev nên quan tâm vì
Những cải tiến về multilingual text rendering và thinking mode mở ra nhiều use case thực tế hơn — từ marketing material đa ngôn ngữ, educational infographic, đến design mockup chất lượng cao. Với dev đang build tool có image generation, đợi API release là đáng — chất lượng đủ để thay thế DALL-E 3 trong nhiều pipeline.