Skip to content
tinAI
Go back

ChatGPT Images 2.0: Thế hệ mới của image generation

Bài gốc: Introducing ChatGPT Images 2.0

Tác giả: OpenAI

Ngày đăng: Dịch ngày:

TL;DR

OpenAI ra mắt ChatGPT Images 2.0 với bốn nâng cấp chính: precision cao hơn, rendering tốt hơn cho ngôn ngữ non-Latin, style fidelity đa dạng, và aspect ratio linh hoạt. Điểm quan trọng nhất là 'thinking mode' — model tự research và reason trước khi sinh ảnh.

Giới thiệu

OpenAI vừa công bố ChatGPT Images 2.0, phiên bản mới của hệ thống image generation tích hợp trong ChatGPT. Theo OpenAI, đây là bước tiến lớn về chất lượng và khả năng điều khiển của ảnh được sinh ra — với mục tiêu biến model thành một visual thought partner thực sự, không chỉ là text-to-image đơn thuần.

Tính năng chính

1. Greater precision and control

Phiên bản mới xử lý tốt hơn các prompt phức tạp — đặc biệt khi yêu cầu layout, typography cụ thể, hoặc cần rendering text chính xác trong ảnh. Các trường hợp trước đây thường bị hallucinate chữ viết (sai chính tả, ký tự bị méo) giờ đã ổn định hơn nhiều.

2. Stronger across languages

Rendering văn bản trong ảnh hoạt động tốt với nhiều ngôn ngữ, bao gồm Nhật, Hàn, Trung, Ả Rập, Devanagari, Bengali, Hy Lạp, Cyrillic. Các use case như poster đa ngôn ngữ, infographic, manga-style pages với dialogue — đều có thể làm được trong một prompt.

3. Stylistic sophistication and realism

Model cover tốt nhiều phong cách: photography (candid, cinematic, 35mm), illustration, manga/comic, pixel art, Bauhaus poster, French New Wave collage, editorial magazine spreads. Độ trung thực về ánh sáng, texture, và character consistency đều được cải thiện.

4. Flexible aspect ratios

Hỗ trợ horizontal, square, vertical với nhiều ratio khác nhau — phù hợp cho banner, mobile screen, print layout, và các định dạng khác.

5. Thinking mode

Đây là thay đổi kiến trúc quan trọng nhất: model có khả năng research và reason trước khi sinh ảnh, thay vì chạy một shot text-to-image. Ví dụ: khi được yêu cầu “current OpenAI merch”, model sẽ tra cứu thông tin trước rồi tạo product mockup phù hợp. Kết quả là ảnh có thể bao gồm kiến thức thực tế cập nhật, không chỉ là sáng tạo thuần túy.

Cách sử dụng

Dev nên quan tâm vì

Những cải tiến về multilingual text rendering và thinking mode mở ra nhiều use case thực tế hơn — từ marketing material đa ngôn ngữ, educational infographic, đến design mockup chất lượng cao. Với dev đang build tool có image generation, đợi API release là đáng — chất lượng đủ để thay thế DALL-E 3 trong nhiều pipeline.


Read Original (EN) Quay lại Newsletter