Qwen-Image-2.0: Tạo đồ họa thông tin chuyên nghiệp và hình ảnh chân thực tinh tế

Chúng tôi xin giới thiệu Qwen-Image-2.0, mô hình tạo hình ảnh thế hệ mới. Các điểm nổi bật của Qwen-Image-2.0 bao gồm:

Chữ viết chuyên nghiệp: Hỗ trợ hướng dẫn 1k-token cho việc tạo đồ họa thông tin chuyên nghiệp như PPT, poster, truyện tranh, và nhiều hơn nữa.
Độ tuân thủ ngữ nghĩa mạnh mẽ: Hỗ trợ độ phân giải 2K cho các cảnh chân thực chi tiết, bao gồm con người, thiên nhiên và kiến trúc.
Cải thiện khả năng hiển thị chữ: Khả năng hiểu và tạo chữ tích hợp, thống nhất giữa tạo ảnh và chỉnh sửa trong một chế độ.
Kiến trúc mô hình nhẹ hơn: Kích thước mô hình nhỏ hơn với tốc độ suy diễn nhanh hơn.

Hiệu Suất Mô Hình

Chúng tôi đã thực hiện thử nghiệm mù trên AI Arena. Kết quả cho thấy Qwen-Image-2.0, là một mô hình tạo và chỉnh sửa thống nhất, đạt hiệu suất vượt trội trong cả chuẩn text-to-image và image-to-image.

Giới Thiệu Mô Hình

Trước khi giới thiệu Qwen-Image-2.0, hãy cùng xem lại quá trình phát triển của Qwen-Image thông qua một slide PPT duy nhất:

Như được mô tả trong slide, trước khi có Qwen-Image-2.0, chúng tôi đã khám phá hai hướng phát triển song song: tạo hình và chỉnh sửa. Trên hướng tạo hình, chúng tôi tập trung vào cải thiện độ chính xác và chân thực trong tổng hợp hình ảnh—Qwen-Image (phát hành tháng 8) nhấn mạnh vào hiển thị chữ chính xác, trong khi Qwen-Image-2512 (phát hành tháng 12) nâng cao chi tiết và chân thực trong hình ảnh. Trên hướng chỉnh sửa, chúng tôi khám phá chức năng và tính nhất quán—từ chỉnh sửa ảnh đơn lẻ trong tháng 8, đến chỉnh sửa đa ảnh trong tháng 9, và cải tiến tính nhất quán trong tháng 12. Hôm nay, Qwen-Image-2.0 đã thành công trong việc kết hợp hai hướng thành một mô hình thống nhất, mang lại kết quả xuất sắc đồng thời trên cả hai nhiệm vụ.

Phân tích slide này cho thấy Qwen-Image-2.0 không chỉ có thể tạo ra một dòng thời gian phát triển hai hướng và hiển thị chính xác mọi phần văn bản, mà còn thực thi các bố cục “hình trong hình” phức tạp. Ví dụ, khi tạo ra hướng dẫn “dưới đây là một ảnh ghép: phía trên cho thấy một chú chó con đội mũ, phía dưới cho thấy cùng chú chó đó không đội mũ,” mô hình không chỉ hoàn thành việc hiển thị mà còn duy trì sự nhất quán hình ảnh giữa hai hình. Khả năng “hình trong hình” chính xác này giúp việc tạo PPT chuyên nghiệp trở nên dễ dàng hơn đáng kể.

Ngoài độ chính xác (“准”), một thế mạnh khác của Qwen-Image-2.0 là khả năng xử lý độ phức tạp (“多”). Với sự hỗ trợ cho hướng dẫn 1k-token, mô hình có thể xử lý các yêu cầu tạo dựng rất phức tạp.

Ví Dụ

Khi được cung cấp một đầu vào đơn giản, mô hình có thể sản xuất một hướng dẫn chi tiết phong phú. Và chính những mô tả phức tạp như vậy Qwen-Image-2.0 xuất sắc trong việc hiển thị. Dưới đây là hình ảnh kết quả:

Vẻ Đẹp (“美”)

Khi thực hiện các bố cục văn bản và hình ảnh hỗn hợp, mô hình có xu hướng hiển thị văn bản ở những khu vực trống để tránh che khuất chủ thể hình ảnh chính. Ngoài ra, mô hình hỗ trợ nhiều phong cách thư pháp—ví dụ, sử dụng phong cách “Slender Gold” để viết bài thơ.

Độ Thật (“真”)

Khi tính hiện thực chân thực cần kết hợp với hình ảnh và văn bản, như áp phích phim, Qwen-Image-2.0 cho phép hiển thị văn bản trên các loại bề mặt vật liệu khác nhau trong khi vẫn duy trì ánh sáng, phản xạ, và góc nhìn—tăng cường sự chân thực cho hình ảnh tạo ra.

Tóm lại, chúng tôi đã giới thiệu năm đặc điểm chính của khả năng hiển thị văn bản của Qwen-Image-2.0: độ chính xác, độ phức tạp, vẻ đẹp, sự chân thực, và sự căn chỉnh. Ngoài việc hiển thị văn bản, Qwen-Image-2.0 cũng mang lại sự cải thiện đáng kể về độ chân thực trong các cảnh không chứa văn bản.

Chúc bạn tạo ra nhiều sản phẩm sáng tạo với Qwen-Image-2.0!

Qwen-Image-2.0: Tạo đồ họa thông tin chuyên nghiệp và hình ảnh chân thực tinh tế

TL;DR

Hiệu Suất Mô Hình

Giới Thiệu Mô Hình

Ví Dụ

Vẻ Đẹp (“美”)

Độ Thật (“真”)

Đường dẫn nguồn

Qwen-Image-2.0: Tạo đồ họa thông tin chuyên nghiệp và hình ảnh chân thực tinh tế

TL;DR

Hiệu Suất Mô Hình

Giới Thiệu Mô Hình

Ví Dụ

Vẻ Đẹp (“美”)

Độ Thật (“真”)

Đường dẫn nguồn

Cùng bản tin này