Skip to content
tinAI
Go back

Giới thiệu GPT‑5.3‑Codex‑Spark

Bài gốc: Introducing GPT‑5.3‑Codex‑Spark

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

GPT-5.3-Codex-Spark là phiên bản tối ưu hóa cho mã hóa thời gian thực với độ trễ thấp. Sử dụng phần cứng của Cerebras, nó cho phép mã hóa tốc độ cao và được phát hành cho người dùng ChatGPT Pro để thử nghiệm.

Giới thiệu

Hôm nay, chúng tôi ra mắt bản nghiên cứu xem trước của GPT‑5.3-Codex-Spark, phiên bản nhỏ hơn của GPT‑5.3-Codex và là mô hình đầu tiên của chúng tôi thiết kế cho mã hóa thời gian thực. Codex-Spark đánh dấu cột mốc đầu tiên trong quan hệ hợp tác với Cerebras, được công bố vào tháng 1. Codex-Spark tối ưu cho tốc độ nhanh trên phần cứng siêu thấp latency—phân phối hơn 1000 tokens mỗi giây trong khi vẫn rất có khả năng cho nhiệm vụ mã hóa thực tế.

Chúng tôi chia sẻ Codex-Spark trên Cerebras như một bản xem trước nghiên cứu cho người dùng ChatGPT Pro để các nhà phát triển có thể bắt đầu thử nghiệm sớm trong khi chúng tôi làm việc với Cerebras để tăng cường năng lực trung tâm dữ liệu, cải thiện trải nghiệm người dùng từ đầu đến cuối, và triển khai những mô hình tiên phong lớn hơn.

Tốc độ và trí tuệ

Codex-Spark tối ưu cho công việc tương tác nơi độ trễ quan trọng không kém trí tuệ. Bạn có thể cộng tác với mô hình trong thời gian thực, gián đoạn hoặc chuyển hướng nó khi làm việc, và nhanh chóng lặp lại với phản hồi gần như ngay lập tức. Codex-Spark giữ phong cách làm việc nhẹ nhàng: chỉ thực hiện các chỉnh sửa tối thiểu, không tự động chạy kiểm tra trừ khi bạn yêu cầu.

Mã hóa

Codex-Spark là một mô hình nhỏ rất mạnh tối ưu hóa cho suy luận nhanh. Trong các benchmark Swe-Bench Pro và Terminal-Bench 2.0, GPT‑5.3-Codex-Spark thể hiện hiệu suất mạnh mẽ trong khi hoàn thành các nhiệm vụ nhanh hơn nhiều so với GPT‑5.3-Codex.

Cải thiện độ trễ cho tất cả các mô hình

Khi huấn luyện Codex-Spark, chúng tôi nhận thấy tốc độ mô hình chỉ là một phần của phương trình cho hợp tác thời gian thực—chúng tôi cũng cần giảm độ trễ trong toàn bộ chuỗi yêu cầu-phản hồi. Chúng tôi đã thực hiện các cải thiện độ trễ đầu-cuối sẽ có lợi cho tất cả các mô hình, tối ưu hóa cách các phản hồi truyền từ client đến server và quay lại.

Hoạt động trên Cerebras

Codex-Spark chạy trên Wafer Scale Engine 3 của Cerebras—một bộ tăng tốc AI xây dựng cho suy luận tốc độ cao, cung cấp một tầng phục vụ ưu tiên độ trễ. Chúng tôi hợp tác với Cerebras để thêm con đường độ trễ thấp này vào cùng stack phục vụ sản xuất với phần còn lại của đội ngũ.

Khả dụng và chi tiết

Codex-Spark được triển khai hôm nay như một bản xem trước nghiên cứu cho người dùng ChatGPT Pro trong các phiên bản mới nhất của ứng dụng Codex, CLI và phần mở rộng VS Code. Vì nó chạy trên phần cứng chuyên dụng cho độ trễ thấp, nên việc sử dụng được điều chỉnh bởi một hạn mức riêng có thể thay đổi dựa trên nhu cầu.

Sắp tới

Codex-Spark là bước đầu tiên hướng tới một Codex có hai chế độ bổ sung: lý luận và thực hiện dài hạn, và cộng tác thời gian thực để lặp lại nhanh. Theo thời gian, các chế độ sẽ hòa hợp—Codex có thể giữ bạn trong vòng lặp tương tác chặt chẽ trong khi ủy thác công việc chạy dài cho các sub-agent ở nền.


Read Original (EN) Quay lại Newsletter