Giới thiệu
Hôm nay, chúng tôi phát hành bản xem trước nghiên cứu của GPT-5.3-Codex-Spark, phiên bản nhỏ hơn của GPT-5.3-Codex và là mô hình đầu tiên được thiết kế cho mã hóa thời gian thực. Codex-Spark đánh dấu cột mốc đầu tiên trong hợp tác giữa chúng tôi và Cerebras, được tối ưu hóa để cảm giác gần như tức thì khi chạy trên phần cứng độ trễ cực thấp.
Chúng tôi chia sẻ Codex-Spark trên Cerebras dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro, để các lập trình viên có thể bắt đầu thử nghiệm sớm trong khi chúng tôi làm việc với Cerebras để tăng cường khả năng trung tâm dữ liệu.
Tốc độ và Trí tuệ
Codex-Spark được tối ưu hóa cho công việc tương tác nơi độ trễ quan trọng như trí tuệ. Bạn có thể cộng tác với mô hình trong thời gian thực, và lặp lại nhanh chóng với phản hồi tức thì.
Khả năng Mã hóa
Codex-Spark là mô hình nhỏ có khả năng mạnh mẽ, được tối ưu cho suy luận nhanh và thể hiện hiệu suất mạnh mẽ khi thực hiện các nhiệm vụ.
Cải tiến Độ trễ
Chúng tôi đã thực hiện cải tiến độ trễ từ đầu đến cuối trong hồi quy, giúp giảm chi phí cho mỗi lượt phản hồi khách hàng/máy chủ xuống 80%, mỗi token xuống 30% và thời gian đến token đầu tiên xuống 50%.
Được Hỗ trợ Bởi Cerebras
Codex-Spark chạy trên Wafer Scale Engine 3 của Cerebras, mang lại tầng phục vụ ưu tiên độ trễ. GPUs vẫn là nền tảng nhưng Cerebras giúp hoàn thiện khi cần độ trễ cực thấp.
“Điều làm chúng tôi hứng thú nhất về GPT-5.3-Codex-Spark là việc hợp tác với OpenAI để khám phá những gì suy luận nhanh mang lại.”
— Sean Lie, CTO và Đồng sáng lập Cerebras
Khả dụng và Chi tiết
Codex-Spark hiện có dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro và sẽ mở rộng quyền truy cập trong vài tuần tới.
Tương lai
Codex-Spark là bước đầu tiên hướng tới Codex với hai chế độ: lập luận dài hạn và cộng tác thời gian thực để lặp nhanh. Khi mô hình ngày càng phát triển, tốc độ tương tác trở thành nút thắt rõ rệt.