Skip to content
tinAI
Go back

Theo dõi Hiệu suất Claude Code Opus 4.5 | Marginlab

Bài gốc: Claude Code Opus 4.5 Performance Tracker | Marginlab

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Công cụ theo dõi này giúp phát hiện sự suy giảm hiệu suất trong Claude Code Opus 4.5 trên các tác vụ SWE. Được cập nhật hàng ngày, công cụ sử dụng các thử nghiệm thống kê để xác định sự thay đổi đáng kể.

Mục tiêu

Mục tiêu của công cụ này là phát hiện các suy giảm đáng kể trong hiệu suất của Claude Code với Opus 4.5 trên các tác vụ SWE.

Tóm tắt

Trạng thái suy giảm

Hiện có suy giảm đáng kể về mặt thống kê trong 30 ngày qua với mức ý nghĩa p < 0.05.

Tỉ lệ đạt chuẩn

Xu hướng hàng ngày

Xu hướng hàng tuần

Tổng quan thay đổi

Phương pháp

Chạy đánh giá hàng ngày trên Claude Code CLI trên tập hợp con không bị nhiễm từ SWE-Bench-Pro. Không sử dụng các công cụ tùy chỉnh, do đó kết quả phản ánh đúng trải nghiệm người dùng. Kết quả hàng ngày có sự biến động, nhưng dữ liệu hàng tuần và hàng tháng đáng tin cậy hơn.

Chúng tôi mô hình hóa các thử nghiệm như các biến ngẫu nhiên Bernoulli và tính toán khoảng tin cậy 95% cho mỗi điểm dữ liệu.


Read Original (EN) Quay lại Newsletter