Mục tiêu
Mục tiêu của công cụ này là phát hiện các suy giảm đáng kể trong hiệu suất của Claude Code với Opus 4.5 trên các tác vụ SWE.
- Cập nhật hàng ngày: Thực hiện bài kiểm tra trên một tập hợp con từ SWE-Bench-Pro.
- Phát hiện suy giảm: Sử dụng thử nghiệm thống kê để phát hiện suy giảm.
- Trực tiếp từ Claude Code: Thực hiện kiểm tra trực tiếp mà không thông qua các công cụ tùy chỉnh.
Tóm tắt
Trạng thái suy giảm
Hiện có suy giảm đáng kể về mặt thống kê trong 30 ngày qua với mức ý nghĩa p < 0.05.
Tỉ lệ đạt chuẩn
- Tỉ lệ đạt chuẩn cơ bản: 58%
- Tỉ lệ đạt chuẩn hàng ngày: 50%
- Tỉ lệ đạt chuẩn 7 ngày: 53%
- Tỉ lệ đạt chuẩn 30 ngày: 54%
Xu hướng hàng ngày
- Tỉ lệ đạt chuẩn hàng ngày: Hiển thị tỉ lệ phần trăm của các tác vụ đã giải được trong mỗi ngày.
- Ngưỡng: Vùng bị che phủ xung quanh tỉ lệ 58% (±14.0%).
Xu hướng hàng tuần
- Tỉ lệ đạt chuẩn 7 ngày: Tổng hợp 7 ngày cho một cái nhìn mượt mà hơn, giảm tiếng ồn hàng ngày.
- Ngưỡng: Vùng bị che phủ xung quanh tỉ lệ 58% (±5.6%).
Tổng quan thay đổi
- 1 ngày qua: Không có sự thay đổi đáng kể.
- 7 ngày qua: Không có sự thay đổi đáng kể.
- 30 ngày qua: Có sự suy giảm đáng kể.
Phương pháp
Chạy đánh giá hàng ngày trên Claude Code CLI trên tập hợp con không bị nhiễm từ SWE-Bench-Pro. Không sử dụng các công cụ tùy chỉnh, do đó kết quả phản ánh đúng trải nghiệm người dùng. Kết quả hàng ngày có sự biến động, nhưng dữ liệu hàng tuần và hàng tháng đáng tin cậy hơn.
Chúng tôi mô hình hóa các thử nghiệm như các biến ngẫu nhiên Bernoulli và tính toán khoảng tin cậy 95% cho mỗi điểm dữ liệu.