Skip to content
tinAI
Go back

Giới thiệu HN: Canary (YC W26) – AI QA hiểu mã nguồn của bạn

Bài gốc: Launch HN: Canary (YC W26) – AI QA that understands your code

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Canary sử dụng AI để tạo và thực thi bài kiểm tra từ các thay đổi PR trong mã nguồn, nhằm đảm bảo mọi luồng công việc của người dùng vẫn hoạt động tốt. Đây là công cụ QA giúp phát hiện sớm các lỗi mà thường không rõ ràng.

Giới thiệu

Chào mọi người! Chúng tôi là Aakash và Viswesh, và chúng tôi đang phát triển Canary (runcanary.ai). Chúng tôi xây dựng các agent AI để đọc mã nguồn, xác định sự thay đổi của pull request và tạo, thực thi các bài kiểm tra cho mỗi luồng công việc của người dùng bị ảnh hưởng.

Tại sao Canary ra đời?

Trước đây, chúng tôi đã phát triển các công cụ mã AI tại Windsurf, Cognition, và Google. Dù các công cụ AI giúp nhóm phát triển nhanh chóng, nhưng không ai thực sự kiểm tra hành vi người dùng trước khi hợp nhất mã. Điều này dẫn đến việc các thay đổi trên mã nguồn có thể gây lỗi trong các tính năng chính như thanh toán hay xác thực.

Cách hoạt động của Canary

  1. Kết nối và phân tích mã nguồn: Canary kết nối vào mã nguồn và hiểu cấu trúc ứng dụng của bạn.
  2. Phân tích PR: Sau khi bạn đẩy PR, Canary đọc và hiểu thay đổi, rồi tạo và thực thi bài kiểm tra trên ứng dụng thử nghiệm.
  3. Tương tác trực tiếp với PR: Kết quả kiểm tra được chia sẻ trực tiếp với PR cùng với video minh họa và cảnh báo lỗi.
  4. Tạo bài kiểm tra tự động: Ngoài kiểm tra PR, bạn có thể tạo các bài kiểm tra bằng cách mô tả bằng tiếng Anh đơn giản.

Kết quả và Lợi ích

Một khách hàng trong ngành xây dựng đã phát hiện lỗi trong luồng hóa đơn nhờ Canary, ngăn chặn một lỗi lớn trị giá $1,600 trước khi phát hành.

Công nghệ vượt trội

Canary không chỉ dựa vào mô hình AI thuần túy mà còn sử dụng các thiết bị giả lập, nhận dạng DOM/ARIA, và nhiều công cụ khác để phát hiện và xử lý những lỗi phức tạp.

Đánh giá và Phương pháp

Chúng tôi đã phát hành QA-Bench v0 để đánh giá khả năng phát hiện luồng công việc và tạo bài kiểm tra cho PR thực tế, cho thấy Canary vượt trội so với GPT 5.4, Claude Code (Opus 4.6), và Sonnet 4.6 về Độ phù hợp, Phạm vi, và Sự nhất quán.

Phản hồi

Chúng tôi rất mong nhận được phản hồi từ cộng đồng về cách đo lường và xác minh mã nguồn. Xem thêm báo cáo tham chiếuvideo demo sản phẩm.


Read Original (EN) Quay lại Newsletter