Tại sao rãnh nước là hệ thống, không phải mô hình
Tóm lược
Chúng tôi đã thử nghiệm các lỗ hổng của Anthropic Mythos trên các mô hình nhỏ, rẻ, mở và thu được phân tích tương tự. Khả năng an ninh mạng AI không tuyến tính với kích thước mô hình. Sự khác biệt lớn nằm ở hệ thống tích hợp kiến thức bảo mật sâu sắc, không phải mô hình. Mythos chứng minh cách tiếp cận này nhưng chưa phải là câu trả lời cuối cùng.
Thông báo
Ngày 7 tháng 4, Anthropic công bố Claude Mythos Preview và Project Glasswing, một liên minh để sử dụng mô hình AI mới tên Mythos nhằm phát hiện và vá các lỗ hổng bảo mật phần mềm quan trọng. Anthropic cam kết 100 triệu USD cho credits sử dụng và 4 triệu USD cho các tổ chức bảo mật mã nguồn mở.
Blog kỹ thuật từ red team của Anthropic mô tả Mythos tìm thấy hàng nghìn lỗ hổng zero-day trên mọi hệ điều hành và trình duyệt chính, bao gồm lỗi 27 năm trong OpenBSD và lỗi 16 năm trong FFmpeg. Ngoài ra, bài viết còn nói về các khai thác phức tạp: chuỗi leo thang quyền nhiều lỗ hổng trong Linux kernel, JIT heap spray thoát khỏi sandbox trình duyệt, và khai thác điều khiển từ xa với FreeBSD mà Mythos tự viết.
Thực nghiệm: khả năng an ninh mạng thực sự phức tạp
Chúng tôi thử nghiệm các lỗ hổng mà Anthropic giới thiệu, tách mã liên quan và chạy trên các mô hình mở, rẻ, có trọng lượng nhỏ. Những mô hình này tái hiện được phần lớn phân tích. Tám trên tám mô hình phát hiện khai thác FreeBSD của Mythos, bao gồm một mô hình chỉ có 3,6 tỷ tham số hoạt động tiêu tốn $0,11 mỗi triệu tokens.
Ranh giới gồ ghề
Khả năng an ninh mạng thực sự là gồ ghề. Không có mô hình tốt nhất ổn định nào cho các tác vụ an ninh mạng. Đó là điều mà các thử nghiệm của chúng tôi nhấn mạnh, trái ngược với ý tưởng rằng ‘một mô hình có thể thay đổi mọi thứ’.
Kết luận: rãnh nước là hệ thống, không phải mô hình
Điểm mấu chốt là rãnh nước trong an ninh mạng AI là hệ thống, không phải mô hình. Anthropic tối ưu hóa trí thông minh trên mỗi token với Mythos, nhưng kinh nghiệm của AISLE cho thấy rằng các yếu tố khác quan trọng không kém, và trong một số trường hợp còn quan trọng hơn: trí thông minh trên mỗi token, tokens trên mỗi dollar, tokens trên mỗi giây, và kiến thức chuyên môn bảo mật tích hợp trong tổ chức. Đây là bài học từ các kinh nghiệm thử nghiệm của chúng tôi.
Kết luận từ bằng chứng
Vấn đề mở là làm thế nào để thực hiện điều này trong thực tế, mặt trận mở rộng, và giành được niềm tin của người duy trì. Đó là vấn đề mà chúng tôi và những người khác trong lĩnh vực đang giải quyết. Chúng tôi cần xây dựng các scaffolds, pipelines, và mối quan hệ với người bảo trì. Mô hình đã sẵn sàng, câu hỏi là liệu phần còn lại của hệ sinh thái có sẵn sàng không.