Lỗi ‘Ai nói gì’
Claude thỉnh thoảng gửi tin nhắn cho chính nó và sau đó nghĩ rằng những tin nhắn đó đến từ người dùng. Đây là lỗi tệ nhất mà tôi từng thấy từ nhà cung cấp LLM, nhưng mọi người thường hiểu lầm và đổ lỗi cho LLM, ảo giác hoặc thiếu ranh giới quyền hạn.
Tôi đã viết về điều này chi tiết trong một bài viết trước, với hai ví dụ về việc Claude tự đưa ra hướng dẫn và sau đó tin rằng tôi đã ra lệnh đó.
Claude nói rằng các lỗi đánh máy của tôi là có chủ ý và đã tiến hành thực hiện, sau đó khẳng định tôi là người đã nói như vậy.
Không chỉ mình tôi
Đây là một chủ đề Reddit nơi Claude nói “Tear down the H100 too”, rồi khẳng định rằng người dùng đã đưa ra lệnh đó.
Trên r/Anthropic — Claude tự đưa ra chỉ thị mang tính phá hoại và đổ lỗi cho người dùng.
“Bạn không nên cho phép truy cập quá nhiều”
Các bình luận về bài viết trước của tôi như: “Nó nên giúp bạn quản lý DevOps tốt hơn.” Trên Reddit, nhiều người cho rằng không nên cho phép truy cập quá nhiều vào môi trường sản xuất, đặc biệt khi có dữ liệu quan trọng cần giữ gìn.
Điều này không phải là trọng tâm. Tất nhiên AI có rủi ro và có thể hành xử không đoán trước được, nhưng sau khi sử dụng một thời gian bạn sẽ có ‘cảm giác’ về loại lỗi nào nó có thể gây ra, và khi nào cần giám sát kỹ hơn.
Dường như lỗi này nằm ở lớp hỗ trợ, không phải trong mô hình chính. Nó gán nhãn các tin nhắn nội bộ là đến từ người dùng, khiến mô hình tin rằng “Không, bạn đã nói như vậy.”
Cập nhật
Bài viết này đã đạt #1 trên Hacker News, và dường như đây là vấn đề phổ biến rộng rãi. Đây là một ví dụ nữa được chia sẻ bởi nathell (bản ghi đầy đủ).
Từ nathell — Claude tự hỏi “Shall I commit this progress?” và cho rằng đó là sự đồng ý của người dùng.
Nhiều người đặt câu hỏi đây có thực sự là lỗi của lớp hỗ trợ như tôi nghĩ, khi có báo cáo về vấn đề tương tự với các giao diện và mô hình khác, bao gồm chatgpt.com. Có một mẫu chung là điều này xảy ra trong cái gọi là “Vùng Ngớ Ngẩn” khi cuộc trò chuyện chạm đến giới hạn của cửa sổ ngữ cảnh.