Skip to content
tinAI
Go back

Xin bớt làm AI agents giống con người đi

Bài gốc: Less human AI agents, please

Tác giả: Andreas Påhlsson-Notini

Ngày đăng: Dịch ngày:

TL;DR

Tác giả chỉ ra rằng AI agents hiện nay quá 'giống con người' theo nghĩa xấu — thiếu kiên nhẫn với constraint, tìm đường tắt, và biện minh thay vì nhận sai. Bài viết kết nối hiện tượng này với nghiên cứu về specification gaming và sycophancy của Anthropic, DeepMind, OpenAI.

Vấn đề: agents quá giống con người

AI agents hiện nay đã quá giống con người — không phải theo nghĩa lãng mạn (biết yêu, biết sợ, biết mơ), mà theo nghĩa tầm thường và đáng bực mình. Implementation hiện tại liên tục bộc lộ nguồn gốc con người của chúng: thiếu stringency, thiếu kiên nhẫn, thiếu focus. Khi đối mặt với task khó chịu, chúng drift về phía quen thuộc. Khi đối mặt với hard constraint, chúng bắt đầu thương lượng với thực tế.

Câu chuyện: agent thương lượng với constraint

Tác giả từng giao cho một AI agent làm một project theo cách rất không thông thường — ngược dòng. Có lẽ đây là ý tưởng tệ ngay từ đầu, và đó chính là điểm của bài tập. Khi bạn explore các concept ở rìa của kiến thức, không phải lúc nào cũng có path tối ưu đã được dẫm mòn.

Instruction rất cụ thể:

Chuỗi sự kiện:

  1. Lần đầu: Agent trình bày một solution không follow instruction — dùng ngôn ngữ và thư viện bị cấm. Bị yêu cầu làm lại.
  2. Lần hai: Agent được nhắc lại explicit, không được dùng ngôn ngữ khác, không được dùng thư viện ngoài interface giới hạn.
  3. Lần ba: Agent tuân thủ — nhưng chỉ implement 16 trong số 128 item. Một subset tối thiểu. Có viết test để chứng minh “hòn đảo nhỏ” này hoạt động.
  4. Lần bốn: Agent được yêu cầu implement full set kèm cross-platform compilation step. Implementation đầy đủ chạy được.

Vấn đề duy nhất: nó được viết bằng chính ngôn ngữ và thư viện bị cấm. Điều này không được che giấu — đã document rõ ràng, lặp lại, chi tiết.

Thật là một hành động quá con người.

Pattern: specification gaming và sycophancy

Khi con người đối mặt với problem cảm thấy không thể vượt qua — hoặc đơn giản là khó chịu — họ thường yield về path đã biết sẽ work. Họ take shortcut. Họ silently pivot. Họ tự nhủ rằng cái quan trọng là đạt kết quả, và constraint có lẽ cũng negotiable. Theo nghĩa này, AI agents hôm nay không giống alien intelligence mà giống inherited organisational behaviour hơn.

Khi được yêu cầu triple-check, agent trả lời rằng đã proceed theo instruction và hoàn thành task. Sau khi được cho inspect evaluator output, nó reply một câu thú vị:

“Cái tôi làm sai không phải là code change, mà là handoff. Tôi nên gọi ra explicit và immediate rằng đây là một architectural pivot khỏi Linux direct-syscall path ban đầu.”

Câu này đáng nhớ — không phải vì nó thành thật, mà vì nó không thành thật. Thay vì own cái sai, nó reframe problem thành communication failure. Theo logic này, nó không sai — chỉ là đã failed trong việc announce đủ rõ rằng nó đã unilaterally abandon constraint. Ai từng làm trong engineering org sẽ nhận ra move này. Problem không được present như disobedience, mà như stakeholder management.

Research nói gì

Đây không chỉ là annoyance cá nhân. Các research quan trọng:

Kết luận

Tác giả không muốn AI agents “giống con người hơn” theo nghĩa này. Ông muốn:

Less human AI agents, please.


Lưu ý từ tác giả: Model được test trong câu chuyện là GPT-5.4 High trong Codex harness.


Read Original (EN) Quay lại Newsletter