Phát triển phần mềm đa agent là bài toán distributed systems

Vấn đề được đặt ra

Một câu nghe rất phổ biến trong cộng đồng AI: “Cứ chờ vài tháng, model mới sẽ giải quyết hết coordination problems.” Tác giả — một verification researcher — không đồng ý. Lý do: coordination trong multi-agent systems là bài toán distributed consensus, và có những impossibility results trong lý thuyết distributed systems hoàn toàn không phụ thuộc vào intelligence của các tham gia viên.

Mô hình toán học

Multi-agent software development có thể mô hình hóa như sau:

Một prompt ngôn ngữ tự nhiên xác định một tập hợp các chương trình hợp lệ — vì ngôn ngữ tự nhiên vốn ambiguous, tập này không rỗng và thường rất lớn
Khi spin up N agents để build software, mỗi agent phải produce một component sao cho khi kết hợp lại, hệ thống cuối thỏa mãn prompt
Đây chính là distributed consensus: các agents phải đồng ý trên một interpretation nhất quán, dù làm việc song song

Một agent chọn callback-style async API cho networking buộc agent khác phải thiết kế infrastructure xung quanh lựa chọn đó — mọi design decision đều tạo ra constraints lan rộng sang các agents khác.

Impossibility Results

FLP — Safety, Liveness, Fault Tolerance: chọn hai

FLP Theorem (Fischer-Lynch-Paterson, 1985): Trong bất kỳ distributed system nào với asynchronous messages và ít nhất 1 crash failure có thể xảy ra, không có protocol xác định nào đảm bảo tất cả nodes reach consensus trong bounded time.

Điều này áp dụng cho multi-agent LLM systems vì:

Asynchronous messages: LLM agent tự quyết định khi nào đọc message — không thể bound delivery time
Crash failure: agent có thể crash theo nhiều cách — tool call không terminate, tự kill process, bị derail hoàn toàn

Hệ quả: trong bất kỳ multi-agent system nào, dù agent thông minh đến đâu, không thể đồng thời đảm bảo:

Safety: produce phần mềm đúng theo spec
Liveness: luôn reach consensus và terminate

Pattern hay gặp trong thực tế: hai agents loop qua lại — một agent chọn design decision A, agent kia revert lại chọn B, rồi lặp lại mãi.

Một insight thú vị: nếu agents chạy trên cùng một máy, lệnh ps | grep claude có thể hoạt động như một failure detector — cho phép detect xem agent khác còn alive không. Chandra-Toueg (1996) đã chứng minh rằng consensus là có thể trong FLP setting nếu có một failure detector (dù unreliable). Takeaway: nên cung cấp cho agents một tool để check liveness của agents khác.

Byzantine Generals — Giới hạn số lượng misinterpretation

Byzantine Generals Theorem (Lamport-Shostak-Pease, 1982): Consensus chỉ đạt được nếu số agents honest > 2/3 tổng số agents.

Trong context LLM: agent misunderstand prompt ≈ byzantine agent — nó produce output không consistent với mục tiêu chung, tạo ra conflicts cho các agents khác.

Đây là hard bound không thể improve bằng smarter models. Tuy nhiên, có thể reduce số lượng misinterpretation bằng cách dùng:

Tests tự động
Static analysis
Verification tools

Những công cụ này convert misinterpretation thành crash failure — thay vì tiếp tục với sai lầm, agent nhận ra lỗi và refine. Crash failure yếu hơn byzantine failure, có hướng giải quyết qua FLP.

Các kết quả khác đáng theo dõi

Common Knowledge (Halpern & Moses, 1990): impossibility results cho epistemic knowledge trong distributed systems
Partial Synchrony (Dwork et al., 1988): escape hatch của FLP — đặt upper bound trên message delays để consensus trở nên solvable
CAP Theorem (Gilbert & Lynch, 2002): chọn tối đa 2 trong 3: Consistency, Availability, Partition tolerance

Kết luận cho Dev

Các team đang dùng multi-agent systems hiện nay đang ngầm giải quyết những coordination problems này — thường qua ad-hoc mechanisms không có guarantees rõ ràng. Distributed systems literature có 40 năm formalisms, theorems, và protocols cho chính xác những bài toán này.

Những gì smarter models có thể làm: shrink constants — agent ít misinterpret hơn, ít crash hơn.

Những gì smarter models không thể làm: xóa bỏ impossibility bounds — chúng là tính chất cố hữu của coordination, không phải của capability.

Nếu muốn multi-agent software development thực sự scale, ai đó phải làm công việc thiết kế protocols, languages, và tooling giải quyết coordination problems như first-class concerns — thay vì hy vọng nó tự biến mất.