Vấn đề không ai nói tới ở quy mô demo
Kịch bản quen thuộc
Khi bạn kết nối GitHub, Slack và Sentry, bạn sẽ thấy 55,000 token dành cho định nghĩa công cụ. Mỗi công cụ MCP có thể mất tới 550-1,400 token. Có đội ngũ đã báo cáo ba máy chủ MCP tiêu tốn 143,000 trong 200,000 token.
Trilemma của David Zhang
David Zhang đã phải loại bỏ tích hợp MCP vì vấn đề này quá lớn. Lựa chọn của anh ấy bao gồm tải mọi thứ ngay từ đầu, giới hạn tích hợp và xây dựng tải công cụ động, tất cả đều không lý tưởng.
Ba cách tiếp cận vấn đề bloat ngữ cảnh
MCP với thủ thuật nén
Giải pháp này yêu cầu đội ngũ nén các schema, sử dụng tìm kiếm công cụ để tải định nghĩa khi cần. Tuy nhiên, nó đòi hỏi cơ sở hạ tầng phức tạp và vẫn tốn chi phí token.
Thực thi mã (cách tiếp cận của Duet)
Duet lựa chọn để agent hoạt động như một nhà phát triển với workspace liên tục. Cách tiếp cận này rất mạnh mẽ cho các workflow phức tạp nhưng yêu cầu bảo mật cao.
CLI như giao diện agent
Sử dụng CLI có thể tiết kiệm token đáng kể. Agent chỉ tải thông tin khi cần, giống như một nhà phát triển sử dụng CLI.
Lợi ích của việc sử dụng CLI
Tiết kiệm token qua disclosure tiến bộ
CLI chỉ tiêu tốn ~80 token ngay từ đầu. Agent có thể khám phá các khả năng từng bước với chi phí token thấp.
Độ tin cậy: cục bộ tốt hơn từ xa
Các thất bại kết nối với máy chủ MCP có tỷ lệ cao hơn CLI, trong khi CLI hoạt động trực tiếp trên máy người dùng.
An toàn cấu trúc
CLI ngăn chặn các thao tác nguy hiểm và yêu cầu xác nhận khi cần thiết.
Khi nào không sử dụng CLI
- MCP tốt hơn cho công cụ tần suất cao.
- Thực thi mã phù hợp với workflow phức tạp.
- MCP tốt hơn khi agent hoạt động thay mặt người dùng khác.
Sự chuẩn bị của nhà cung cấp API
API có thể trở nên nhỏ gọn và hiệu quả hơn nếu sử dụng phương pháp tiết kiệm token.