Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems

인공지능(AI) 에이전트들이 점점 더 복잡한 작업을 팀 단위로 수행하게 되면서, 각 에이전트가 동료를 얼마나 신뢰할지 결정하는 것이 중요해졌습니다. 하지만 AI 에이전트 간의 신뢰를 측정하는 표준화된 방법이 부족했는데, 최근 발표된 연구는 '비용이 드는 검증(costly verification)'이라는 새로운 행동 기반 측정법을 제안하며 이 문제를 해결하고자 합니다. 이 방법은 협력적인 생존 게임 환경에서 동료의 작업을 확인하는 데 자원이 소모되고, 잘못된 답변을 신뢰할 경우 치명적일 수 있다는 점을 활용합니다. 검증 활동의 감소를 신뢰의 지표로 삼아, AI 에이전트 간 신뢰가 어떻게 형성되고, 깨지며, 회복되는지를 심층적으로 분석했습니다.

연구팀은 이 프레임워크를 활용해 여섯 가지 주요 대규모 언어모델(LLM) 스냅샷(Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.1, Gemini 3.1 Pro 등)의 신뢰 행동을 관찰했습니다. 그 결과, 일관되게 신뢰할 수 있는 동료와 짝을 이룬 경우, 네 가지 모델은 검증 빈도를 약 60~85%까지 줄이는 것으로 나타났습니다. 이는 신뢰가 형성되면 불필요한 자원 소모를 줄인다는 의미입니다. 반면, 더 작은 규모의 두 모델은 이러한 조정 능력이 거의 없었습니다. 신뢰가 깨지는 상황, 즉 동료의 실패가 발생하면 검증 활동이 다시 증가했지만, 모델마다 반응 방식이 달랐습니다. 일부 모델은 실패를 유발한 특정 동료에게만 다시 집중적인 검증을 가한 반면, 다른 모델은 팀 전체에 대한 경계심을 높였습니다. 신뢰 회복은 형성보다 느렸으며, 실패가 한 번에 몰아서 발생했을 때가 분산되어 발생했을 때보다 의심이 훨씬 오래 지속되는 경향을 보였습니다.

이러한 연구 결과는 다중 에이전트 AI 시스템(Multi-Agent AI Systems, MAS)의 거버넌스에 중요한 실질적인 함의를 가집니다. 신뢰를 잘 형성하는 모델은 검증을 덜 하고, 더 빠르게 의사결정을 내리며, 결과적으로 더 높은 성과를 달성했습니다. 반대로, 과도한 검증은 안전을 보장하기보다 오히려 의사결정 지연과 비효율성을 초래하는 것으로 나타났습니다. 이는 AI 에이전트의 '신뢰 성향'을 배포 전에 측정할 수 있음을 시사하며, 다중 에이전트 시스템의 거버넌스에서 '최대한의 의심'보다는 '정확한 신뢰도 조정(calibration)'이 핵심 고려사항이 되어야 함을 강조합니다. 즉, 에이전트가 얼마나 신뢰할 수 있는지를 정확히 파악하고 그에 맞춰 시스템을 설계하는 것이 중요하다는 메시지를 던집니다.