자율 인공지능(AI) 시스템이 의료 처방, 생산 소프트웨어 배포와 같이 돌이킬 수 없는 중대한 행동을 수행할 가능성이 커지면서, 이러한 AI를 어떻게 안전하게 통제할 것인가에 대한 논의가 활발합니다. 최근 발표된 한 연구 논문은 AI의 추론 과정을 일일이 감시하기보다는, 인간 사회가 강력한 자율 주체를 통제해 온 방식에 주목하여 '기관 증명(Institutional Attestation)'이라는 새로운 거버넌스 모델을 제안했습니다.
이 모델의 핵심은 AI 에이전트가 계획 및 추론에 대한 완전한 자율성을 유지하면서도, 지정된 고위험 행동에 대한 실행 권한은 갖지 않는다는 점입니다. 대신, 이러한 행동의 실행은 각각 독립적인 권위 있는 출처(authoritative source)에 의해 증명된 전제 조건(preconditions)이 충족될 때만 가능합니다. 이 증명은 선언된 의도(declared intent)에 암호학적으로 바인딩(cryptographically bound)되며, 결정론적 정책(deterministic policy)에 의해 평가됩니다. 모든 결정은 변조 방지(tamper-evident) 로그에 기록되어 독립적인 재검증이 가능하도록 설계되었습니다. 연구팀은 소프트웨어 배포와 임상 처방 사례를 통해 이 모델의 개념 증명(proof-of-concept) 구현과 작동 방식을 설명했습니다.
이러한 접근 방식은 AI의 자율성을 존중하면서도 잠재적 위험을 효과적으로 관리할 수 있는 실용적인 방안을 제시합니다. 기존의 AI 통제 방식이 AI 내부의 복잡한 의사결정 과정을 이해하고 제어하려는 데 초점을 맞췄다면, '기관 증명' 모델은 AI가 외부 세계에 미치는 영향, 즉 '행동' 자체에 대한 외부적 검증과 승인 절차를 도입함으로써 투명성과 책임성을 확보합니다. 이는 AI 시스템의 신뢰성을 높이고, 궁극적으로 더 넓은 분야에서 AI의 안전한 도입을 촉진하는 데 기여할 수 있을 것으로 기대됩니다.
