최근 인공지능(AI) 시스템의 성능을 평가할 때 대규모 언어모델(LLM)을 심사관(judge)으로 활용하는 사례가 늘고 있습니다. 하지만 LLM 심사관은 판단의 근거를 명확히 제시하지 않거나, 주어진 평가 기준을 제대로 따르지 않는 등 신뢰성 문제가 꾸준히 제기되어 왔습니다. 이러한 문제를 해결하기 위해 한 박사 과정 학생이 'CMG(Claim Memory Graph)'라는 오픈소스 도구를 개발했습니다. CMG는 LLM 심사관의 평가 과정을 '주장(claims) → 증거(evidence) → 판결(verdicts)' 구조로 분해하고, 증거에 의해 뒷받침되지 않는 판결을 자동으로 식별하여 사람이 직접 검토하도록 돕습니다.
CMG는 LLM 심사관에게 평가 과제, 답변, 참고 자료, 평가 기준표(rubric), 세부 평가 항목(criteria)을 제공하면, 이 모든 정보를 '증거'로 저장합니다. 이후 LLM 심사관은 각 판결(verdict)을 내릴 때 반드시 구체적인 '주장'을 제시해야 하며, 이 주장은 반드시 저장된 '증거' 중 하나를 참조해야 합니다. 만약 LLM 심사관이 증거 없이 주장을 하거나, 주장이 증거와 연결되지 않는 경우, CMG는 이를 '플래그(flag)'하여 인간 검토가 필요한 사례로 분류합니다. 예를 들어, 참고 자료를 무시한 판결(reference_ignored), 평가 기준표의 특정 항목을 확인하지 않은 경우(rubric_coverage_gap), 또는 일관성 없이 판결이 뒤바뀐 경우(verdict_flip_without_invalidation) 등을 탐지합니다. CMG는 LLM 심사관이 '옳은지'를 판단하는 대신, '판결의 근거를 제대로 제시했는지', '주어진 기준을 충실히 따랐는지'를 검증하는 데 초점을 맞춥니다.
이 도구는 수천 건의 평가를 진행하여 모든 설명을 수동으로 검토하기 어려운 대규모 AI 평가 환경에서 특히 유용합니다. CMG는 사람이 반드시 확인해야 할 '이상 사례'를 선별하여 평가 효율성을 크게 높일 수 있습니다. 또한, LLM 심사관의 의사결정 과정을 투명하게 기록하여 평가 결과의 감사(audit) 및 디버깅을 용이하게 합니다. 이는 LLM 심사관이 겪는 위치 편향, 장황함 편향, 자기 강화 편향, 제한된 추론 능력 등 다양한 편향 문제를 직접 해결하지는 못하지만, 이러한 편향으로 인해 발생하는 '신뢰할 수 없는 판결'을 쉽게 찾아내어 LLM 기반 AI 평가의 신뢰도를 한층 높이는 데 기여할 것으로 기대됩니다.