AI 평가의 투명성 높인다: LLM 심사 오류 탐지 도구 CMG

AI 시스템 평가 시 대규모 언어모델(LLM)을 심사관으로 활용하는 연구가 늘고 있지만, LLM의 판단 과정이 불투명하다는 문제가 제기됩니다. 박사 과정 학생이 개발한 'CMG(Claim Memory Graph)'는 LLM 심사관의 판단 근거를 명확히 하고, 근거 없는 판결이나 기준 미준수 사례를 자동으로 포착해 사람이 직접 검토해야 할 부분을 알려주는 오픈소스 도구입니다.

6시간 전·2026.06.14·읽기 2분·ML0037

최근 인공지능(AI) 시스템의 성능을 평가할 때 대규모 언어모델(LLM)을 심사관(judge)으로 활용하는 사례가 늘고 있습니다. 하지만 LLM 심사관은 판단의 근거를 명확히 제시하지 않거나, 주어진 평가 기준을 제대로 따르지 않는 등 신뢰성 문제가 꾸준히 제기되어 왔습니다. 이러한 문제를 해결하기 위해 한 박사 과정 학생이 'CMG(Claim Memory Graph)'라는 오픈소스 도구를 개발했습니다. CMG는 LLM 심사관의 평가 과정을 '주장(claims) → 증거(evidence) → 판결(verdicts)' 구조로 분해하고, 증거에 의해 뒷받침되지 않는 판결을 자동으로 식별하여 사람이 직접 검토하도록 돕습니다.

CMG는 LLM 심사관에게 평가 과제, 답변, 참고 자료, 평가 기준표(rubric), 세부 평가 항목(criteria)을 제공하면, 이 모든 정보를 '증거'로 저장합니다. 이후 LLM 심사관은 각 판결(verdict)을 내릴 때 반드시 구체적인 '주장'을 제시해야 하며, 이 주장은 반드시 저장된 '증거' 중 하나를 참조해야 합니다. 만약 LLM 심사관이 증거 없이 주장을 하거나, 주장이 증거와 연결되지 않는 경우, CMG는 이를 '플래그(flag)'하여 인간 검토가 필요한 사례로 분류합니다. 예를 들어, 참고 자료를 무시한 판결(reference_ignored), 평가 기준표의 특정 항목을 확인하지 않은 경우(rubric_coverage_gap), 또는 일관성 없이 판결이 뒤바뀐 경우(verdict_flip_without_invalidation) 등을 탐지합니다. CMG는 LLM 심사관이 '옳은지'를 판단하는 대신, '판결의 근거를 제대로 제시했는지', '주어진 기준을 충실히 따랐는지'를 검증하는 데 초점을 맞춥니다.

이 도구는 수천 건의 평가를 진행하여 모든 설명을 수동으로 검토하기 어려운 대규모 AI 평가 환경에서 특히 유용합니다. CMG는 사람이 반드시 확인해야 할 '이상 사례'를 선별하여 평가 효율성을 크게 높일 수 있습니다. 또한, LLM 심사관의 의사결정 과정을 투명하게 기록하여 평가 결과의 감사(audit) 및 디버깅을 용이하게 합니다. 이는 LLM 심사관이 겪는 위치 편향, 장황함 편향, 자기 강화 편향, 제한된 추론 능력 등 다양한 편향 문제를 직접 해결하지는 못하지만, 이러한 편향으로 인해 발생하는 '신뢰할 수 없는 판결'을 쉽게 찾아내어 LLM 기반 AI 평가의 신뢰도를 한층 높이는 데 기여할 것으로 기대됩니다.