"프론티어 AI가 의료 전문 툴 이겼다"는 논문 재검증해보니 — 채점자간 일치도 0.10, 채점자가 곧 참가자

최근 국제 학술지 네이처 메디신(Nature Medicine)에 게재된 한 논문이 GPT-5.2, Gemini 3.1 Pro 같은 범용 프론티어 AI 모델이 OpenEvidence, UpToDate AI 등 의료 전문 AI 툴보다 의학 지식 및 임상 정렬도 평가에서 우수하다는 충격적인 결과를 발표했습니다. 이 논문은 발표 직후 의료계와 AI 업계에 큰 파장을 일으키며, 병원과 보험사의 의료 AI 조달 결정에 즉각적인 영향을 미칠 수 있다는 우려를 낳았습니다.

그러나 이 논문의 방법론을 재검증한 결과, 순위를 뒷받침하기 어려운 여러 통계적 결함과 방법론적 문제가 드러났습니다. 주요 문제점으로는 첫째, 실제 임상 질의(RCQ) 평가에서 채점자 간 일치도(Krippendorff's alpha)가 0.10~0.20에 불과해 신뢰할 수 없는 수준이었다는 점입니다. 통상 순위 평가에는 0.67 이상이 요구됩니다. 둘째, HealthBench 평가는 LLM이 다른 LLM의 답을 채점하는 방식이었는데, 평가 대상인 프론티어 모델들이 판정단에 포함되어 자기 자신 또는 비슷한 계열 모델을 후하게 채점하는 '자기 선호 편향(self-preference bias)'이 발생할 가능성이 있었습니다. 셋째, MedQA와 HealthBench 데이터셋이 이미 인터넷에 공개되어 있어 프론티어 모델들이 학습 과정에서 문제와 답을 접했을 '데이터 오염(data contamination)' 가능성도 제기되었습니다. 또한, 통계 처리 방식의 오류와 평가 조건의 불균형(프론티어 모델은 결정론적 API, 임상 툴은 브라우저 인터페이스 사용)도 문제점으로 지적됐습니다.

이러한 재검증 결과는 단순히 한 논문의 오류를 넘어, 의료 AI 평가 및 도입의 중대한 시사점을 던집니다. OpenEvidence 같은 의료 전문 툴은 이미 수만 명의 의사가 실제 진료에 활용하고 있으며, 벤치마크 논문 하나가 병원의 조달 계약이나 진료 지침에 직접적인 근거로 사용될 수 있기 때문입니다. 검증되지 않은 정보가 빠르게 확산되어 잘못된 결정을 초래할 위험이 크다는 것입니다. 의료 AI 벤치마크 연구가 쏟아지는 속도에 비해 이를 독립적으로 재검증할 인프라와 인력은 턱없이 부족한 현실에서, 주장의 속도가 검증의 속도를 앞서는 구조적 문제가 반복될 수 있다는 경고입니다. 따라서 의료 AI가 실제 병원에 도입되기 전에, 논문 한 편의 결론에 의존하기보다는 독립적이고 견고한 감사 및 검증 체계를 먼저 갖추는 것이 무엇보다 중요합니다.