인공지능(AI) 기반 의료 진단, 특히 병리학 분야에서 멀티모달 대규모 언어모델(MLLM)과 에이전트 워크플로우의 발전이 큰 기대를 모으고 있습니다. 하지만 기존 시스템들은 미세한 조직 단위(patch-level) 추론에서 신뢰성 문제가 있었습니다. MLLM은 형태학적 특징을 잘못 인식하는 '환각(hallucination)' 현상을 보이거나, 에이전트 시스템은 여러 도구의 출력과 검색된 지식을 한데 섞어 증거 충돌이나 맥락 오염에 취약했습니다.
이러한 문제를 해결하기 위해 'PathoSage'라는 3단계 프레임워크가 제안되었습니다. PathoSage는 지식 검색, 증거 수집, 증거 판정 단계를 명확히 분리하여 미세 조직 단위의 병리 멀티모달 추론을 수행합니다. 핵심 구성 요소인 '구조화된 증거 심의(Structured Evidence Deliberation)'는 다양한 도구에서 얻은 이종(heterogeneous) 증거들을 독립적으로 평가하고, 충돌을 분석한 뒤, 새로운 맥락에서 최종 판단을 생성하여 초기 편향(anchoring bias)을 줄입니다. 또한, 학습 과정 없이 장기적인 도구 신뢰도를 모델링하고 유사도 가중치를 적용한 사전 지식(prior)을 구축하는 '베타-베르누이 경험 시스템(Beta-Bernoulli experience system)'을 도입하여 향후 도구 사용의 정확도를 높입니다.
실험 결과, PathoSage는 기존 병리 MLLM 및 에이전트 시스템 대비 시각 질의 응답(VQA) 환각과 분류기 불일치 문제를 효과적으로 완화하며 뛰어난 성능을 보였습니다. 이는 명확한 증거 판정 과정과 도구 신뢰도를 인지하는 모델링이 견고한 병리 에이전트를 구축하는 데 핵심적인 요소임을 시사합니다. 이 연구는 AI가 의료 진단 분야에서 더욱 신뢰성 있고 정확한 도구로 발전할 수 있는 중요한 기반을 마련했습니다.