한 개인이 어깨 통증으로 받은 MRI(자기공명영상) 결과를 앤트로픽(Anthropic)의 대규모 언어모델(LLM) 클로드 코드(Claude Code)에 입력하여 의사의 진단에 대한 '제2의 의견'을 얻으려는 흥미로운 시도를 했습니다. 이 사용자는 의사의 진단과 치료 계획에 의구심을 품고, AI가 의료 영상 분석에 어떤 역할을 할 수 있을지 탐색하고자 했습니다.
사용자는 먼저 정형외과 의사로부터 어깨 힘줄의 부분 파열(Grade III partial-thickness tear) 진단을 받았고, 충격파 치료와 동종요법 주사 등 광범위한 치료를 권유받았습니다. 그러나 GPT 5.5 Pro에 문의한 결과, 충격파 치료가 적절하지 않을 수 있다는 점과 주사제가 치료 효과가 없는 동종요법이라는 사실을 알게 되어 의사의 진단에 대한 신뢰가 낮아졌습니다. 이에 사용자는 클로드 코드 오푸스 4.8(Claude Code Opus 4.8)에 수백 개의 DICOM 파일로 구성된 MRI 데이터를 입력하고, '오른쪽 어깨 통증 2~3주'라는 정보만 제공했습니다. 약 한 시간 후, 클로드 코드는 '힘줄이 온전하다(intact tendon)'는 보고서를 내놓았는데, 이는 의사의 '부분 파열' 진단과 완전히 상반되는 결과였습니다.
두 보고서의 차이가 너무 커서, 사용자는 다시 클로드 코드에 의사 보고서와 GPT 5.5 Pro와의 대화 내용을 추가로 제공하며 두 진단을 비교 분석하도록 요청했습니다. 클로드 코드는 여러 서브 에이전트(subagent)를 활용해 편향되지 않은 분석을 시도했고, 최종적으로 '의사 A(인간 의사)의 증거가 중간에서 높은 신뢰도로 유리하다. 경미한 힘줄염(tendinosis)은 있지만, 부분 또는 완전 파열은 확인되지 않는다'는 결론을 내렸습니다. 이는 의사의 초기 진단인 'Grade III 파열'과는 다른, 보다 완화된 진단이었습니다. 이 실험은 AI가 복잡한 의료 데이터를 해석하고, 전문가의 의견에 대해 비판적인 '제3의 의견'을 제시할 수 있는 잠재력을 보여줍니다. 그러나 동시에 AI의 진단이 항상 정확한 것은 아니며, 최종적인 의료 판단은 여전히 전문가의 몫이라는 점을 명확히 합니다. AI가 의료 분야에서 신뢰할 수 있는 도구가 되기 위해서는 모델의 정확도 향상과 함께, 인간 전문가와의 협업 및 검증 과정이 필수적임을 시사합니다.