최근 인공지능(AI)이 미국 의사면허시험(USMLE)에서 90% 이상의 높은 점수를 기록했다는 소식이 연이어 보도되며 AI의 의료 분야 적용에 대한 기대감이 커지고 있습니다. 하지만 이러한 시험 점수가 AI의 실제 임상 환경에서의 진단 능력을 과장할 수 있다는 비판적인 시각이 제기되었습니다. 시험 점수만으로는 AI가 환자의 복잡한 증상을 정확히 이해하고 적절한 치료법을 제시할 수 있는지 판단하기 어렵다는 것입니다.
문제는 AI가 시험 문제를 푸는 방식과 실제 의사가 환자를 진단하는 과정에 큰 차이가 있다는 점입니다. 의사 시험은 주로 객관식이나 단답형 문제로 구성되어 있으며, AI는 방대한 텍스트 데이터를 학습하여 패턴을 인식하고 정답을 도출하는 데 탁월한 성능을 보입니다. 그러나 실제 환자 진료는 단순한 지식 암기를 넘어 환자의 미묘한 증상, 병력, 정서적 상태 등을 종합적으로 고려해야 하는 복잡한 과정입니다. AI는 이러한 비정형적이고 맥락적인 정보를 해석하고 추론하는 데 한계가 있을 수 있습니다. 예를 들어, 특정 질병의 전형적인 증상에 대한 질문에는 잘 답할 수 있지만, 여러 질병이 복합적으로 나타나거나 비전형적인 증상을 보이는 환자에게는 오진할 가능성이 있다는 지적입니다.
이러한 분석은 AI의 의료 분야 도입에 있어 단순히 시험 점수만을 맹신해서는 안 된다는 중요한 메시지를 던집니다. AI는 특정 질병 진단 보조, 의료 영상 분석 등 제한된 영역에서 강력한 도구가 될 수 있지만, 인간 의사를 완전히 대체하기에는 아직 역부족이라는 점을 명확히 합니다. 따라서 AI를 의료 현장에 적용할 때는 그 한계를 명확히 인지하고, 인간 의사의 전문성과 판단을 보완하는 역할에 집중해야 합니다. AI의 높은 시험 점수 뒤에 숨겨진 실제 임상 적용의 복잡성을 이해하고, 더욱 신중하고 단계적인 접근을 통해 AI 의료 기술의 안전하고 효과적인 발전을 모색해야 할 것입니다.