최근 공개된 연구 논문에 따르면, 새로운 인공지능 에이전트 'ATHENA-R1'이 방대한 생물의학 도구와 약물 데이터를 활용해 치료 추론(treatment reasoning) 분야에서 GPT-5를 능가하는 성능을 보였습니다. 이 AI는 1939년 이후 미국 식품의약국(FDA)이 승인한 모든 약물 정보와 212개의 생물의학 도구를 학습하여, 질병 맥락, 동반 질환, 약물, 금기 사항 등 복합적인 요소를 통합해 최적의 치료법을 제안합니다.
ATHENA-R1은 사람의 주석(annotation) 없이 두 단계의 자율 학습 프레임워크를 통해 훈련되었습니다. 먼저 다중 에이전트 시스템이 도구, 작업, 추론 궤적을 구성하여 지도 미세조정(supervised fine-tuning)에 활용하고, 이후 과학적 피드백을 통한 강화 학습(reinforcement learning)으로 추론의 질을 높였습니다. 3,168개의 약물 추론 작업과 456개의 환자 치료 사례를 포함하는 5가지 벤치마크에서 ATHENA-R1은 개방형 약물 추론에서 94.7%, 치료 추론에서 82.9%의 정확도를 달성하며 GPT-5보다 각각 17.8%포인트, 10.7%포인트 높은 성능을 기록했습니다. 특히 28개 희귀 질환 전문가들의 블라인드 평가에서 모든 기준에서 기존 모델보다 선호되었으며, 심혈관 및 감염 질환의 복잡한 입원 환자 사례에서도 의사들로부터 긍정적인 평가를 받았습니다.
이러한 성과는 AI가 단순히 정보를 검색하는 것을 넘어, 증거를 수집하고 논리적으로 추론하여 복잡한 의료 결정을 지원할 수 있음을 보여줍니다. 치료 추론은 필요한 증거를 먼저 찾고 결론을 내리는 반복적인 과정이기에 AI에게 오랫동안 어려운 영역으로 여겨져 왔습니다. 하지만 이번 연구는 이를 반복적인 증거 수집의 학습 가능한 과정으로 재구성하여 강화 학습을 통해 AI가 수행할 수 있음을 입증했습니다. 이는 의료 분야에서 AI의 활용 범위를 넓히고, 궁극적으로는 의사들이 더 정확하고 효율적인 치료 결정을 내리는 데 큰 도움을 줄 잠재력을 가지고 있습니다.
