의약품 부작용(ADE)이 약물 자체의 인과적 결과인지, 아니면 단순한 우연의 일치인지를 구별하는 것은 약물감시(pharmacovigilance) 분야에서 오랜 난제입니다. 이러한 문제를 해결하기 위해 트랜스포머 모델과 인과 추론(causal inference) 기법인 Do-calculus를 결합한 InferBERT 프레임워크가 제안되었지만, 이 프레임워크의 성능은 기반이 되는 분류 모델(classification model)의 선택에 크게 좌우됩니다.
최근 발표된 연구는 InferBERT 프레임워크 내에서 어떤 분류 모델을 사용하는 것이 가장 효과적인지 비교 분석했습니다. 연구팀은 두 가지 주요 벤치마크 데이터셋(진통제 유발 급성 간부전, 트라마돌 관련 사망률)을 활용하여 네 가지 모델—XGBoost(기준 모델), ALBERT(기존 InferBERT), BioBERT(생의학 분야 특화 트랜스포머), Med-LLaMA(의료 분야 특화 대규모 언어모델)—의 성능을 평가했습니다. 놀랍게도, BioBERT가 두 데이터셋 모두에서 가장 높은 정확도를 기록했습니다. 반면, 크기가 훨씬 큰 Med-LLaMA는 매개변수 효율적 미세조정(parameter-efficient fine-tuning)을 거쳤음에도 불구하고 기대 이하의 성능을 보였습니다. 이는 도메인 특화 사전 훈련(domain-specific pre-training)이 모델의 크기보다 인과관계 탐지에 훨씬 더 결정적인 영향을 미친다는 것을 시사합니다.
이번 연구 결과는 약물감시와 같은 전문 분야에서 인과 추론 모델을 개발할 때 중요한 시사점을 제공합니다. 단순히 모델의 크기를 키우거나 일반적인 대규모 언어모델(LLM)을 사용하는 것보다, 해당 도메인의 특성을 반영하여 사전 훈련된 소규모 모델에 투자하는 것이 더 효과적이라는 점이 명확해졌습니다. BioBERT의 우수성은 전통적인 약물감시 신호(예: PRR, ROR, EBGM)와의 일치도에서도 가장 높은 상관관계를 보였으며, 이는 실제 약물감시 시스템에 적용될 가능성을 높입니다. 따라서 컴퓨테이셔널 약물감시 분야에서는 무조건적인 모델 스케일링보다는 도메인 지식을 효과적으로 통합하는 전략이 더욱 중요하다고 할 수 있습니다.