의료 기록에서 특정 검사 결과가 비어있는 것, 즉 데이터 누락(missingness)이 단순한 오류가 아니라 환자의 상태나 의료진의 판단을 반영하는 중요한 정보일 수 있다는 흥미로운 연구 결과가 발표되었습니다. 아르카이브(arXiv)에 게재된 이 논문은 확산(diffusion) 모델 기반의 새로운 AI 접근 방식을 통해 이러한 '정보성 누락(informative missingness)'을 직접 모델링하여, 실제 임상 환경과 유사한 불규칙적인 시계열 데이터를 생성하는 방법을 제시합니다.
이 연구는 기존의 데이터 전처리 과정에서 누락된 데이터를 단순히 채우거나 무시하는 방식과 달리, 누락 패턴 자체를 임상적 의미를 가진 중요한 요소로 간주합니다. 연구팀은 MIMIC-III 데이터셋에서 파생된 DACMI(Data Analytics Challenge on Missing Data Imputation) 벤치마크를 활용해, 실험실 검사 수치와 그 관찰 패턴을 동시에 모델링하는 TimeDiff 프레임워크를 확장했습니다. 4시간 간격으로 차트 시간을 정렬하고 7일 단위로 입원 기록을 분할하여, 각 검사 값과 해당 관찰 지표를 짝지어 실제와 같은 데이터 궤적을 생성했습니다. 이를 통해 생성된 합성 데이터는 실제 환자 궤적과 개별 검사 분포, 그리고 값-누락 임베딩(value-missingness embeddings) 측면에서 매우 유사한 결과를 보였습니다.
이러한 접근 방식은 의료 데이터의 고질적인 문제인 불규칙성과 누락 문제를 해결하는 데 중요한 진전을 의미합니다. 특히, 데이터가 무작위로 누락되지 않는 MNAR(Missing-Not-At-Random) 상황에서 환자의 생리적 상태와 의료진의 검사 결정 행동 사이의 임상적으로 의미 있는 종속성을 AI 모델이 포착할 수 있음을 입증했습니다. 이는 향후 임상 파운데이션 모델(clinical foundation models) 개발의 초기 구성 요소가 될 수 있으며, 정보성 누락을 활용하는 사전 데이터 적합 네트워크(Prior-Data Fitted Networks) 훈련을 위한 합성 데이터를 제공함으로써 의료 AI 연구의 새로운 방향을 제시할 것으로 기대됩니다.