단일 세포 RNA 시퀀싱(scRNA-seq)은 개별 세포의 유전자 발현을 분석하여 다양한 세포 유형을 식별하는 데 핵심적인 기술입니다. 하지만 이 데이터는 높은 차원, 희소성, 드롭아웃(dropout), 그리고 기술적 노이즈(technical noise)와 같은 문제로 인해 견고한 유전자 발현 표현과 세포 그래프 구축이 어렵다는 한계가 있었습니다. 이러한 문제들은 정확한 세포 군집화(clustering)를 방해하여 생물학적 발견을 지연시키는 주요 원인이었습니다.
최근 준 탕(Jun Tang) 연구팀은 이러한 난제를 해결하기 위해 KAN(Kolmogorov-Arnold Network) 기반의 동적 그래프 마스킹 학습 프레임워크인 'scKDGM'을 개발했습니다. scKDGM은 기존 마스크드 오토인코더(masked autoencoder)가 주로 발현 복구에만 집중하고, 그래프 군집화 방법이 고정된 KNN(K-Nearest Neighbor) 그래프에 의존하며 복구된 발현 정보를 그래프 최적화에 다시 활용하지 못하는 단점을 극복합니다. scKDGM은 그래프 인식 분포 보존 유전자 마스킹(GDP-Mask)을 통해 세포 정체성을 교란하고, KAN 기반 TAKGCN 인코더로 마스킹된 뷰(masked-view) 표현을 학습합니다. 또한, 마스크 기반 발현 복구(mask-guided expression recovery)를 통해 동적 그래프를 구축하고, 교차 뷰 대조 학습(cross-view contrastive learning)을 활용하여 복구 신호를 토폴로지 업데이트로 전달합니다. 여기에 ZINB(Zero-inflated Negative Binomial) 손실 함수를 적용하여 과분산(overdispersion)과 영과잉(zero inflation)을 모델링합니다.
이러한 혁신적인 접근 방식은 12개의 실제 scRNA-seq 데이터셋에 대한 실험을 통해 그 우수성을 입증했습니다. scKDGM은 평균 NMI(Normalized Mutual Information)와 ARI(Adjusted Rand Index) 지표에서 기존 10가지 기준 모델보다 뛰어난 성능을 보였습니다. 이는 scKDGM이 세포 유형 식별의 정확도를 크게 향상시키고, 복잡한 단일 세포 데이터를 더 효과적으로 분석할 수 있음을 의미합니다. 궁극적으로 이 기술은 생물학 연구자들이 질병 메커니즘을 이해하고 새로운 치료법을 개발하는 데 중요한 통찰력을 제공할 것으로 기대됩니다.
