구조 생물학 분야에서 단백질 구조를 예측하고 설계하는 파운데이션 모델(Foundation model)은 놀라운 성능을 보이고 있습니다. 하지만 이 모델들이 어떤 내부 특징을 기반으로 결과를 도출하는지 이해하기는 매우 어려웠는데, 마치 '블랙박스'처럼 작동했기 때문입니다. 최근 발표된 연구 논문 'PairSAE'는 이러한 난제를 해결하기 위한 새로운 접근 방식을 제시하며, 모델의 내부 작동 원리를 해석 가능하게 만들었습니다.
기존의 희소 오토인코더(SAE)는 트랜스포머(Transformer) 기반의 시퀀스 임베딩(Sequence embedding)에는 효과적이었지만, 페어포머(Pairformer)와 같은 쌍 표현(Pair representation) 아키텍처에는 적용하기 어려웠습니다. 단순히 쌍 표현에 적용하면 특징의 수가 기하급수적으로 늘어나고, 시퀀스와 쌍 표현에 걸쳐 분포된 개념들을 파악하기 어려워지는 문제가 있었습니다. PairSAE는 이러한 문제를 해결하기 위해 N-모드 특이값 분해(N-mode SVD)를 통해 쌍 텐서(Pair tensor)를 토큰별 상호작용 역할로 요약한 다음, 희소 오토인코더를 사용하여 시퀀스와 쌍 표현 모두를 디코딩할 수 있는 공유된 토큰 수준 특징(Token-level features)을 학습합니다. 이 방법은 볼츠-2(Boltz-2) 활성화 함수를 이용한 PLINDER 단백질-리간드 복합체 평가에서 유니프롯(UniProt) 주석과 일치하는 해석 가능한 특징을 도출했으며, 볼츠-2 친화도 값까지 예측하는 성과를 보였습니다.
PairSAE의 개발은 구조 생물학 파운데이션 모델의 잠재 공간(Latent space)과 해석 가능한 구조적 개념 사이의 연결고리를 제공한다는 점에서 매우 중요합니다. 이는 모델이 단백질의 어떤 부분을 '알고' 있는지 명확히 밝혀주며, 기존 SAE의 한계를 극복합니다. 궁극적으로 단백질-리간드 상호작용이나 단백질 공동 폴딩(Co-folding) 메커니즘에 대한 깊은 이해를 가능하게 하여, 신약 개발 과정에서 특정 단백질에 결합하는 새로운 분자를 설계하거나, 질병 관련 단백질의 기능을 조절하는 데 필요한 통찰력을 제공할 수 있을 것입니다.
