가우시안 프로세스(Gaussian Process, GP)는 기계 학습(Machine Learning) 분야에서 불확실성을 모델링하고 예측하는 데 널리 사용되는 강력한 도구입니다. 하지만 최근 연구에 따르면, 이러한 가우시안 프로세스가 제한된 데이터 영역(bounded domain)에서 사용될 때 경계면 근처에서 후방 분산(posterior variance)이 비정상적으로 커지는 현상, 즉 '경계 분산 팽창(Boundary Variance Inflation)'이 발생하며, 이는 데이터 획득(acquisition) 과정에서 편향을 유발하는 것으로 밝혀졌습니다.
이 연구는 이러한 현상의 근본 원인을 커널 상관관계(kernel correlation)의 기하학적 왜곡에서 찾았습니다. 데이터 영역의 경계에서 커널의 상관관계 이웃(correlation neighborhood)이 잘려나가면서 관측치와 무관하게 예측에 왜곡이 발생하며, 이는 데이터 차원(dimensionality)이 높아질수록 더욱 심해집니다. 연구팀은 분산 최대화(variance maximization), 음의 통합 후방 분산(negative integrated posterior variance), 예상 예측 정보 이득(expected predictive information gain) 등 세 가지 주요 획득 함수(acquisition function) 클래스에서 이러한 왜곡이 어떻게 나타나는지 분석했습니다. 예를 들어, 분산 최대화는 선택을 경계면의 모서리에 집중시키는 반면, 다른 두 방법은 축에 정렬된 내부 영역으로 선택을 이동시키는 경향을 보였습니다.
이러한 패턴은 최적화하려는 목적 함수(objective function)와는 무관하게 커널의 기하학적 특성만으로 발생한다는 점에서 중요합니다. 이는 베이즈 최적화와 같은 응용 분야에서 모델이 실제 불확실성보다는 기하학적 왜곡에 의해 경계면을 과도하게 탐색(over-exploration)하게 만들 수 있음을 의미합니다. 연구팀은 이러한 함수와 무관한 선택 프로파일 진단(function-free selection-profile diagnostic) 방법을 제안하여, 임의의 획득 함수, 커널, 제한된 영역 기하학에 대해 경계면 편향을 정량화할 수 있는 길을 열었습니다. 이는 가우시안 프로세스를 활용하는 다양한 분야에서 보다 정확하고 효율적인 모델링 및 탐색 전략을 수립하는 데 기여할 것으로 기대됩니다.