최근 발표된 연구에 따르면, 고차원 데이터에서 근접 이웃 탐색(ANN: Approximate Nearest Neighbor)을 수행할 때 그리드 기반 알고리즘이 기존의 그래프, 트리, 분할 기반 방식보다 우수한 확장성을 보이는 것으로 나타났습니다. 이 연구는 멀티프로브(multiprobe) 그리드 알고리즘의 데이터셋 크기(N)와 차원(d)에 대한 체계적인 특성을 분석하며, 특히 고차원 환경에서의 잠재력을 강조합니다.
연구팀은 GloVe 임베딩 데이터를 활용한 실험에서, 멀티프로브 그리드 검색이 차원(d)이 증가해도 거의 일정한 스케일링 지수를 유지하는 'd-스케일링 교차점'을 발견했습니다. 이는 다른 ANN 방법들이 차원이 높아질수록 처리량(throughput)이 저하되는 것과 대조적입니다. 또한, 그리드 방식은 데이터셋 크기(N)에 대해 거의 선형적인 쿼리 스케일링을 보였고, 경쟁 ANN 방법들보다 인덱싱(indexing) 비용이 낮다는 장점도 확인되었습니다. 이는 데이터 재구축이 잦거나 고차원 환경에서 인덱싱 비용과 차원 견고성이 중요한 요소일 때 그리드 기반 방법이 매우 경쟁력이 있음을 시사합니다.
이러한 그리드 기반 ANN 알고리즘의 발전은 고차원 데이터 처리의 효율성을 크게 향상시킬 수 있습니다. 특히 최근 연구에서 셀프 어텐션(self-attention) 메커니즘이 ANN 연산으로 공식화되면서, 트랜스포머(Transformer) 아키텍처와 같은 효율적인 AI 모델의 비용 분석에도 ANN 알고리즘의 N- 및 d-스케일링 특성이 중요한 지침이 될 수 있습니다. 이는 AI 모델 학습 및 추론 과정에서 발생하는 막대한 계산 비용을 줄이는 데 기여하며, 고차원 임베딩을 다루는 다양한 AI 애플리케이션의 성능 개선으로 이어질 수 있을 것으로 기대됩니다.