보안 분야에서 레이블링된(labeled) 데이터는 항상 부족하며, 이는 인공지능(AI) 모델 학습에 큰 걸림돌이 됩니다. 이러한 문제를 해결하기 위해 적은 수의 레이블된 데이터와 많은 수의 레이블 없는 데이터를 함께 사용하는 준지도 학습(Semi-Supervised Learning, SSL)이 널리 활용되어 왔습니다. 그러나 기존 보안 애플리케이션에서는 SSL을 '블랙박스'처럼 사용하여 기본 설정값이나 고정된 분류기를 쓰는 경우가 많았고, 이로 인해 성능 최적화에 한계가 있었습니다.
최근 'SemiScope'라는 연구는 이러한 SSL 파이프라인의 복잡한 최적화가 실제로 어떤 효과를 내는지 분석했습니다. 연구팀은 베이지안 최적화(Bayesian Optimization)를 활용해 SSL 설정, 신뢰도 필터링, 오버샘플링, 그리고 분류기 자체를 동시에 튜닝하는 실험을 진행했습니다. 흥미로운 점은, SSL 설정을 기본값으로 고정하고 분류기 튜닝에만 동일한 예산을 할당한 경우(Tuned-Clf), 전체 파이프라인을 최적화한 경우(SemiScope)와 통계적으로 거의 동등한 성능을 보였다는 것입니다. 이는 복잡한 SSL 파이프라인 최적화로 얻는 성능 향상의 대부분이 사실상 분류기 자체를 잘 튜닝한 결과임을 시사합니다.
이 연구 결과는 보안 AI 모델 개발에 중요한 시사점을 제공합니다. 복잡하고 시간 소모적인 전체 SSL 파이프라인 최적화 대신, 자기 학습(Self-Training)과 같은 간단한 SSL 기법을 사용하고, 분류기를 베이지안 최적화로 정교하게 튜닝하며, 결정 임계값(decision threshold)을 검증 데이터로 조정하는 것이 훨씬 효율적이라는 것입니다. 이러한 간소화된 접근 방식은 적은 레이블 데이터로도 지도 학습(Supervised Learning) 모델에 근접하는 성능을 달성할 수 있게 하여, 보안 분야의 AI 도입 장벽을 낮추고 개발 효율성을 크게 높일 수 있을 것으로 기대됩니다.