새로운 연구에서 이종 전문가 혼합(Mixture-of-Experts, MoE) 모델의 아키텍처를 자동으로 탐색하는 대규모 파이프라인이 공개되었습니다. 이 파이프라인은 기존의 수동적인 모델 설계 방식에서 벗어나, LEMUR 신경망 데이터셋 생태계 내에서 4개의 전문가(4-Expert)로 구성된 MoE(MoE4) 아키텍처를 체계적으로 조합하고 평가합니다. 이는 AI 모델 개발 과정에서 시행착오를 줄이고 효율성을 극대화하는 중요한 진전입니다.
이 자동화 파이프라인은 LEMUR 데이터베이스에서 가져온 기본 아키텍처들을 조합하여 MoE4 앙상블을 생성합니다. 각 앙상블은 컨볼루션 게이팅 네트워크(convolutional gating network), 온도 스케일링(temperature scaling), 믹스업 증강(mixup augmentation), 코사인 어닐링 학습률 스케줄링(cosine-annealed learning rate scheduling) 등의 기술로 제어됩니다. NVIDIA RTX 4090 GPU에서 28일간 진행된 캠페인 동안 4,463개의 후보 모델이 생성되었고, 이 중 1,021개가 성공적으로 평가되었습니다. 초기 탐색 과정에서 알파벳 순서에 따른 편향으로 인해 전체 탐색 공간의 4.8%만이 AirNet이라는 특정 모델군에 집중되는 문제가 발견되었으나, 연구팀은 이 원인을 파악하고 계층적 무작위 샘플링(stratified random sampling)을 통해 편향을 해결할 방안을 제시했습니다. AirNet 범위 내에서는 ShuffleNet과 MobileNetV3가 가장 높은 정확도(평균 0.632)를 보이는 앙상블을 지속적으로 생성했으며, FractalNet과 MNASNet은 낮은 성능을 보여 향후 탐색에서 제외될 모델로 식별되었습니다.
이 연구는 AI 모델 설계의 자동화 가능성을 보여주며, 특히 복잡한 MoE 아키텍처의 최적 조합을 찾는 데 드는 시간과 노력을 크게 줄일 수 있음을 시사합니다. 이러한 자동화된 탐색 파이프라인은 연구자들이 더 넓은 아키텍처 공간을 효율적으로 탐색하고, 특정 작업에 최적화된 모델을 빠르게 개발하는 데 기여할 것입니다. 또한, 공개된 파이프라인과 분석 결과, 수정된 생성기는 오픈소스 NNGPT 프로젝트의 일부로 제공되어 AI 커뮤니티의 추가적인 연구와 발전에 중요한 기반을 제공할 것으로 기대됩니다.
