예산과 자원이 제한된 환경에서 대규모 언어모델(LLM) 같은 복잡한 인공지능 모델을 사전 학습(pre-training)하는 것은 늘 어려운 과제입니다. 특히, 최적의 학습 설정을 찾기 위해 수많은 후보 조합을 실험해야 할 때, 공유된 가속기 자원을 효율적으로 사용하는 것이 중요합니다. 최근 발표된 연구는 이러한 '예산 제약형 마이크로 사전 학습(Budget-Constrained Micro-Pretraining)' 환경에서 '단계적 요인 스크리닝(Staged Factorial Screening)' 워크플로우가 안정적인 초기 효과 구조를 파악하는 데 효과적임을 보여줍니다.
연구팀은 단일 GPU 학습 루프에서 2분, 5분, 10분 등 짧은 예산으로 613개의 실험을 진행했습니다. 파일럿 스크린과 후속 스크린을 통해 배치 크기(total batch), 모델 깊이(depth), 너비(width)와 같은 주요 요인들이 짧은 예산에서 가장 큰 영향을 미치며, 예산이 증가할수록 그 영향이 완화된다는 것을 확인했습니다. 특히, 사전 정의된 전체 스크린(full-screen) 가족 내에서 특정 요인들(D, A, B, C)은 5분 및 10분 실험 후에도 유의미한 비영(non-zero) 추정치를 유지했습니다. 반면, 무작위 탐색(random search)은 강력한 결과에 도달할 수 있었지만, 항상 동일한 저-페널티 영역에 머물렀고 각 요인의 기여도를 명확히 파악하기 어려웠습니다.
이 연구는 짧은 설계 스크린을 활용하여 높은 페널티를 유발하는 방향을 식별하고, 유망한 앵커(anchor) 설정을 반복 실행으로 확인한 다음, 축소된 탐색 공간 내에서 국소적으로 정제하는 방법을 제안합니다. 60분 '브릿지 패키지(bridge package)'를 사용한 앵커가 가장 낮은 평균을 보였으며, 12시간 및 24시간 연속 실험에서도 '브릿지' 방식이 가장 낮은 샘플 평균을 유지했습니다. 이는 하드웨어에 독립적인 순위나 일반적인 하이퍼파라미터 최적화(hyperparameter optimization)의 우수성을 주장하기보다는, 특정 환경에서 '브릿지' 중심의 접근 방식이 24시간까지 효과적이라는 것을 시사합니다. 즉, 예산이 제한된 초기 단계에서는 주요 요인을 빠르게 식별하고, 특정 유망 설정을 집중적으로 개선하는 전략이 중요하다는 결론입니다.