대규모 언어모델(LLM)을 미세조정(fine-tuning)할 때, 특히 자원이 제한된 엣지(edge) 하드웨어에서는 VRAM(비디오 램) 부족으로 인한 훈련 중단이 빈번하게 발생합니다. 이는 긴 시퀀스나 예상치 못한 배치 크기(batch-size) 증가 등으로 인해 메모리 압력이 급증하면서 OOM(Out-Of-Memory) 오류를 일으키고, 수 시간의 컴퓨팅 자원을 낭비하게 만듭니다. 기존의 정적인 설정 방식으로는 이러한 동적인 메모리 변동성에 효과적으로 대응하기 어려웠습니다.
이러한 문제를 해결하기 위해 UATC(Universal Adaptive Training Controller)라는 새로운 폐쇄 루프(closed-loop) 제어 시스템이 개발되었습니다. UATC는 칼만 필터(Kalman filter)로 노이즈에 강한 상태를 추정하고, PID 제어기(PID controller)로 피드백을 조절하며, 스미스 예측기(Smith predictor)로 지연을 보상하는 등 산업 제어 시스템의 원리를 LLM 훈련에 적용합니다. 또한, 동적 데이터 가지치기(dynamic data pruning)와 다단계 복구 시스템을 통해 OOM 및 NaN/Inf(비정상 값) 발생 시에도 치명적인 충돌 없이 훈련을 지속할 수 있도록 설계되었습니다. NVIDIA T4 GPU(15GB VRAM)에서 Qwen2.5-1.5B-Instruct 모델을 QLoRA 방식으로 미세조정하는 실험에서, UATC는 18번의 OOM 이벤트와 2번의 강제 메모리 쇼크에도 불구하고 모든 훈련 단계를 완수하며 86.22%의 중복 샘플을 가지치기했습니다. 이는 정적인 방식의 DeepSpeed 기반 대조군이 첫 번째 충격에서 치명적으로 중단된 것과 대조적입니다.
UATC는 PyTorch 훈련 단계에 얇은 오케스트레이션(orchestration) 계층으로 통합되어 GPU 메모리 압력, 손실(loss) 동작, 시퀀스 길이 통계를 관찰하고, 매 단계마다 목표 배치 크기, 학습률(learning rate), AMP(자동 혼합 정밀도) 토글, 그라디언트 체크포인팅(gradient checkpointing) 토글, 가지치기 비율 등의 액션을 반환합니다. 이 컨트롤러는 단일 GPU 환경에서 완전히 온디바이스(on-device)로 작동하며, 모델 크기, 데이터셋, 훈련 패러다임에 구애받지 않습니다. UATC의 핵심 기여는 동적인 폐쇄 루프 제어가 정적인 파이프라인보다 훨씬 안정적이며, 특히 엣지 환경에서 LLM 미세조정의 안정성을 획기적으로 개선할 수 있다는 점입니다. 이는 컴퓨팅 자원이 제한적인 환경에서도 LLM을 효율적으로 훈련하고 배포할 수 있는 중요한 발판을 마련합니다.