인공지능(AI) 모델을 단순히 '사후 처리(post-hoc)' 방식으로 분석하는 것을 넘어, 모델이 학습되는 과정 자체를 과학적으로 연구해야 한다는 주장이 제기되었습니다. 스텔라 비더만(Stella Biderman) 외 연구진은 아카이브(arXiv)에 게재된 논문에서, AI 모델은 고정된 객체가 아니라 데이터, 목표, 아키텍처, 최적화 역학에 의해 형성되는 '시간 진화적 과정의 스냅샷'이라고 강조합니다. 현재 많은 AI 연구가 학습이 완료된 모델의 행동을 분석하는 데 그치지만, 왜 그러한 행동이 나타나는지 근본적인 원인을 파악하려면 학습 역동성(training dynamics)을 들여다봐야 한다는 것입니다.
이 논문은 AI 과학이 단순히 사후 수정(post-hoc fixes)을 넘어, 모델 행동을 만들어내는 학습 역동성을 연구해야 한다고 역설합니다. 이러한 과학적 접근은 초기 학습 신호로부터 결과를 예측하고, 학습 과정이 잘못될 경우 개입하며, 궁극적으로 원하는 특성을 더욱 안정적으로 생성하는 학습 절차를 설계하는 데 기여할 수 있습니다. 이미 손실(loss) 예측에는 스케일링 법칙(scaling laws)이 적용되어 예측이 일상화되었지만, 이를 능력, 편향, 견고성, 안전 관련 행동 등으로 확장하는 것이 과제라고 연구진은 지적합니다.
이러한 접근 방식은 AI의 근본적인 이해를 높이고, 예측 불가능한 AI 행동이나 의도치 않은 편향 문제를 해결하는 데 중요한 전환점이 될 수 있습니다. 학습 역동성에 대한 깊이 있는 이해는 개발자들이 모델의 잠재적 문제를 미리 파악하고, 더욱 안전하고 신뢰할 수 있는 AI 시스템을 구축하는 데 필수적인 통찰력을 제공할 것입니다. 이는 AI 연구의 방향을 재정립하고, 궁극적으로 AI 기술의 성숙도를 한 단계 끌어올리는 데 기여할 것으로 기대됩니다.