LLM 성능 저하, 데이터 문제 아닐 수도

대규모 언어모델(LLM)의 성능을 개선하는 과정은 종종 미스터리처럼 느껴집니다. 모델의 능력을 직접 관찰할 수 없기 때문에, 학습 데이터가 미래 성능을 형성하고, 평가는 과거 성능을 간접적으로 보여줄 뿐입니다. 특히 모델이 특정 벤치마크에서 실패했을 때, 엔지니어는 어떤 학습 데이터를 수정해야 할지 직관에 의존하는 경우가 많았습니다. 평가 지표와 학습 데이터 간의 불일치하는 용어 체계 때문에 문제의 근원을 정확히 파악하기 어려웠기 때문입니다.

최근 발표된 연구 논문은 이러한 간극을 메우기 위해 '능력 슬라이스(capability slice)'라는 개념을 도입했습니다. 능력 슬라이스는 배경 조건, 작업 유형, 해결 작업, 출력 제약 등 공통된 특성을 공유하는 평가 샘플 그룹을 의미합니다. 이는 너무 광범위한 벤치마크 이름이나 너무 노이즈가 많은 단일 샘플과 달리, 모델의 특정 약점을 정확히 찾아내면서도 집계될 만큼 안정적인 단위입니다. 이 단위를 중심으로 평가 분류 체계와 비명령형 데이터 분류 체계, 그리고 매핑 규칙을 구축하여, 벤치마크 수준의 실패를 표적화된 데이터 개입으로 전환하는 폐쇄 루프(closed loop) 시스템을 제안합니다.

연구팀은 이 폐쇄 루프 시스템을 두 가지 상반된 사례 연구에 적용했습니다. 첫 번째 사례에서는 지속적인 사전 학습(pre-training)이 BBH(Big-Bench Hard) 성능을 크게 떨어뜨렸지만, 진단 결과 추론 능력 약화가 아닌 단일 마스크된 <EOS> (End-Of-Sentence) 토큰 손실 때문임을 밝혀냈습니다. 데이터 변경 없이 이 문제를 해결하자 BBH 성능이 원래 체크포인트보다 높아졌습니다. 두 번째 사례에서는 지속적인 수학 추론 약점을 해결 작업별로 분해하여 특정 실패 조합을 찾아냈고, 이에 맞춰 약점 표적 샘플링 절차를 구축하여 AIME2025/AIME2026 Pass@128 점수를 6.67/0.00에서 각각 26.67로 크게 향상시켰습니다. 이처럼 동일한 루프가 상반된 상황에서 모두 정확한 진단을 내림으로써, 평가에서 데이터로의 추론이 직관이 아닌 체계적이고 검증 가능한 과정이 될 수 있음을 입증했습니다.

이 연구는 LLM 개발 및 최적화 방식에 중요한 변화를 가져올 수 있습니다. 기존에는 모델 성능 저하 시 무작정 데이터를 추가하거나 변경하는 비효율적인 방식이 많았지만, 능력 슬라이스를 활용하면 문제의 원인을 정확히 진단하고 필요한 부분에만 집중적인 개선 작업을 할 수 있게 됩니다. 이는 모델 학습 비용을 절감하고, 개발 시간을 단축하며, 궁극적으로 더 강력하고 신뢰할 수 있는 LLM을 구축하는 데 기여할 것입니다. 특히 특정 도메인이나 태스크에 특화된 소규모 LLM을 개발하는 경우, 제한된 자원으로 최대의 효율을 내는 데 필수적인 방법론이 될 것입니다.