CODEBLOCK: Learning to Supervise Code at the Right Granularity

최근 연구 '코드블록(CodeBlock)'이 코드 대규모 언어모델(LLM) 미세조정(fine-tuning) 시 모든 토큰을 학습하는 대신, 구문적으로 완전하고 의미론적으로 중요한 코드 블록만 선별해 학습하는 새로운 방법을 제안했습니다. 이 방식은 전체 토큰의 1.9%만 사용하고도 기존 방식보다 더 나은 코드 생성 성능을 보이며, 학습 효율성을 크게 높일 수 있음을 입증했습니다. 코드 LLM의 학습 비용 절감과 성능 향상에 기여할 것으로 기대됩니다.

6시간 전·2026.06.18·읽기 1분·Zhijie Deng, Ling Li, Jinlong Pang, Kaiqin Hu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

코드 대규모 언어모델(LLM)을 미세조정(fine-tuning)할 때, 일반적으로 모든 응답 토큰에 균일한 교차 엔트로피 손실(cross-entropy loss)을 적용해 왔습니다. 이는 모든 토큰이 학습에 똑같이 유용한 신호를 제공한다고 암묵적으로 가정하는 방식입니다. 하지만 최근 자연어 분야에서는 가치 있는 토큰만 선별해 학습하는 방법이 제안되며 이러한 가정에 의문을 제기하고 있습니다. 이러한 아이디어를 코드에 직접 적용하면 구문적, 의미적 일관성을 해칠 수 있다는 문제점이 있었습니다.

이러한 한계를 극복하기 위해 '코드블록(CodeBlock)'이라는 새로운 구조 인식 희소 감독(structure-aware sparse supervision) 프레임워크가 제안되었습니다. 코드블록은 고품질의 지시-응답 쌍을 선택한 다음, 코드 응답을 구문적으로 일관된 코딩 항목으로 분할합니다. 이후 핵심 로직 토큰에 대한 일반화된 교차 엔트로피를 집계하여 각 항목의 유용성을 평가하고, 프로그램 의존성을 전파하거나 연결하는 블록의 우선순위를 정하기 위해 데이터 흐름 도달(data-flow reach) 및 브릿지 신호(bridge signals)를 활용해 순위를 재조정합니다. 학습 과정에서는 전체 응답이 컨텍스트로 제공되지만, 손실은 선택된 코드 항목과 유익한 자연어 토큰에만 적용됩니다. 이 연구는 Zhijie Deng 외 6명의 저자가 참여했으며, 2026년 6월 10일 arXiv에 게재되었습니다.

6가지 코드 생성 벤치마크 실험 결과, 코드블록은 전체 토큰을 사용하는 미세조정 방식과 경쟁적인 선별 기준선보다 더 강력한 평균 pass@1 성능을 달성했습니다. 특히, 이 방법은 전체 응답 토큰의 단 1.9%만을 감독에 사용했음에도 불구하고 이러한 성과를 보여주었습니다. 이는 코드 LLM 학습의 효율성을 극대화하고, 불필요한 계산 비용을 줄이면서도 모델의 코드 이해 및 생성 능력을 향상시킬 수 있음을 시사합니다. 향후 코드 LLM 개발 및 배포에 있어 중요한 진전을 가져올 것으로 기대됩니다.