대규모 언어모델(LLM)은 다음 토큰 예측에 최적화되어 있어, 특정 API를 정확하게 호출하고 복잡한 기업 워크플로우를 처리하는 데 한계가 있었습니다. 필수 필드를 누락하거나, 존재하지 않는 도구를 호출하거나, 단일 작업 후 일찍 중단되는 '조용한 실패'가 빈번하게 발생했죠. 이는 LLM의 훈련 목표와 실제 API 사용 목표 간의 근본적인 불일치에서 비롯됩니다.
이러한 문제를 해결하기 위해 아틀라시안(Atlassian)의 지라(Jira) REST v3 및 컨플루언스(Confluence) v2 API를 모방한 5가지 합성 환경에서 검증 가능한 보상 기반 강화 학습(RLVR: Reinforcement Learning with Verifiable Rewards) 개념 증명 연구가 진행되었습니다. 연구팀은 라이브 API나 사람의 개입 없이, 오직 도구 호출 추적(tool-call trace)을 통해 보상을 계산했습니다. 그 결과, Qwen3-1.7B 및 Qwen3.5-4B 모델에 RLVR을 적용했을 때, 4가지 시나리오에서 평균 보상 점수가 기존 0.35~0.92 범위에서 0.95~1.00으로 크게 상승했습니다. 특히 컨플루언스 페이지 생성 시나리오에서는 0.35에서 1.00으로 가장 큰 개선을 보였습니다.
이 연구는 틈새 기업 API를 위한 '결과 최적화된 소형 모델' 개발의 중요한 첫걸음으로 평가됩니다. LLM이 단순한 텍스트 생성을 넘어, 실제 기업 환경에서 복잡한 작업을 정확하게 수행하는 에이전트로 발전할 수 있는 가능성을 제시하기 때문입니다. 다만, 검증 가능한 보상을 수동으로 설계하는 것이 현재로서는 확장성이 떨어진다는 점과, 일부 시나리오에서는 이미 기본 모델이 최고 성능을 내고 있어 개선의 여지가 적다는 점은 향후 연구에서 고려해야 할 과제로 남아있습니다. 그럼에도 불구하고, 이번 연구는 LLM 기반 에이전트가 실제 비즈니스 환경에서 더욱 신뢰성 있고 유용하게 활용될 수 있음을 보여주는 중요한 진전입니다.