기업들이 AI를 도입하던 초기에 '토큰맥싱(tokenmaxxing)'이라는 독특한 현상이 나타났습니다. 이는 직원들의 AI 도구 토큰(token) 사용량을 성과 평가와 연동하여 AI 활용을 독려하는 방식이었습니다. 메타(Meta)와 같은 일부 기업에서는 직원들이 토큰 수치를 높이기 위해 두 AI 에이전트를 하루 종일 대화시키는 등 형식적인 사용까지 발생하며 무의미한 비용을 초래한다는 비판을 받기도 했습니다. 하지만 이러한 압박은 조직 내 AI 도구 사용을 강제로 확산시키는 역설적인 효과를 가져왔습니다.
과거에는 AI 에이전트를 장시간 실행할 경우 작은 오류들이 쌓여 전체 프로젝트를 망치는 '누적 오류(compounding error)' 현상이 지배적이었습니다. 이 때문에 AI의 장시간 자율적인 작업은 비효율적이라는 인식이 강했습니다. 그러나 최근에는 더 많은 토큰을 사용할수록 결과의 정확도가 높아지는 '누적 정확성(compounding correctness)'이라는 새로운 흐름이 부상하고 있습니다. 특히 사이버 보안 분야에서는 앤트로픽(Anthropic)의 미토스(Mythos) 같은 모델에 1회 시도당 1억 토큰(약 12,500달러)에 달하는 막대한 예산을 투입해 취약점을 찾는 방식이 등장했으며, 이는 토큰 지출이 곧 성과로 직결될 수 있음을 보여줍니다. 이러한 변화는 AI 에이전트가 사람의 지속적인 감독 없이도 복잡하고 지루한 작업을 처리할 수 있다는 기대를 높이고 있습니다.
이제 토큰맥싱은 단순히 비싼 최상위 모델에 무제한 지출하는 방식이 아닌, 저렴한 오픈 모델(open model)을 활용하여 루프(loop) 안에서 더 많이 반복 실행하는 실용적인 방향으로 진화하고 있습니다. 예를 들어, 클로드(Claude)가 반복당 1.1배 개선을 제공하고 GLM 5.2가 1.05배 개선을 주지만 비용이 5분의 1이라면, GLM 5.2 루프를 5배 더 돌리는 것이 더 효율적일 수 있습니다. 이는 개발자 생산성 향상을 위한 '개발자용 토큰 지출'과 특정 작업을 자동화하는 '파이프라인용 토큰 지출'이라는 두 가지 형태로 나뉘어 기업의 AI 활용 전략에 중요한 변화를 가져올 것입니다. 궁극적으로는 사람의 감독 없이 코드를 생성, 리뷰, 테스트하는 '소프트웨어 팩토리(software factory)' 또는 '다크 팩토리(dark factory)'로의 전환을 가속화할 잠재력을 가지고 있습니다.