The token bill comes due: Inside the industry scramble to manage AI’s runaway costs

인공지능(AI) 도입이 전 산업에 걸쳐 확산되면서, AI 모델 사용에 드는 토큰(token) 비용이 기업들의 새로운 골칫거리로 떠오르고 있습니다. 초기에는 ‘최대한 빠르게 AI를 도입하라’는 기조였지만, 이제는 ‘비용 통제를 위한 안전장치가 필요하다’는 목소리가 커지고 있습니다. 우버(Uber)는 2026년 AI 코딩 예산을 올해 4월에 모두 소진했으며, 마이크로소프트(Microsoft)는 개발자들에게 제공했던 클로드 코드(Claude Code) 라이선스를 몇 달 만에 회수하는 등 비용 문제로 인한 비상이 현실화되고 있습니다.

개별 토큰당 가격은 하락하고 있지만, AI 도입 확대와 자율 에이전트(agent)의 증가로 전체 토큰 소비량은 기하급수적으로 늘고 있습니다. 한 기업은 사용량 제한을 설정하지 않아 클로드(Claude) 사용료로 5억 달러(약 6,800억 원)를 청구받을 뻔한 사례도 있습니다. 오픈AI(OpenAI)의 기업 부문 책임자 알렉산더 엠브리코스(Alexander Embricos)는 “6개월 전에는 모델의 성능에 대한 질문이 주를 이뤘지만, 이제는 ‘너무 많은 비용을 쓰고 있다. 가시성, 감사 가능성, 토큰 제어 기능, 모델 효율성은 어떤가?’라는 질문이 대부분”이라고 밝혔습니다. 이러한 배경에서 리눅스 재단(Linux Foundation)은 클라우드 비용 관리를 위한 핀옵스(FinOps)처럼 AI 토큰 비용 관리를 위한 ‘토크노믹스 재단(Tokenomics Foundation)’ 설립 계획을 발표했습니다.

AI 비용 폭주는 특히 에이전트 기능의 발전과 맞물려 있습니다. 앤트로픽(Anthropic)의 클로드 오푸스 4.5(Claude Opus 4.5), 오픈AI의 GPT-5.1, 구글(Google)의 제미니 3 프로(Gemini 3 Pro) 같은 신규 모델들은 에이전트 도구의 성능을 크게 향상시켰고, 이는 개발자 1인당 토큰 소비량을 9개월 만에 약 18.6배 증가시킨 것으로 나타났습니다. 하지만 젤리피쉬(Jellyfish)의 조사에 따르면, AI를 많이 사용하는 엔지니어의 생산성은 2배 높았지만, 토큰 소비량은 10배에 달해 비용 대비 생산성 향상 효과가 불분명하다는 지적도 나옵니다. 클라우드 비용 추적이 수억 개의 데이터 행 문제라면, 토큰 비용 추적은 수조 개의 데이터 행 문제로, 기존 도구로는 감당하기 어렵다는 것이 전문가들의 의견입니다.

이러한 문제 해결을 위해 AI 비용 관리 시장이 빠르게 형성되고 있습니다. 페이아이(Pay-i)와 같은 순수 플레이 기업들은 생성형 AI 투자 비용과 성능을 추적, 측정, 최적화하는 서비스를 제공합니다. 페이드(Paid)는 개발자들이 비용을 추적하고 사용량을 측정하며, 구독료 대신 실제 가치에 기반해 사용자에게 요금을 청구할 수 있도록 돕습니다. 젤리피쉬(Jellyfish), 웨이데브(Waydev), 파로스 AI(Faros AI)와 같은 기업들은 개발자 도구의 ROI를 입증하기 위한 AI 에이전트 모니터링 기능을 제공하고 있습니다. 기존 기업들도 이 시장에 뛰어들고 있는데, 램프(Ramp)는 AI 지출 관리 기능을 추가했고, 데이터독(Datadog)과 뉴렐릭(New Relic)은 클라우드 비용 관리, 토큰 수준 관측 가능성, GPU 모니터링 등의 서비스를 도입했습니다. AWS 또한 엔터프라이즈 AI 지출 관리를 위한 새로운 재무 관리 기능을 선보일 예정입니다. 이는 AI 시대의 새로운 '핀옵스'가 필요하다는 강력한 신호로 해석됩니다.