AI 산업은 그동안 '더 큰 모델이 더 강력하고, 가장 강력한 모델이 승리한다'는 기본 가정 위에 성장해왔습니다. 그러나 최근 치솟는 비용으로 인해 사용자들은 더 작고 저렴한 모델에 눈을 돌리기 시작했습니다. 이러한 비용 효율적인 모델 선택은 AI 경제학에 지각 변동을 가져올 수 있으며, 대형 AI 연구소들의 수익 구조에도 상당한 영향을 미칠 것으로 예상됩니다.
코인베이스(Coinbase) 공동 창업자 브라이언 암스트롱(Brian Armstrong)은 X(구 트위터)를 통해 12~18개월 안에 AI 작업의 80%가 99% 더 저렴한 모델에서 실행될 것이며, 나머지 20%만이 최신 고성능 모델을 사용할 것이라고 예측했습니다. 이는 품질 저하 없이 동일한 작업을 더 저렴한 모델로 처리할 수 있다면, AI 업계의 경쟁 구도가 크게 바뀔 수 있음을 시사합니다. 실제로 법률 AI 도구 하비(Harvey)는 인퍼런스(inference) 플랫폼 파이어웍스 AI(Fireworks AI)와 협력하여 클로드 오푸스(Claude Opus)와 파이어웍스 GLM 5.1을 결합한 테스트를 진행했습니다. 그 결과, 가장 집약적인 작업에만 오푸스를 사용하고 나머지는 GLM 5.1을 활용하여 품질 저하 없이 추론 비용을 3배 절감하는 데 성공했습니다. 하비의 공동 창업자 게이브 페레이라(Gabe Pereyra)는 이제 '가장 강력한 모델을 무조건 사용하는 것'이 아니라 '가장 효율적으로 올바른 답을 얻는 모델을 사용하는 것'으로 품질의 정의가 진화하고 있다고 설명했습니다.
이러한 변화는 단순히 독점 모델과 오픈소스 모델 간의 경쟁을 넘어, 대규모 모델과 소규모 모델 간의 근본적인 대결 구도를 형성하고 있습니다. GPT-5.5 대신 딥시크(DeepSeek)의 V4 플래시(Flash)를 사용하거나, GPT-5.4-미니(mini)로 전환하는 것 모두 비용 절감 효과를 가져올 수 있습니다. 지금까지 AI 산업은 투자자들의 막대한 보조금 덕분에 고객들이 가장 진보된 모델만을 선택할 이유가 충분했습니다. 그러나 토큰(token) 가격이 상승하고 보조금이 줄어들면서, 사용자들은 처음으로 비용 압박에 직면하게 되었습니다. 만약 대부분의 AI 배포(deployment)가 더 작은 모델로도 충분히 잘 작동한다는 것이 입증된다면, 이는 추론(inference) 수요 증가에 제동을 걸고 최첨단 모델 훈련 비용의 정당성에 대한 새로운 질문을 던질 것입니다. 이는 오픈AI(OpenAI)나 앤트로픽(Anthropic)과 같은 대형 연구소들이 기업공개(IPO)를 앞둔 시점에서 재정적인 타격으로 이어질 수 있는 중대한 변화입니다.