Fable 비용 60% 절감: 코드를 이미지로 변환하고 모델이 OCR하게 하기

대규모 언어모델(LLM)을 활용하는 개발자들에게 비용은 늘 큰 부담입니다. 이러한 고민을 해결하기 위해 'pxpipe'라는 로컬 프록시가 등장했습니다. 이 도구는 앤스로픽(Anthropic)의 클로드 코드(Claude Code)와 같은 LLM에 대량의 컨텍스트(코드, 문서 등)를 전달할 때, 이를 PNG 이미지로 변환하여 입력 토큰 비용을 최대 70%까지 절감할 수 있다고 발표했습니다.

pxpipe의 핵심 원리는 LLM의 이미지 토큰 비용이 이미지 내 텍스트 양이 아닌 픽셀 크기에 따라 결정된다는 점을 이용합니다. 즉, 동일한 픽셀 크기라면 더 많은 텍스트를 담아도 비용은 같다는 의미입니다. 실제 클로드 코드 트래픽에서 밀집된 텍스트는 이미지 토큰당 약 3.1자를 담을 수 있어, 텍스트 토큰당 약 1자에 비해 훨씬 효율적입니다. pxpipe는 주로 시스템 프롬프트, 도구 문서, 오래된 채팅 기록, 큰 도구 출력 등 부피가 큰 입력 블록을 이미지로 압축하며, 최근 대화나 사용자 메시지, 모델 출력 등은 텍스트 그대로 유지하여 정확성을 확보합니다. 예를 들어, 약 48k자의 시스템 프롬프트와 도구 문서를 텍스트로 보내면 25k 토큰이 필요하지만, 이미지로 변환하면 2.7k 이미지 토큰으로 처리 가능합니다.

이러한 방식은 클로드 페이블 5(Claude Fable 5) 모델에서 높은 정확도를 보이며 비용을 크게 절감합니다. 데모 결과, 한 세션에서 일반 텍스트 사용 시 $42.21였던 비용이 pxpipe 사용 시 $6.06으로 줄어들어 약 85%의 절감 효과를 보여주기도 했습니다. 하지만 앤스로픽 오푸스(Opus) 모델의 경우 이미지 컨텍스트 판독 성능이 떨어져 정확도가 낮아질 수 있으므로, ID, 해시, 시크릿 등 바이트 단위의 정확성이 요구되는 정보는 텍스트로 유지해야 합니다. pxpipe는 MIT 라이선스로 배포되며, 개발자들은 라이브러리 형태로 직접 사용하거나 로컬 프록시를 통해 쉽게 적용할 수 있습니다.

pxpipe의 등장은 LLM 활용 비용 절감이라는 중요한 과제에 새로운 해결책을 제시합니다. 특히 코드 생성이나 문서 요약 등 대량의 텍스트 컨텍스트를 다루는 애플리케이션 개발자들에게 큰 도움이 될 것으로 예상됩니다. 다만, 이미지 변환 과정에서 발생할 수 있는 미세한 정보 손실 가능성을 인지하고, 중요한 정보는 텍스트로 직접 전달하는 등 사용 시 주의가 필요합니다. 이러한 기술은 LLM 서비스 제공사들이 향후 토큰 과금 정책을 재검토하게 만들 수도 있으며, 개발자들은 비용 효율적인 LLM 활용 방안을 지속적으로 모색해야 할 것입니다.