스크린샷을 코딩 에이전트용 JSON으로, 슬림스냅

터미널 기반 코딩 에이전트가 UI를 이해하도록 돕는 '슬림스냅(SlimSnap)'이 출시되었습니다. 스크린샷의 특정 요소를 선택하면, 해당 정보가 텍스트, 위치, 의도 등을 담은 JSON 형태로 변환되어 에이전트에 전달됩니다. 이는 이미지 처리의 높은 토큰 비용을 절감하고, 에이전트가 UI 요소를 더 정확하게 인식하도록 돕는 새로운 방식입니다.

2일 전·2026.06.30·읽기 2분·bickov

터미널 환경에서 작동하는 코딩 에이전트들이 사용자 인터페이스(UI)를 더 효율적으로 이해할 수 있도록 돕는 새로운 도구 '슬림스냅(SlimSnap)'이 등장했습니다. 이 도구는 스크린샷을 찍고 특정 UI 요소를 선택하면, 해당 요소의 텍스트, 위치, 그리고 개발자의 의도까지 담긴 경량의 JSON 데이터로 변환해줍니다. 이는 기존에 이미지를 직접 에이전트에 전달할 때 발생하던 높은 토큰 비용과 해석의 불확실성을 크게 줄여줍니다.

슬림스냅은 macOS 전용 앱으로, ⌘⇧S 단축키로 스크린샷을 찍고 원하는 영역을 드래그하여 선택할 수 있습니다. 선택된 영역 내의 모든 라벨, 버튼, 오류 메시지 등은 내장된 광학 문자 인식(OCR) 기능을 통해 텍스트로 추출되며, 각 요소의 바운딩 박스(bounding box) 좌표와 함께 JSON 스키마에 맞춰 구조화됩니다. 예를 들어, '회원가입' 버튼을 가리키는 화살표를 추가하면, 에이전트는 단순히 이미지를 보는 것을 넘어 'signup' 버튼을 'highlight'하라는 구체적인 의도를 JSON을 통해 파악할 수 있습니다. 이 JSON 데이터는 클로드 코드(Claude Code), 에이더(Aider) 등 텍스트 기반의 모든 코딩 에이전트에 쉽게 붙여넣을 수 있습니다.

이러한 방식은 여러 면에서 중요한 의미를 가집니다. 첫째, 토큰 비용을 획기적으로 절감합니다. 클로드 코드(Claude Code)의 소넷(Sonnet) 모델 기준으로 일반 스크린샷은 약 1,568 토큰을 소비하는 반면, 슬림스냅의 JSON은 700 토큰 내외로 약 55%의 비용 절감 효과를 가져옵니다. 오푸스(Opus) 모델에서는 최대 85%까지 절감됩니다. 이는 반복적인 개발 세션에서 에이전트 활용 비용을 크게 낮출 수 있음을 의미합니다. 둘째, 에이전트의 UI 요소 인식 정확도를 높입니다. 픽셀 기반의 이미지 해석 대신, 구조화된 JSON 데이터를 통해 에이전트는 '세 번째 카드에 있는 두 번째 입력 필드'와 같이 특정 요소를 명확하게 식별하고 추론할 수 있게 됩니다. 마지막으로, 모든 처리 과정이 로컬 Mac에서 이루어져 사용자 개인 정보와 스크린샷 보안이 강화된다는 점도 큰 장점입니다. 슬림스냅의 JSON 스키마는 MIT 라이선스로 공개되어 있어, 개발자들이 자신만의 도구를 만들거나 다른 플랫폼으로 확장할 수 있는 가능성도 열려 있습니다.