최근 '텍스트스냅(textsnap)'이라는 새로운 오픈소스 도구가 공개되어, GPU나 클라우드 서비스 없이도 CPU만으로 이미지, 스크린샷, PDF, 웹페이지에서 텍스트를 빠르게 추출할 수 있게 되었습니다. 이 도구는 단 하나의 파이썬(Python) 모듈로 구성되어 있으며, 첫 실행 시 약 890MB의 모델 파일을 다운로드한 후에는 완전히 오프라인에서 작동하여 사용자들의 개인 정보 보호와 편의성을 크게 높였습니다.
텍스트스냅은 0.9B 파들OCR-VL-1.5(PaddleOCR-VL-1.5) 비전-언어 모델을 q4 ONNX로 양자화(quantized)하여 일반 노트북에서도 전체 페이지를 빠르게 처리할 수 있습니다. CUDA나 M-시리즈 칩에만 국한되지 않고, 물리 코어 수에 맞춰 일반 CPU 코어에서도 효율적으로 작동합니다. 로컬 파일, 이미지 URL, 웹페이지 URL 등 다양한 소스에서 텍스트를 추출하며, 웹페이지의 경우 주요 콘텐츠를 분리한 후 가장 눈에 띄는 이미지를 OCR 처리합니다. 추출된 텍스트는 마크다운(Markdown) 형식으로 구조를 보존하거나, `--plaintext` 옵션을 통해 일반 텍스트로 변환할 수 있습니다.
이 도구의 가장 큰 장점은 '오프라인' 작동과 '개인 정보 보호'입니다. 모든 처리가 사용자 기기 내에서 이루어지므로, 민감한 정보가 외부 서버로 전송될 염려가 없습니다. 또한, 모델 가중치(weights)는 허깅페이스 허브(Hugging Face Hub)에서 다운로드 시 SHA-256 검증을 거쳐 보안을 강화했습니다. 텍스트스냅은 개발자뿐만 아니라 일반 사용자들에게도 스크린샷이나 문서에서 필요한 정보를 빠르게 추출하고 관리하는 데 유용한 도구가 될 것으로 보입니다. 특히, 클라우드 기반 OCR 서비스의 비용이나 보안 문제에 민감한 사용자들에게 매력적인 대안이 될 수 있습니다.