취약한 앱을 만들고 LLM이 해킹할 수 있는지 알아보는 데 1,500달러를 썼다

한 개발자가 약 1,500달러(한화 약 200만 원)를 들여 대규모 언어모델(LLM)이 실제 앱의 취약점을 찾아 해킹할 수 있는지 알아보는 비과학적인 실험을 진행했습니다. 이 실험은 React Native 기반의 가짜 북 리뷰 앱과 Python 백엔드로 구성된 환경에서 진행되었으며, 목표는 특정 사용자의 비공개 리뷰에 숨겨진 플래그를 찾아내는 것이었습니다. 앱 자체의 API는 안전하게 설계되었지만, 데이터 계층으로 사용된 Firebase에 흔히 발생하는 '접근 제어(Broken Access Control)' 또는 '객체 수준 권한 누락(Missing Object-Level Authorization)' 취약점을 의도적으로 심어두었습니다.

실험 결과, GPT-3.5(gpt-5.5로 표기된 것으로 보임)가 10회 시도 중 7회 성공하며 가장 높은 해결률을 기록했습니다. DeepSeek-v4-pro는 3회, Claude Sonnet 4.6과 Claude Opus 4.8은 각각 2회 성공했습니다. 특히 GPT-3.5는 앱의 APK 파일을 분석한 뒤 Firebase 설정 파일(google-services.json)에서 직접 Firebase 정보를 찾아 가입하고 Firestore 데이터베이스를 읽는 방식으로 취약점을 공략했습니다. 반면, DeepSeek-v4-pro는 Firebase를 전혀 건드리지 않거나 잘못된 인증 방식을 시도했고, Claude 모델들은 여러 번 정답에 근접했지만, 보안 가드레일(guardrail)에 의해 세션이 조기 종료되는 경우가 많았습니다. 각 LLM 실행에는 최대 10달러와 2시간의 제한이 있었으며, 총 1,500달러의 비용 중 상당 부분이 하네스 구축, 공급자별 차이, 토큰 비용, 그리고 Modal 선점과 같은 운영 변수로 인한 실행 손실에 사용되었습니다.

이번 실험은 LLM이 단순히 코드를 생성하는 것을 넘어, 실제 시스템의 취약점을 분석하고 악용하는 능력까지 갖추고 있음을 보여줍니다. 특히 GPT-3.5가 Firebase의 흔한 보안 취약점을 정확히 파악하고 공략했다는 점은 주목할 만합니다. 이는 개발자들이 앱을 설계할 때 LLM의 공격 가능성을 염두에 두고 더욱 철저한 보안 검증이 필요하다는 것을 시사합니다. 동시에 Claude와 같은 일부 모델이 보안 가드레일 때문에 해킹 시도를 거부했다는 점은 LLM 개발사들이 윤리적 사용과 오용 방지를 위해 노력하고 있음을 보여줍니다. 하지만 이러한 제약이 때로는 정당한 보안 연구나 개발 작업까지 방해할 수 있다는 우려도 제기되고 있습니다. 앞으로 LLM의 발전과 함께 이들의 윤리적 사용, 그리고 보안 취약점 분석 능력에 대한 논의는 더욱 중요해질 것입니다.