yozm.tech
피드로 돌아가기
news.hada.ioHOTAI 재작성

취약한 앱을 만들고 LLM이 해킹할 수 있는지 알아보는 데 1,500달러를 썼다

한 개발자가 1,500달러를 들여 고의로 취약하게 만든 앱을 대규모 언어모델(LLM)이 해킹할 수 있는지 실험했습니다. 그 결과, GPT-3.5가 가장 높은 성공률을 보였으며, 일부 모델은 보안 가드레일 때문에 작업을 거부하기도 했습니다. 이번 실험은 LLM의 실제 해킹 능력과 윤리적 제약에 대한 흥미로운 통찰을 제공합니다.

1주 전·2026.06.05·읽기 1·neo https://news.hada.io/user/neo

한 개발자가 약 1,500달러(한화 약 200만 원)를 들여 대규모 언어모델(LLM)이 실제 앱의 취약점을 찾아 해킹할 수 있는지 알아보는 비과학적인 실험을 진행했습니다. 이 실험은 React Native 기반의 가짜 북 리뷰 앱과 Python 백엔드로 구성된 환경에서 진행되었으며, 목표는 특정 사용자의 비공개 리뷰에 숨겨진 플래그를 찾아내는 것이었습니다. 앱 자체의 API는 안전하게 설계되었지만, 데이터 계층으로 사용된 Firebase에 흔히 발생하는 '접근 제어(Broken Access Control)' 또는 '객체 수준 권한 누락(Missing Object-Level Authorization)' 취약점을 의도적으로 심어두었습니다.

실험 결과, GPT-3.5(gpt-5.5로 표기된 것으로 보임)가 10회 시도 중 7회 성공하며 가장 높은 해결률을 기록했습니다. DeepSeek-v4-pro는 3회, Claude Sonnet 4.6과 Claude Opus 4.8은 각각 2회 성공했습니다. 특히 GPT-3.5는 앱의 APK 파일을 분석한 뒤 Firebase 설정 파일(google-services.json)에서 직접 Firebase 정보를 찾아 가입하고 Firestore 데이터베이스를 읽는 방식으로 취약점을 공략했습니다. 반면, DeepSeek-v4-pro는 Firebase를 전혀 건드리지 않거나 잘못된 인증 방식을 시도했고, Claude 모델들은 여러 번 정답에 근접했지만, 보안 가드레일(guardrail)에 의해 세션이 조기 종료되는 경우가 많았습니다. 각 LLM 실행에는 최대 10달러와 2시간의 제한이 있었으며, 총 1,500달러의 비용 중 상당 부분이 하네스 구축, 공급자별 차이, 토큰 비용, 그리고 Modal 선점과 같은 운영 변수로 인한 실행 손실에 사용되었습니다.

이번 실험은 LLM이 단순히 코드를 생성하는 것을 넘어, 실제 시스템의 취약점을 분석하고 악용하는 능력까지 갖추고 있음을 보여줍니다. 특히 GPT-3.5가 Firebase의 흔한 보안 취약점을 정확히 파악하고 공략했다는 점은 주목할 만합니다. 이는 개발자들이 앱을 설계할 때 LLM의 공격 가능성을 염두에 두고 더욱 철저한 보안 검증이 필요하다는 것을 시사합니다. 동시에 Claude와 같은 일부 모델이 보안 가드레일 때문에 해킹 시도를 거부했다는 점은 LLM 개발사들이 윤리적 사용과 오용 방지를 위해 노력하고 있음을 보여줍니다. 하지만 이러한 제약이 때로는 정당한 보안 연구나 개발 작업까지 방해할 수 있다는 우려도 제기되고 있습니다. 앞으로 LLM의 발전과 함께 이들의 윤리적 사용, 그리고 보안 취약점 분석 능력에 대한 논의는 더욱 중요해질 것입니다.

1인 창업자를 위한 기회 분석
AI 분석 · 참고용이며 검증이 필요합니다
4/10
보통
4점인가

LLM의 보안 취약점 분석 능력은 흥미롭지만, 이를 1인 창업으로 연결하기에는 기술적 난이도와 시장 진입 장벽이 높습니다. 기존 보안 솔루션과의 경쟁도 고려해야 합니다.

문제 / 미충족 수요

LLM이 실제 앱의 보안 취약점을 찾아 악용할 수 있는 잠재력이 커지고 있으며, 이에 대한 효과적인 방어 및 검증 도구가 부족합니다.

한국 시장
국내 있음한국에서도 LLM 기반 보안 솔루션에 대한 관심은 높지만, 아직 특정 취약점 분석에 특화된 1인 창업 솔루션은 드뭅니다.
수익 모델

B2B SaaS 구독, 컨설팅 서비스 · 돈 내는 주체: 보안에 민감한 스타트업, 중소기업 개발팀, 보안 컨설팅 회사

1인 실현 가능성
3/5

LLM 기반의 보안 분석 도구는 기술적 전문성이 필요하지만, 특정 취약점 유형에 집중하면 1인 개발도 가능합니다.

진입 지점 (Wedge)

특정 프레임워크(예: Firebase, Supabase)를 사용하는 앱의 흔한 보안 취약점을 LLM으로 자동 분석하고 리포팅하는 틈새 솔루션

이번 주 첫 실험

Firebase를 사용하는 간단한 웹/모바일 앱을 만들고, 알려진 취약점을 심은 뒤 오픈소스 LLM을 이용해 이를 찾아내는 PoC(개념 증명)를 개발합니다.

Original source
이 글은 news.hada.io의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.
원문 보기