사이버 보안 기업 스닉(Snyk)이 대규모 언어모델(LLM)이 생성하는 코드의 보안 취약점을 평가하고 반복적으로 테스트할 수 있는 새로운 벤치마크 도구인 '스닉 불른벤치 JS 1.0'(Snyk VulnBench JS 1.0)을 발표했습니다. 이 벤치마크는 특히 자바스크립트(JavaScript) 코드에 초점을 맞춰, LLM이 생성한 코드에 내재된 보안 버그를 식별하고 그 반복성을 측정하는 데 기여할 것으로 보입니다.
'스닉 불른벤치 JS 1.0'은 LLM이 생성한 코드에서 흔히 발견되는 10가지 주요 자바스크립트 보안 취약점 유형을 대상으로 합니다. 여기에는 크로스 사이트 스크립팅(XSS), SQL 인젝션(SQL Injection), 경로 조작(Path Traversal) 등 웹 애플리케이션에서 자주 발생하는 문제들이 포함됩니다. 이 벤치마크는 각 취약점 유형에 대해 LLM이 얼마나 자주 보안 결함이 있는 코드를 생성하는지, 그리고 동일한 프롬프트(prompt)에 대해 얼마나 일관되게 취약한 코드를 만들어내는지 측정합니다. 이는 개발자들이 AI 생성 코드의 잠재적 위험을 더 정확하게 파악하고, LLM 개발자들이 모델을 개선하는 데 필요한 구체적인 데이터를 제공합니다.
이번 벤치마크 출시는 LLM 기반 소프트웨어 개발이 빠르게 확산되는 현 시점에서 매우 중요한 의미를 가집니다. AI가 코드를 생성하는 과정에서 의도치 않은 보안 취약점이 포함될 수 있다는 우려가 커지고 있으며, 이를 체계적으로 검증하고 개선할 수 있는 도구의 필요성이 제기되어 왔습니다. 스닉의 벤치마크는 이러한 문제를 해결하기 위한 첫걸음으로, 개발자들이 AI 생성 코드를 더 안전하게 활용하고, 궁극적으로 소프트웨어 공급망 전체의 보안을 강화하는 데 기여할 것으로 기대됩니다. 또한, LLM 개발자들에게는 보안 성능을 객관적으로 측정하고 비교할 수 있는 표준화된 프레임워크를 제공하여, 더욱 안전하고 신뢰할 수 있는 AI 모델을 구축하는 데 도움을 줄 것입니다.