사이버 보안 기업 스닉(Snyk)이 대규모 언어모델(LLM)이 생성하는 코드의 보안 취약점을 평가하기 위한 새로운 벤치마크 'VulnBench JS 1.0'을 발표했습니다. 이 벤치마크는 특히 자바스크립트(JavaScript) 코드에서 LLM이 특정 유형의 보안 버그를 얼마나 일관되게 반복해서 생성하는지 측정하는 데 초점을 맞춥니다. 이는 AI가 생성한 코드의 신뢰성과 보안성을 객관적으로 검증하는 중요한 단계입니다.
VulnBench JS 1.0은 실제 소프트웨어 개발에서 자주 발생하는 10가지 주요 자바스크립트 취약점 유형을 포함하고 있습니다. 스닉은 이 벤치마크를 통해 다양한 LLM이 동일한 보안 결함을 얼마나 자주, 그리고 어떤 방식으로 코드에 포함시키는지 정량적으로 분석할 수 있다고 설명합니다. 예를 들어, 특정 LLM이 크로스 사이트 스크립팅(XSS) 취약점을 특정 프롬프트에서 10번 중 7번 생성한다면, 이는 해당 LLM의 보안 결함 재현율이 70%임을 의미합니다. 이러한 데이터는 개발자들이 AI 코드 생성 도구를 선택하고 사용할 때 보안 위험을 더 정확하게 평가하는 데 도움을 줍니다.
이 벤치마크의 등장은 AI 기반 코드 생성 도구가 확산되면서 발생하는 새로운 보안 과제에 대한 업계의 인식을 보여줍니다. 개발 생산성을 높이는 LLM의 장점에도 불구하고, LLM이 생성한 코드에 잠재적인 보안 취약점이 포함될 수 있다는 우려는 지속적으로 제기되어 왔습니다. VulnBench JS 1.0과 같은 도구는 이러한 우려를 해소하고, LLM 개발자들이 더욱 안전한 모델을 구축하도록 유도하며, 궁극적으로 소프트웨어 공급망 전체의 보안 수준을 향상시키는 데 중요한 역할을 할 것입니다. 이는 AI 시대의 소프트웨어 개발에서 보안을 '쉬프트 레프트(Shift Left)'하는, 즉 개발 초기 단계부터 보안을 고려하는 문화 정착에도 기여할 것으로 보입니다.