HackerRank가 공개한 오픈소스 AI 채용 에이전트(hiring-agent)가 같은 이력서를 반복 평가할 때마다 점수가 크게 달라지는 현상이 발견되어 논란이 되고 있습니다. 이 도구는 PDF 이력서를 파싱하고 대규모 언어모델(LLM)을 여러 번 호출하여 지원자의 경력, 기술, 프로젝트 등을 평가하는데, 한 이력서에 대해 66점에서 99점까지 점수 폭이 벌어졌습니다. 만약 기업이 85점을 합격 기준으로 삼는다면, 같은 이력서도 65%의 확률로 탈락할 수 있다는 의미입니다.
이 채용 에이전트는 이력서 정보를 구조화한 뒤 깃허브(GitHub) 프로필 정보까지 추가하여 100점 만점에 최대 20점의 보너스 점수를 더해 평가합니다. 기술 스킬처럼 객관적인 항목은 비교적 일관된 점수를 보였지만, 프로젝트 평가에서는 “아키텍처 복잡성 부족”과 “실제 배포를 보여줌” 같은 상반된 평가가 번갈아 나오며 큰 변동성을 보였습니다. 심지어 모델의 비결정성을 낮추는 온도(temperature) 값을 0으로 설정하거나 다른 LLM인 제미니(Gemini)로 교체해도 점수 변동성은 여전히 존재했습니다. 특히 경력 항목의 경우, 인턴십 하나만 있는 이력서도 최고점을 받는 등 지원자의 실제 역량과 무관하게 점수가 부여될 수 있다는 문제점도 드러났습니다.
이러한 결과는 LLM 기반의 채용 도구가 지원자 선별에 있어 ‘운’의 요소를 크게 작용하게 할 수 있음을 시사합니다. 이력서 파싱이나 특정 기술 보유 여부 확인 등 단순 정보 추출에는 LLM이 유용할 수 있지만, 후보자의 경험이나 역량을 정성적으로 평가하는 데는 아직 한계가 명확합니다. 오픈소스 기여와 개인 프로젝트가 전체 점수의 65%를 차지하는 배점 구조 또한 깃허브 활동이 적은 숙련된 엔지니어를 불리하게 만들 수 있습니다. 기업들은 AI 채용 시스템 도입 시 이러한 비결정성과 잠재적 편향성을 인지하고, 단순히 지원자를 걸러내는 장치가 아닌 실제 역량을 평가하는 보조 도구로 활용하는 데 신중해야 할 것입니다. 잘못된 AI 활용은 법적, 윤리적 문제로 이어질 수 있다는 점도 간과해서는 안 됩니다.