최근 개발자 채용 플랫폼 HackerRank(해커랭크)가 오픈소스 ATS(Applicant Tracking System, 지원자 추적 시스템)를 공개하며 큰 관심을 모았지만, 이 AI 기반 도구가 이력서 평가에서 심각한 일관성 문제를 드러내 논란이 되고 있습니다. 한 개발자가 동일한 이력서를 여러 번 평가한 결과, 점수가 66점에서 99점까지 크게 변동하는 현상을 발견했습니다. 이는 채용 과정에서 지원자의 실력보다 '운'이 더 중요하게 작용할 수 있다는 우려를 낳고 있습니다.
해커랭크의 ATS는 PDF 이력서를 텍스트로 파싱한 뒤, LLM(대규모 언어모델)을 여섯 번 호출하여 기본 정보, 경력, 학력, 기술, 프로젝트, 수상 경력 등을 추출합니다. 여기에 GitHub(깃허브) 프로필과 주요 저장소(repo) 정보를 추가한 후, 이 모든 데이터를 다시 LLM에 넣어 100점 만점으로 평가합니다. 점수 배점은 오픈소스 기여(35점), 개인 프로젝트(30점), 경력(25점), 기술 스킬(10점)이며, 스타트업 경험이나 기술 블로그 등에 최대 20점의 보너스 점수가 주어집니다. 기본 모델은 Gemma 3:4b를 사용하며, 낮은 온도(temperature) 값(0.1)으로 설정되어 있음에도 불구하고, 특히 '프로젝트' 평가에서 점수 변동성이 매우 높은 것으로 나타났습니다. 반면 '기술 스킬'은 체크리스트 기반이라 일관성이 높았고, '경력'은 평가 기준이 모호하여 모든 지원자에게 만점을 주는 등 변별력이 부족했습니다.
이러한 비결정론적(non-deterministic) 평가 방식은 AI 채용 도구의 근본적인 한계를 보여줍니다. LLM은 이력서 파싱이나 특정 기술 유무 확인 같은 정형화된 작업에는 뛰어나지만, 프로젝트의 복잡성이나 경력의 깊이와 같은 비정형적이고 주관적인 판단을 일관성 있게 내리는 데는 어려움을 겪습니다. 이는 기업들이 수십 년간 노력해 온 '객관적이고 공정한 채용'이라는 목표에 역행할 수 있습니다. 특히 오픈소스 기여와 프로젝트에 65%라는 높은 가중치를 부여하는 방식은, GitHub에 공개되지 않은 뛰어난 경험을 가진 숙련된 엔지니어들을 불리하게 만들 수 있다는 지적도 나옵니다.
이번 해커랭크 ATS 사례는 AI 기반 채용 도구를 도입하려는 기업들에게 중요한 경고 메시지를 던집니다. AI는 보조적인 도구로서의 가치는 크지만, 복잡한 인간의 역량을 평가하는 데 전적으로 의존할 경우 오히려 채용의 질을 떨어뜨리고 잠재력 있는 인재를 놓칠 위험이 있습니다. 채용 담당자들은 AI 스크리닝 도구를 사용할 때 매우 신중해야 하며, AI가 단순히 '필터링'하는 것을 넘어 '품질'을 제대로 걸러내는지 면밀히 검토해야 할 것입니다.
