대규모 언어 모델(LLM)의 발전과 함께 그 복잡한 내부 작동 원리를 이해하려는 '기계적 해석 가능성(Mechanistic Interpretability)' 연구가 활발합니다. 특히 모델 내 특정 기능에 관여하는 '회로(circuit)'를 자동으로 찾아내는 데는 상당한 진전이 있었지만, 이렇게 찾아낸 회로의 각 구성 요소가 정확히 어떤 역할을 하는지 설명하는 것은 여전히 많은 시간과 노력이 필요한 작업이었습니다. 최근 아르카이브(arXiv)에 발표된 연구는 이러한 문제 해결을 위해 언어 모델(LM) 에이전트가 회로 설명에 도움을 줄 수 있는지 탐구했습니다.
연구팀은 'AgenticInterpBench'라는 새로운 벤치마크를 구축하고, 'HyVE(Hypothesize, Validate, Explain)'라는 에이전트 기반 설명 방법론을 제안했습니다. HyVE는 관찰, 가설 생성, 인과적 검증의 반복적인 과정을 통해 각 구성 요소의 역할을 분석하고, 최종적으로 구성 요소 수준의 설명과 회로 수준의 전체 작업 설명을 생성합니다. 84개의 반합성 트랜스포머(transformer) 회로와 163개의 구성 요소 주석으로 구성된 이 벤치마크에서 HyVE는 다양한 LM 백본(backbone)을 활용하여 유용한 구성 요소 및 작업 수준 설명을 도출했습니다. 특히 강력한 백본들은 관찰에 기반한 가설을 잘 형성했지만, 검증 단계에서 불완전한 계획이나 코드 실행 오류, 미해결 가설 등으로 인해 실패하는 경우가 많다는 점이 밝혀졌습니다.
이번 연구는 LM 에이전트가 LLM의 블랙박스(black box)를 해명하고 내부 작동 방식을 이해하는 데 중요한 도구가 될 수 있음을 시사합니다. 특히 라마-3-8B(Llama-3-8B) 모델의 산술 회로에 대한 사례 연구를 통해, 이 방법론이 반합성 벤치마크를 넘어 실제 훈련된 모델에도 적용될 수 있음을 보여주었습니다. 이는 LLM의 신뢰성과 안전성을 높이는 데 필수적인 투명성 확보에 기여할 잠재력을 가집니다. 하지만 연구팀은 신뢰할 수 있는 검증 과정이 여전히 핵심적인 과제로 남아있다고 강조하며, 향후 연구 방향을 제시했습니다.
