최근 '콘셉트-벡터(Concept-Vector)'라는 새로운 워드 임베딩(Word Embedding) 프로젝트가 공개되어, 인공지능(AI) 언어 모델의 작동 방식을 더욱 투명하고 제어 가능하게 만들 잠재력을 보여주고 있습니다. 이 프로젝트는 워드투벡터(Word2Vec)나 대규모 언어모델(LLM)의 임베딩 레이어에서 사용되는 추상적이고 해석하기 어려운 잠재 벡터(latent dimension)를, 사람이 직접 이해할 수 있는 '개념(concept)' 기반의 의미 요소로 대체하는 것을 목표로 합니다.
콘셉트-벡터는 LLM을 활용해 특정 단어와 미리 정의된 개념(예: 성별, 규모, 형식성, 모욕성) 간의 관계를 5점 척도(0-4점)로 평가하여 점수화하는 방식으로 작동합니다. 예를 들어, '소년(boy)'이라는 단어와 '성별(gender)'이라는 개념의 연관성을 점수로 매기는 식입니다. 이렇게 추출된 개념 벡터는 정적(static) 구성 요소와 동적(dynamic) 구성 요소로 나뉘어, LLM이 문맥에 따라 의미를 유연하게 생성하면서도 그 변화를 측정할 수 있도록 설계되었습니다. 이 방법은 계산 효율성 증대, 메모리 감소, 그리고 '형식성'이나 '모욕성' 같은 특정 거버넌스 영역에 대한 예측 가능한 제어를 가능하게 하여, 후처리 필터링이나 로짓 마스킹(logit masking)에 활용될 수 있습니다.
이 기술은 AI의 구조적 설명 가능성(Structural Explainability)을 크게 향상시킬 수 있다는 점에서 중요합니다. 기존 워드 임베딩은 벡터 공간에서 단어 간의 유사성을 파악하는 데 유용했지만, 특정 벡터 차원이 어떤 의미를 담고 있는지 사람이 직관적으로 이해하기 어려웠습니다. 콘셉트-벡터는 이러한 불투명성을 해소하고, AI가 특정 단어를 어떤 '개념'적 관점에서 이해하고 처리하는지 명확하게 보여줄 수 있습니다. 이는 AI 시스템의 신뢰성을 높이고, 편향(bias)을 감지하고 수정하는 데 새로운 가능성을 열어줄 것으로 기대됩니다.