대규모 언어모델(LLM)이 점점 더 복잡한 의사결정 과정에 활용되면서, 단기적인 이득과 장기적인 결과를 어떻게 균형 있게 고려하는지에 대한 의문이 제기되어 왔습니다. 최근 arXiv에 발표된 연구에 따르면, Qwen3-4B-Instruct-2507이라는 특정 LLM에서 이러한 '시간 선호도(temporal preference)'를 담당하는 내부 신경망의 특정 부분을 성공적으로 찾아냈습니다. 이는 LLM이 미래를 예측하고 계획하는 방식에 대한 중요한 통찰을 제공합니다.
연구팀은 기울기 기반 귀인(gradient-based attribution)과 활성화 패치(activation patching)라는 두 가지 방법을 통해 LLM의 중간 및 상위 계층 노드에서 시간 선호도와 관련된 하위 그래프를 식별했습니다. 흥미롭게도, 모델의 잔차 스트림(residual stream)에는 시간 지평(time horizon)의 기하학적 구조가 인코딩되어 있음이 밝혀졌습니다. 행동 분석 결과, 개입하지 않은 LLM은 인간보다 미래를 훨씬 덜 가파르게 할인하는 경향을 보였지만, 이러한 선호도는 상황에 따라 불안정하게 변했습니다. 이는 훈련 데이터에만 의존하기보다는 명시적인 제어가 필요함을 시사합니다.
이번 연구는 조향 벡터(steering vectors)를 사용하여 LLM의 시간 선호도를 변경할 수 있다는 가능성도 제시합니다. 이는 기계적 해석 가능성(mechanistic interpretability) 연구가 LLM의 계획 및 추론 방식을 보다 안정적으로 제어하는 데 어떻게 기여할 수 있는지를 보여주는 중요한 사례입니다. 궁극적으로, 이러한 발견은 LLM이 미래 지향적인 결정을 내릴 때 인간의 가치와 더 잘 부합하도록 미세 조정할 수 있는 길을 열어줄 수 있습니다.