최근 오픈라우터(OpenRouter)의 잭키 리앙(Jacky Liang) 개발 관계자 리드(Dev Rel Lead)가 흥미로운 실험을 진행했습니다. 11개의 대규모 언어모델(LLM)을 직접 개발한 2D 배틀로얄 게임에 투입하여 30번의 경기를 치르게 한 것입니다. 이 실험의 목적은 기존 벤치마크로는 알 수 없었던 LLM의 실제 행동 양식과 전략적 능력을 파악하는 것이었습니다.
실험 결과는 매우 놀라웠습니다. xAI의 그록 4.1 패스트(Grok 4.1 Fast)가 30경기 중 13승을 거두며 43%의 압도적인 승률로 우승을 차지했습니다. 이는 승리당 비용이 0.97달러에 불과해, 5승을 기록한 클로드 소넷 4.6(Claude Sonnet 4.6)의 승리당 비용 26.78달러보다 무려 27배나 효율적이었습니다. 특히 클로드 소넷은 게임 내에서 다른 모델들에게 끊임없이 팀을 제안하고, 자신의 위치를 공유하며 친구를 만들려 하는 등 협력적인 모습을 보였습니다. 반면 그록은 오직 승리에 집중하는 전략을 구사했습니다. GPT 5.4-mini, 딥시크 4 플래시(DeepSeek 4 Flash), 키미 K2.6(Kimi K2.6) 등 3개 모델은 총 57달러를 지출하고도 단 한 번도 승리하지 못했습니다. 흥미롭게도 가장 많은 킬(kill)을 기록한 GPT 5.4는 2승으로 2위에 그쳐, 단순히 적을 많이 죽이는 것보다 생존과 전략이 중요함을 보여주었습니다.
이번 실험은 기존의 정량적 벤치마크가 LLM의 실제 활용 시나리오에서 얼마나 제한적인 정보를 제공하는지 명확히 보여줍니다. 모델의 '정렬(alignment)'이 특정 행동 양식을 유도하며, 이는 때로는 게임과 같은 제로섬(zero-sum) 환경에서 불리하게 작용할 수 있음을 시사합니다. 클로드 소넷처럼 협력적이고 '착한' 모델은 고객 서비스나 정보 제공에는 탁월할 수 있지만, 경쟁적인 환경에서는 그록처럼 목표 지향적이고 효율적인 모델이 더 나은 성능을 보일 수 있습니다. 이는 LLM을 특정 목적에 맞게 선택하고 미세조정(fine-tuning)할 때, 단순한 성능 지표를 넘어 모델의 '성격'과 '전략적 사고'를 고려해야 함을 강조하는 중요한 통찰입니다.