포켓몬 로그라이크, 178K 뉴럴넷으로 정복

한 개발자가 인기 웹 게임 '포켓몬 로그라이크(Poke Roguelike)'의 높은 난이도에 좌절한 끝에, 직접 강화 학습(Reinforcement Learning, RL) 에이전트를 훈련시켜 게임을 자동으로 클리어하는 데 성공했습니다. 이는 복잡한 의사 결정이 필요한 게임 환경에서 인공지능이 어떻게 문제를 해결하고, 비교적 작은 규모의 신경망으로도 뛰어난 성능을 발휘할 수 있는지 보여주는 흥미로운 사례입니다.

개발자 티아고 리라(Thiago Lira)는 게임의 '상태(state)', '단계(step)', '보상(reward)' 개념이 명확하다는 점에서 강화 학습을 선택했습니다. 에이전트는 9개의 맵을 탐색하며 포켓몬 획득, 아이템 사용, 트레이너 배틀 등의 이벤트를 선택합니다. 현재 팀 정보, 아이템, 맵 진행도 등 게임의 모든 상황을 1386차원의 희소 벡터(sparse vector)로 인코딩하여 모델의 입력으로 사용했습니다. 특히, '옵션 슬롯(option slots)'이라는 독특한 방식을 통해 어떤 종류의 결정이든 6개의 고정된 슬롯 중 하나를 선택하도록 하여 모델의 출력 구조를 단순화했습니다. 훈련에는 PPO(Proximal Policy Optimization) 알고리즘을 사용했으며, 정책 네트워크(Policy Network)와 가치 네트워크(Value Network)가 함께 학습하며 최적의 행동을 찾아냈습니다. 놀랍게도 이 모델은 단 178K(17만 8천)개의 파라미터만을 가진 매우 작은 규모의 신경망으로, 하나의 퍼셉트론(perceptron) 레이어와 두 개의 출력 헤드로 구성되어 있습니다.

이번 사례는 대규모 모델이 주류를 이루는 시대에 작은 규모의 신경망으로도 특정 도메인에서 뛰어난 성능을 낼 수 있음을 증명합니다. 이는 자원 제약이 있는 환경이나 특정 목적에 특화된 AI 개발에 중요한 시사점을 제공합니다. 또한, 복잡한 게임의 전략적 의사 결정을 AI가 학습하고 수행하는 과정을 통해 게임 AI 개발의 가능성을 넓히고, 나아가 현실 세계의 복잡한 문제 해결에도 강화 학습이 적용될 수 있음을 보여주는 좋은 예시입니다. 이러한 접근 방식은 게임 플레이어들에게는 새로운 즐거움을, 개발자들에게는 효율적인 AI 모델 설계에 대한 영감을 줄 수 있습니다.