미생물의 복잡한 움직임, AI 강화학습으로 풀다

단세포 조류의 광주성(phototaxis) 움직임이 단순히 자극에 반응하는 것을 넘어, 주변 환경 정보를 적극적으로 탐색하는 '호기심 기반' 행동임을 밝히는 연구가 나왔습니다. 연구팀은 강화학습(Reinforcement Learning)과 화학 반응 네트워크(CRN) 모델을 결합해, 미생물이 불완전한 감각 신호 속에서도 효율적으로 정보를 얻고 탐색하는 과정을 성공적으로 재현했습니다. 이는 살아있는 시스템의 지능적인 행동을 이해하는 새로운 관점을 제시합니다.

6일 전·2026.06.26·읽기 2분·Ruyi Tang (LCQB-AG), Gr\'egoire Sergeant-Perthuis (LCQB-AG), David Colliaux

살아있는 유기체, 특히 단세포 조류와 같은 미생물은 시끄럽고 불완전한 감각 신호 속에서도 환경을 탐색하며 생존합니다. 기존에는 이러한 미생물의 움직임, 예를 들어 빛을 향해 움직이는 광주성(phototaxis)을 단순한 자극-반응 규칙에 따른 기계적인 과정으로 설명하는 경우가 많았습니다. 하지만 최근 연구는 이러한 관점이 유기체가 감각적 모호성을 줄이기 위해 환경을 능동적으로 탐색하는 측면을 간과한다고 지적하며, 강화학습(Reinforcement Learning)을 통해 미생물의 복잡한 행동을 설명하는 새로운 프레임워크를 제시했습니다.

뤼이 탕(Ruyi Tang) 외 연구진은 부분 관측 마르코프 결정 과정(POMDP: Partially Observable Markov Decision Process)과 생화학 반응 동역학을 연결하는 모델을 제안했습니다. 이 모델은 환경 변수가 숨겨져 있는 상황에서 세포가 관측을 통해 최소한의 내부 상태를 업데이트하는 과정을 포함합니다. 특히, 빛을 향하는 움직임과 탐색적 재지향 사이의 균형을 세포 내 화학 반응 네트워크(CRN)의 상미분 방정식(ODE)으로 구현할 수 있음을 보였습니다. 연구팀은 30개의 실험적으로 기록된 클라미도모나스(Chlamydomonas) 궤적에 역강화학습(Inverse Reinforcement Learning)을 적용하여, 관찰된 광주성 움직임과 일치하는 행동 목표를 추론하고 이를 표준 확률 시뮬레이션 알고리즘(SSA)과 비교 검증했습니다.

이 연구의 핵심은 미생물의 '달리기-텀블(run-tumble)' 교대 움직임이 단순히 무작위적인 것이 아니라, 정보를 획득하기 위한 전략으로 나타난다는 점입니다. 즉, '텀블(tumbling)'은 세포가 새로운 감각 구성을 샘플링하고 감각 모호성을 해결하기 위해 재지향하는 행동이라는 것입니다. 이는 세포 내 생화학 네트워크가 세포 탐색에서 적응적인 정보 탐색 행동을 지원할 수 있음을 보여주며, 생명 시스템의 지능적인 행동을 이해하는 데 있어 '호기심 기반 탐색(curiosity-driven exploration)'이라는 새로운 관점을 제공합니다. 이러한 접근 방식은 인공지능(AI) 분야에서 자율 에이전트의 탐색 전략을 설계하거나, 생체 모방 로봇(bio-inspired robot)의 내비게이션 시스템을 개발하는 데 영감을 줄 수 있습니다.