인공지능(AI) 분야의 선구자 리치 서튼(Rich Sutton) 교수가 최근 생성 AI의 창의성과 발견 능력에 대한 흥미로운 관점을 제시했습니다. 그는 현재의 지도학습(supervised learning) 기반 생성 AI가 방대한 데이터를 모방하는 데는 탁월하지만, 과학이나 수학 분야에서 요구되는 진정한 의미의 새로운 발견에는 한계가 있다고 지적했습니다. 인터넷 검색 답변이나 문서 요약처럼 '새로움'이 필요 없는 영역에서는 유용하지만, 새로운 아이디어가 필요한 경우에는 오히려 '환각(hallucination)'으로 이어질 수 있다는 것입니다.
서튼 교수는 생성 AI의 한계로 '새로운 것은 좋지 않고, 좋은 것은 새롭지 않다'는 오래된 농담을 인용하며, 무작위성을 통해 새로움을 만들 수는 있지만, 그 가치를 평가하고 보존하는 과정이 없으면 의미 있는 발견으로 이어지기 어렵다고 설명했습니다. 반면, 알파고(AlphaGo), 알파제로(AlphaZero), 알파폴드(AlphaFold)와 같은 성공적인 AI 시스템들은 '변이(variation), 평가(evaluation), 선택적 보존(selective preservation)'이라는 세 단계를 통해 새롭고 좋은 결과를 찾아냈다고 강조했습니다. 이는 심리학의 도구적 학습(instrumental learning) 또는 조작적 조건형성(operant conditioning), 그리고 기계학습(machine learning)의 강화학습(reinforcement learning)과 같은 원리입니다.
결국, 진정한 AI 과학자를 구현하려면 AI가 명시적인 목표를 공유하고, 스스로 아이디어를 만들고, 그 가치를 평가하며, 최적의 결과를 보존하는 자율적인 시스템이 되어야 한다는 것이 서튼 교수의 핵심 주장입니다. 이는 단순히 대규모 언어모델(LLM)이나 생성 모델링에 그치지 않고, 에이전트(agent)처럼 스스로 생성-테스트-개선 루프를 닫는 강화학습 기반의 접근이 중요하다는 의미입니다. 이러한 시스템은 AI가 불확실성 속에서 새로운 가설을 세우고 검증하며, 인간의 개입 없이도 의미 있는 발견을 이끌어낼 잠재력을 가지고 있습니다. 이는 AI의 발전 방향에 대한 중요한 통찰을 제공하며, 미래 AI 연구와 개발의 나침반이 될 것입니다.