핵융합 에너지 개발의 핵심 난제 중 하나는 초고온 플라즈마를 안정적으로 제어하는 것입니다. 기존에는 실제 핵융합 장치(토카막)에서 직접 실험하며 제어기를 개발했지만, 이는 막대한 비용과 장치 손상의 위험을 수반했습니다. 이러한 한계를 극복하기 위해 연구진은 과거 운전 데이터를 활용하는 오프라인 강화 학습(Offline Reinforcement Learning, RL) 기법에 주목했으며, 이 분야의 발전을 가속화할 표준 벤치마크 'RL4F'를 새롭게 공개했습니다.
RL4F 벤치마크는 실제 DIII-D 토카막의 과거 운전 데이터를 기반으로 구축된 동적 함수를 활용하여, 회전, 밀도, 온도, 압력 등 네 가지 플라즈마 프로파일 추적 과제에 대한 폐쇄 루프(closed-loop) 평가 환경을 제공합니다. 연구팀은 다양한 모방 학습(imitation learning) 및 오프라인 RL 기준선(baseline)을 통일된 프로토콜로 평가했으며, 그 결과 모델 기반 오프라인 RL(model-based offline RL) 방식이 대부분의 목표에서 가장 뛰어난 평균 성능을 보인다는 것을 확인했습니다. 이는 복잡하고 장기적인 플라즈마 제어 과제에서 동적 모델링의 중요성을 시사합니다.
이번 연구는 핵융합 제어 분야뿐만 아니라 오프라인 강화 학습 알고리즘 개발에도 중요한 기여를 합니다. 연구팀은 코드베이스, 데이터셋, 평가 프레임워크를 모두 오픈 소스로 공개하여, 전 세계 연구자들이 핵융합 플라즈마 제어 기술 발전에 동참하고 새로운 오프라인 RL 알고리즘을 개발하는 데 활용할 수 있도록 했습니다. 이는 고비용·고위험의 실제 실험 없이도 효율적인 제어기 개발을 가능하게 하여, 핵융합 상용화에 한 걸음 더 다가서는 중요한 발판이 될 것입니다.