딥리인포스 AI(DeepReinforce AI)가 스스로 학습하고 개선하는 오픈소스 코딩 에이전트 모델 '오르니스-1.0'(Ornith-1.0)을 공개하며 AI 기반 코드 생성 및 문제 해결 분야에 새로운 이정표를 제시했습니다. 이 모델은 강화 학습(Reinforcement Learning, RL)을 활용해 단순히 코드를 생성하는 것을 넘어, 문제 해결 과정을 주도하는 '스캐폴드'(scaffold)까지 스스로 만들어내며 성능을 최적화하는 것이 특징입니다.
오르니스-1.0은 9B, 31B, 35B, 397B 등 다양한 크기의 모델로 제공되며, 특히 35B MoE(Mixture-of-Experts)와 397B MoE 모델은 구글의 젬마 4(Gemma 4)와 큐웬 3.5(Qwen 3.5)를 기반으로 후처리 학습되어 동급 오픈소스 모델 중 최고 수준의 성능을 자랑합니다. 터미널-벤치 2.1(Terminal-Bench 2.1), SWE-벤치(SWE-Bench), NL2Repo, 오픈클로(OpenClaw) 등 주요 코딩 벤치마크에서 기존 모델들을 능가하는 결과를 보여주었으며, MIT 라이선스로 배포되어 누구나 자유롭게 접근하고 활용할 수 있습니다. 9B 모델은 단일 80GB GPU에서도 구동 가능하며, MoE 모델들은 멀티 GPU 환경에서 분산 처리됩니다.
오르니스-1.0의 등장은 개발자들이 AI를 활용하여 소프트웨어 개발 생산성을 극대화할 수 있는 새로운 가능성을 열었습니다. 특히 스스로 문제 해결 전략을 개선하는 '자기 개선 학습 프레임워크'는 AI 에이전트가 더욱 복잡하고 추상적인 코딩 과제를 해결하는 데 중요한 역할을 할 것으로 보입니다. 이는 단순히 코드를 자동 완성하는 수준을 넘어, 실제 개발자의 사고 과정을 모방하고 확장하여 소프트웨어 개발의 패러다임을 변화시킬 잠재력을 가지고 있습니다.