최근 공개된 연구 논문에 따르면, COMPASS라는 새로운 통합 멀티모달(multimodal) 프레임워크가 AI 이미지 생성 분야에서 중요한 진전을 이루었습니다. 이 시스템은 사용자가 원하는 이미지의 구도(composition)를 정확하게 인식하고, 이를 기반으로 이미지를 생성하는 능력을 크게 향상시켰습니다. 기존의 대규모 멀티모달 모델들은 이미지 내 객체의 배치나 장면 구성과 같은 고수준의 시각적 의도(visual intent)를 미세하게 인식하고, 이를 제어 가능한 생성으로 전환하는 데 어려움을 겪었습니다. COMPASS는 이러한 한계를 극복하며, 구도 인식과 구도 기반 생성을 단일 시스템으로 통합하여 AI 이미지 생성의 정교함을 한 단계 끌어올렸습니다.
COMPASS는 'tau_c'라는 공유 전문가 토큰(expert token)을 핵심 의도 앵커(intent anchor)로 사용하여 구도 제어를 통합합니다. 인식(perception) 측면에서는 최소한의 침습적인 방식으로 MoE(Mixture-of-Experts) 백본에 구도 전문 지식을 주입하고, 추론된 의도를 tau_c로 추출합니다. 생성(generation) 측면에서는 이 tau_c를 전역 조건 신호(global conditioning signal)로 재사용하여 노이즈 제거(denoising) 궤적을 조종함으로써, 수동적인 구도 분석을 명시적인 레이아웃 제어(layout control)로 효과적으로 전환합니다. 연구팀은 또한 체계적인 지시-따르기 구도 학습 및 대규모 평가를 지원하기 위해 11가지 클래스 분류 체계와 추론 증강 주석(reasoning-augmented annotations)을 포함하는 대규모 데이터셋인 'Comp-11'을 구축했습니다. 광범위한 실험 결과, COMPASS는 카테고리 수준의 구도 이해를 크게 개선하고, 강력한 기존 모델들보다 구도 일관성이 높고 프롬프트에 충실한 이미지를 생성하는 것으로 나타났습니다.
COMPASS의 등장은 AI 이미지 생성 기술의 상업적 활용 가능성을 크게 확장할 것으로 보입니다. 디자이너, 마케터, 콘텐츠 크리에이터 등 특정 구도와 레이아웃이 중요한 분야의 전문가들은 이제 AI를 통해 훨씬 더 정교하고 의도에 부합하는 이미지를 빠르게 얻을 수 있게 될 것입니다. 이는 단순히 이미지를 만드는 것을 넘어, 특정 메시지나 미학적 목표를 달성하기 위한 시각적 스토리텔링 도구로서 AI의 역할을 강화합니다. 또한, 대규모 데이터셋 'Comp-11'의 공개는 향후 구도 제어 관련 연구의 발전을 가속화하고, 더 다양한 응용 분야로의 확장을 위한 기반을 마련할 것으로 기대됩니다.
