지구 관측 위성이 수집하는 데이터의 양이 기하급수적으로 늘어나면서, 이 데이터를 모두 지상으로 전송하고 사람이 분석하는 데 한계가 드러나고 있습니다. 이러한 병목 현상은 위성에서 수집된 정보가 실제 활용 가능한 지능으로 전환되는 데 큰 격차를 만들고 있습니다. 이러한 문제를 해결하기 위해, 최근 저궤도(LEO) 위성에 배포된 소프트웨어 시스템 'NAVI-Orbital'이 궤도상에서 시각-언어 모델(VLM)을 활용한 자율적인 다중 모드 추론(multi-modal inference)을 성공적으로 시연했습니다.
2026년 4월 16일, NAVI-Orbital은 위성 내에서 구글의 경량 시각-언어 모델인 젬마 3(Gemma 3)를 사용하여 캡처된 각 장면을 분류하고, 그 내용과 특징 간의 관계를 텍스트로 설명했습니다. 또한, 자연어 대화를 통해 운영자의 후속 질문에 응답하는 기능까지 선보였습니다. 이 시스템은 기존의 복잡한 명령 시퀀스 대신 일반 영어 프롬프트(plain-English prompts)로 재작업(re-tasking)이 가능하며, 랭그래프(LangGraph) 기반의 그래프형 상태 머신이 탐지 및 대화 전용 에이전트들을 조율합니다. 지상 벤치마킹에서 88.16%의 정확도를 기록했으며, 궤도상에서 이전에 본 적 없는 새로운 지구 이미지(YAM-9 위성 이미지 포함)를 미세조정(fine-tuning) 없이 하드웨어 가속 GPU 추론으로 처리하는 데 성공하며, 위성급 엣지 컴퓨터에서 파운데이션 모델(foundation models) 실행의 실현 가능성을 입증했습니다.
이번 시연은 지구 관측 데이터의 수집 후 모든 데이터를 지상으로 전송하는 기존의 대역폭 중심 방식에서 벗어나, 위성 내에서 의미론적 압축(semantic compression)을 통해 필요한 정보만 선별적으로 전송하는 새로운 패러다임을 제시합니다. 이는 지상국과의 통신 대역폭 부담을 크게 줄이고, 재난 감지, 환경 모니터링 등 실시간으로 빠른 의사결정이 필요한 분야에서 위성 데이터의 활용도를 극대화할 수 있습니다. 궁극적으로는 위성 데이터가 지상에 도달하기 전에 이미 분석되고 요약되어, 인간의 개입 없이도 더욱 신속하고 효율적인 지구 관측 및 정보 활용이 가능해질 전망입니다.