최근 공개된 연구 '시계열 데이터를 언어처럼: 범용 시계열 파운데이션 모델을 위한 보편적 토크나이저(Time Series as Language: A Universal Tokenizer for General-Purpose Time Series Foundation Models)'가 시계열 데이터 처리의 새로운 가능성을 제시했습니다. 이 연구는 대규모 언어모델(LLM)의 핵심 기술인 '차세대 토큰 예측(Next-Token Prediction, NTP)' 방식을 연속적인 시계열(Time Series, TS) 데이터에 적용하기 위한 '유니톡(UniTok)'이라는 범용 토크나이저를 소개합니다. 유니톡은 시계열 데이터를 이산적인 토큰으로 변환하여, 기존 LLM 아키텍처를 활용한 파운데이션 모델 '유니톡-FM(UniTok-FM)'이 다양한 시계열 작업을 수행할 수 있도록 합니다.
유니톡(UniTok)은 벡터 양자화 오토인코더(vector-quantized autoencoder) 기술을 기반으로 하며, 스케일 안정화를 위한 접두사 정규화(prefix normalization), 인코딩 및 디코딩을 위한 점진적 해상도 인과 아키텍처(progressive-resolution causal architecture), 그리고 구조 보존 재구성 손실(structure-preserving reconstruction loss)을 통합하여 시계열 데이터를 효율적으로 토큰화합니다. 유니톡-FM은 시계열에 특화된 수정 없이 기존 LLM 아키텍처를 채택했으며, 개별 시계열이 아닌 유사한 패턴을 가진 여러 시계열의 컨텍스트 윈도우(context window)에서 NTP를 수행하여 공유된 동역학을 학습합니다. 이 모델은 제로샷(zero-shot) 및 프롬프트 기반(prompt-boosted) 예측, 그리고 훈련 없이 문맥 내 추론(in-context inference)을 통한 소수샷(few-shot) 생성 및 분류를 지원하는데, 이는 이전 연구에서는 달성하지 못한 독특한 기능입니다.
이러한 접근 방식은 시계열 분석 분야에 혁신적인 변화를 가져올 수 있습니다. 단일 유니톡-FM 모델이 예측, 생성, 분류 등 다양한 작업에서 통계 및 지도 학습 기반 모델을 능가하고, 심지어 특정 작업에 특화된 파운데이션 모델과도 경쟁력 있는 성능을 보여주었습니다. 특히 훈련 없이 문맥 내 추론을 통해 다양한 작업을 수행할 수 있다는 점은 시계열 데이터 활용의 효율성을 극대화하고, 새로운 애플리케이션 개발의 문을 열 수 있습니다. 이는 복잡한 시계열 데이터를 다루는 다양한 산업 분야에서 데이터 분석 및 의사결정 과정을 간소화하고 자동화하는 데 크게 기여할 것입니다.