최근 LongCat-2.0이 엔비디아(Nvidia) GPU 없이 자체 개발한 AI ASIC 슈퍼팟 기반 인프라에서 1.6조(1.6T) 파라미터 규모의 대규모 MoE(Mixture-of-Experts) 언어 모델 학습을 성공적으로 완료하며 오픈소스로 공개되었습니다. 이는 특정 하드웨어 생태계에 대한 의존도를 줄이고, AI 모델 학습 및 배포의 새로운 가능성을 제시하는 중요한 성과로 평가받고 있습니다.
LongCat-2.0은 토큰당 약 480억 개의 파라미터만 활성화하는 효율적인 구조를 가지며, 35조 개 이상의 토큰에 걸친 방대한 사전 학습을 안정적으로 마쳤습니다. 특히 LongCat Sparse Attention(LSA)과 N-gram Embedding 모듈 도입으로 1M(100만) 컨텍스트 데이터 학습을 통해 장기 컨텍스트 처리 능력을 크게 강화했습니다. 이를 통해 Claude Code, OpenClaw, Hermes 등 주요 에이전트 프레임워크와 긴밀하게 통합되어 코드 이해, 저장소 단위 수정, 자동 작업 실행 등 에이전트 워크플로우 전반에서 뛰어난 성능을 보입니다. 학습 및 추론 과정에서는 6D 병렬화, 슈퍼팟 아키텍처, Muon 옵티마이저 등 다양한 최적화 기술을 적용하여 엔비디아 H800 대비 적은 장치 메모리 환경에서도 효율적인 대규모 학습을 구현했습니다.
이번 LongCat-2.0의 성공은 엔비디아 GPU 중심의 AI 하드웨어 생태계에 대한 대안 가능성을 입증했다는 점에서 큰 의미를 가집니다. 대체 하드웨어 플랫폼에서도 프런티어급(최첨단) 대규모 언어 모델 학습이 가능하다는 것을 보여주며, AI 인프라의 다양성과 경쟁을 촉진할 잠재력을 지닙니다. 이는 장기적으로 AI 학습 및 추론 비용 절감과 기술 혁신 가속화에 기여할 수 있으며, 특정 기업에 대한 의존도를 낮춰 더 많은 개발자와 기업이 AI 기술에 접근할 수 있는 기회를 제공할 것으로 기대됩니다.