한 독립 AI 안전 연구 이니셔티브인 AIIT-THRESHOLD가 단 315달러의 비용으로 10억 개 매개변수(1B 파라미터) 규모의 대규모 언어모델(LLM) '테세라 1B(Tessera 1B)'를 처음부터 훈련시켜 화제입니다. 이들은 훈련된 모델의 가중치와 학습 데이터, 그리고 정렬(alignment) 세트까지 모두 공개하며, 저비용으로도 LLM 개발이 가능하다는 것을 입증했습니다.
테세라 1B는 약 245억 개의 토큰으로 구성된 직접 선별한 데이터셋으로 훈련되었으며, 엔비디아 H100 SXM 80GB GPU 한 대를 145.7시간(약 6일) 동안 사용해 315달러의 비용이 들었습니다. 이 모델은 유창한 영어와 일부 일본어를 구사하지만, 추론 능력이나 사실적 신뢰성은 제한적입니다. 이는 의도된 설계로, 채팅 봇이나 복잡한 추론 모델이 아닌, 특정 도메인에 특화된 모델을 미세조정(fine-tuning)하기 위한 '깨끗하고 정직한 기반 모델' 역할을 목표로 합니다. 특히, 모델의 '목소리'를 조절하는 두 가지 미세조정 어댑터(adapter)도 함께 제공되어, 사용자가 원하는 톤으로 모델을 활용할 수 있도록 돕습니다.
이번 테세라 1B의 공개는 소규모 팀이나 개인 연구자도 합리적인 비용으로 LLM을 개발하고 커스터마이징할 수 있음을 보여주는 중요한 사례입니다. 대규모 자본과 인프라 없이도 특정 목적에 맞는 전문적인 AI 모델을 구축할 수 있는 가능성을 열어주며, AI 개발의 진입 장벽을 낮추는 데 기여할 것으로 기대됩니다. 이는 AI 기술의 민주화와 함께, 특정 산업이나 니즈에 특화된 소규모 AI 서비스의 등장을 가속화할 잠재력을 가지고 있습니다.