자동차 정비소에 가기 전, 내 차의 이상한 소리가 어디서 나는지 궁금했던 적이 있으신가요? 최근 '카디악(cardiag)'이라는 흥미로운 오픈소스 프로젝트가 공개되어 주목받고 있습니다. 이 프로젝트는 인공지능(AI)을 활용해 자동차의 기계적 결함 소리를 분석하고, 문제가 있는 부위와 원인을 진단하는 엔드-투-엔드 오디오-머신러닝(ML) 파이프라인을 제시합니다. 스마트폰으로 녹음한 소리만으로도 차량 이상 유무를 판단하고, 대략적인 고장 위치와 유력 부품 목록을 제공하는 것을 목표로 합니다.
카디악은 크게 네 단계로 작동합니다. 첫째, 유튜브(YouTube)나 틱톡(TikTok) 같은 소셜 미디어에서 자동차 고장음 클립을 수집합니다. 둘째, 수집된 오디오에서 음성, 음악, 배경 소음 등을 제거하고 순수한 기계음만 분리하는 '클리닝(cleaning)' 과정을 거칩니다. 셋째, 정제된 오디오를 CLAP(Contrastive Language-Audio Pretraining) 모델을 통해 512차원 임베딩(embedding)으로 변환합니다. 마지막으로, 이 임베딩을 기반으로 학습된 선형 분류기(linear heads)가 고장 유형, 위치, 부품을 예측합니다. 특히, 이 시스템은 진단이 불확실할 경우 '불확실(uncertain)'이라고 솔직하게 알려주는 '정직한 훈련(honest-training)' 방식을 채택하여 신뢰도를 높였습니다.
이 기술은 일반 사용자가 차량 이상 징후를 조기에 파악하고, 정비사와 소통할 때 더 정확한 정보를 제공하는 데 유용할 수 있습니다. 예를 들어, '어딘가에서 이상한 소리가 나요' 대신 '엔진룸에서 삐걱거리는 소리가 나고, 휠 베어링 문제일 수 있다고 해요'와 같이 구체적인 정보를 전달할 수 있게 됩니다. 또한, 카디악이 제시하는 '클리닝 + 정직한 훈련' 방식은 자동차 진단뿐만 아니라 다른 오디오 데이터셋에도 재활용될 수 있는 잠재력을 가지고 있어, 다양한 분야에서 소리 기반 진단 시스템 개발에 영감을 줄 수 있습니다. 비록 스마트폰 녹음의 한계로 정확도가 문헌상 최고 수준에 미치지는 못하지만, 초기 진단 보조 도구로서의 가치는 충분합니다.