서비스 운영팀이 자랑하는 '평균 응답 시간 100ms'나 '평균 복구 시간(MTTR) 1분 미만' 같은 지표가 실제 사용자의 경험과 동떨어져 느껴질 때가 많습니다. 이는 운영팀이 사건 단위로 평균을 내는 반면, 사용자는 시간 단위로 기다림을 체감하기 때문입니다. 이러한 간극은 '검사 역설(inspection paradox)'이라는 통계적 현상으로 설명되며, 사용자는 긴 지연이나 장애에 더 오래 갇히게 되어 평균 대기 시간을 훨씬 길게 느끼게 됩니다.
예를 들어, 운영팀이 측정한 평균 복구 시간이 1시간을 조금 넘는다고 해도, 고객이 체감하는 평균 복구 시간은 약 6시간에 달할 수 있습니다. 이는 지연 시간 분포의 분산이 클수록 사용자가 체감하는 평균이 운영 지표의 평균보다 훨씬 커지기 때문입니다. 즉, 아주 드물게 발생하는 긴 지연이나 복구 시간이 전체 고객 경험을 지배하게 되며, 단순히 평균값만으로는 이러한 '꼬리 지연(tail latency)'의 심각성을 파악하기 어렵습니다. 심지어 '절단 평균(trimmed mean)'과 같은 지표는 이러한 중요한 꼬리 정보를 버릴 위험이 있어 고객 경험을 왜곡할 수 있습니다.
이러한 사용자 체감과 운영 지표 간의 불일치를 이해하는 것은 고객 만족도를 높이는 데 필수적입니다. 운영팀은 단순히 평균 지표 개선에만 집중할 것이 아니라, 지연 시간 분포의 분산을 줄이고 특히 긴 꼬리 지연을 최소화하는 데 노력을 기울여야 합니다. 이를 통해 사용자가 실제로 느끼는 서비스 품질을 향상시키고, 더 나은 고객 경험을 제공할 수 있을 것입니다. 결국, 지표는 숫자에 불과하며, 그 숫자가 대변하는 '사람의 경험'에 집중하는 것이 중요합니다.