'PoC는 끝났는데, ROI를 어떻게 보고하지'
지난달 한 제조 중견기업 임원과의 회의실. 화이트보드에는 6개월 전 시작한 AI 품질 검사 PoC의 결과 그래프가 붙어 있었습니다. 불량률은 분명 떨어졌습니다. 그런데 임원의 첫 마디는 칭찬이 아니었습니다. "PoC는 끝났는데, ROI를 어떻게 보고하지." 측정 결과가 없는 것이 아니라, 보고할 언어가 없었던 것입니다.
지난 회에서 비용과 기간의 규모감을 다뤘다면, 이번에는 그 다음 질문에 답할 차례입니다. 도입한 다음, 무엇을 어떻게 보아야 하는가.

왜 측정이 그렇게 어려운가
PwC가 2026년 1월 발표한 글로벌 CEO 설문에서 응답자의 56%가 지난 12개월 동안 AI로 매출 증가나 비용 감소를 답하지 못했다고 했습니다. S&P Global 2025 보고서는 더 가혹합니다. AI 프로젝트 대부분을 포기한 기업 비율이 1년 사이 17%에서 42%로 급증했습니다. IBM이 2026년에 발표한 보고서에서는 "의미 있는 ROI"를 달성한 조직이 5%에 불과했습니다.
5%라고 하면 적게 들리지만, 뒤집어 보면 100개 회사 중 95개가 결과를 설명하지 못한다는 뜻입니다. 기술이 부실해서가 아닙니다. 측정 프레임이 없어서입니다. 가트너가 2024년 GenAI 배포 설문에서 짚은 한 가지 — 포괄적 측정 프레임워크를 갖춘 조직은 그렇지 않은 조직에 비해 의미 있는 ROI를 낼 가능성이 3배 높았습니다. 솔직히 말하면, 도입 자체보다 측정 설계가 더 어려운 일입니다.
측정의 네 축 — 재무 하나로 보지 않는다
현장에서 잘 굴러가는 회사들은 ROI를 한 줄짜리 비용 절감 수치로 보지 않습니다. 통상 네 축으로 나눕니다.
1) 재무 효과. 가장 익숙한 축입니다. 인건비 절감액, 처리 건당 단가, 매출 증분이 들어갑니다. 맥킨지 영역별 벤치마크에 따르면 고객 응대 영역은 30~45% 생산성 향상, 공급망·조달은 26~31% 비용 절감, 마케팅 개인화는 5~15% 매출 증대, 금융서비스 KYC/AML은 35~50% 효율 개선이 흔한 범위입니다. 이 수치는 어디까지나 업계 사례 평균이고, 자사 baseline과 비교하지 않으면 무의미합니다.
2) 직원 경험. 측정에서 자주 빠지는 축입니다. 단순 반복 업무에 쓰이던 시간이 줄어들면, 그만큼 무엇으로 대체되었는가. 팀 내 AI 도구 활용률, 도구 사용 후 직원 만족도, 이직률 변동까지 봅니다. 정량은 활용률, 정성은 분기별 짧은 인터뷰가 짝을 이룹니다.
3) 고객 성과. 응답 시간, 1차 해결률, NPS, 재구매율. AI 챗봇을 도입했는데 응답 시간만 빨라지고 1차 해결률이 그대로면, 단순히 사람의 일이 줄어든 것이 아니라 사람에게 떠넘겨진 것일 수도 있습니다.
4) 전략적 확장성. 한 부서에서 검증된 모델·데이터·운영 체계가 다른 부서로 옮겨갔는가. 가장 측정하기 어려운 축이지만, 1~2년차 ROI를 가르는 결정적 변수입니다. 한 번의 PoC를 두 번째 적용으로 옮길 때의 한계비용이 빠르게 떨어지는 회사가 결국 "5%" 안에 들어갑니다.
시점별로 보는 것이 다르다
같은 지표라도 도입 1개월 차에 들이대면 거의 의미가 없습니다. 한국 대기업·중견기업 가이드(삼성SDS, 구글 클라우드 등)에서 공통적으로 권하는 분리는 세 단계입니다.
도입 초반 (~1개월)은 활용 자체에 집중합니다. 누가 얼마나 자주 쓰는가, 학습 곡선은 어떤가, 운영상 사고는 없는가. 이 시기에 매출 영향을 묻는 것은 너무 이릅니다.
안정기 (3개월 전후)에서야 처리 시간·오류율·산출량 같은 정량 지표가 의미를 가집니다. 이 시점이 baseline 대비 첫 비교가 가능한 구간입니다.
확산기 (6개월~)에는 단일 부서 효과를 넘어 인접 부서 적용 속도, 모델·데이터·운영 노하우의 사내 전파력을 봅니다. 시리즈 4회에서 다룬 PoC → 본 운용 로드맵의 마지막 칸이 여기서 채워집니다.
5단계 측정 프로세스
업계에서 자주 인용되는 5단계는 단순합니다. 첫째, baseline 설정. 도입 전 6~8주의 처리 시간·인건 투입·오류율·산출량을 기록해 둡니다. 이 한 단계를 빠뜨려서 ROI가 "느낌"으로만 남는 회사가 의외로 많습니다.
둘째, 측정 기간 정의. 6~12개월이 일반적입니다. 셋째, 정량 지표 추적. 자동화율, 절감 시간, 단가, 정확도. 넷째, 정성 지표 보강. 직원 인터뷰, 고객 피드백, 부서장 평가. 마지막으로 영향 가치 환산입니다. 절감된 시간을 인건 단가로, 줄어든 오류를 클레임 비용으로, 늘어난 응답률을 매출 기여로 변환합니다. 환산 가정은 보고 자료에 그대로 남기는 편이 좋습니다 — 회의실에서 가장 자주 갈리는 지점이 "그 가정 맞나요"이기 때문입니다.
중소기업 ROI 벤치마크 보고에서는 도입 후 3년 누적 평균 ROI가 약 340%, 손익분기점 평균이 8~14개월로 보고됩니다. 단, 같은 자료에서 한 회사는 6개월 만에 회수했고 다른 회사는 2년이 지나도 효과를 못 봤다는 단서가 같이 붙습니다. 평균보다 분포가 중요합니다.
자주 빠지는 함정
측정 설계가 잘못되면 숫자가 있어도 결정에 도움이 안 됩니다. 흔한 함정 두 가지만 짚으면, 첫째는 활동 KPI만 추적하는 경우입니다. "한 달에 몇 번 썼다"는 활용률은 도입 1개월 차의 신호일 뿐, 3개월 차에는 결과 KPI로 옮겨야 합니다. 둘째는 비교군 부재. 베이스라인 없이 도입 후 수치만 들고 "개선됐다"고 말하는 보고서는 임원진을 설득하지 못합니다. 다음 회에서는 측정 결과를 보고도 자주 빠지는 함정 — 흔한 도입 실패 5가지를 짚어 보겠습니다.
시리즈 흐름과 마무리
지금까지 시리즈는 "무엇부터 검토할지(1회)", "우리에게 맞는 영역(2회)", "에이전트 vs 자동화(3회)", "PoC부터 본 운용까지(4회)", "비용·기간 규모감(5회)"을 거쳐 이번 측정 단계까지 왔습니다. 결재자 입장에서 가장 자주 깨지는 지점이 도입 직후의 보고 단계라는 것이 현장에서 본 실감입니다. 한국 기업의 55.7%가 이미 생성형 AI를 활용 중이고 2026년 85%로 전망된다는 CIO Korea 통계를 단순 "붐"으로 흘려 보내지 않으려면, 측정 설계가 반드시 도입 계획서와 같은 페이지에 있어야 합니다.
저희 5years+ AI 자동화 서비스 카탈로그 안에는 도입 후 ROI 측정과 대시보드 구축(S-07 Data Analytics) 영역이 별도로 정리되어 있습니다. 한국·일본 중견·중소기업 대상으로 baseline 설계부터 분기별 임원 보고 포맷까지 함께 진행한 사례가 있고, 자체 사용 중인 ROI 측정 템플릿(엑셀 시트 + KPI 카탈로그)을 무료로 공유 드립니다. 회사 사정에 맞춰 4축 중 어느 축에 무게를 둘지 같이 정리해 드립니다.
ROI 측정 템플릿이 필요하시거나 자사 baseline 설계 단계부터 같이 보고 싶으시면 저희 5years+ 무료 상담으로 문의 주십시오. 다음 회에서는 측정 결과를 들고도 자주 빠지는 함정 — AI 도입 실패 5가지와 회피법을 다룹니다.