기업은 인공지능(AI)을 통해 능동적이고 효율적으로 IT 사고를 관리하고, 시간을 아끼고, 비용을 절감하며 사용자의 불만 크게 줄일 수 있다.
IT 조직은 현재 자신의 문제를 다뤄내는 데에 문제를 안고 있다. 지금은 불확실성이 팽배한 시기다. 비즈니스 연속성에 대한 새로운 요구와 긴급한 요구가 발생할 때, IT부서는 여전히 수동적인 접근 방식을 사용해 연기가 발생한 곳을 찾는 대신, 발생한 화재를 끄고 있다. 알람이 울린 때에도 문제는 종종 불명확하다. 사고 접수는 IT 부서 근처에서 반송되고, 문제 해결은 늦어지고, 사용자에게는 불만이 쌓인다.
인공 지능을 도입해보자. IT 운영 분야의 AI는 새로운 영역이다. 가장 매력적인 애플리케이션 중 하나는 문제와 사고 관리다. 핵심 아이디어는 데이터를 활용해 실패를 예측하고 (최소한 해결에 걸리는 시간을 단축하고) 지원 티켓을 더 잘 분류하고 근본적인 원인을 정확히 찾아내는 것이다.
BCG의 경험에 비춰보자면, AI는 기업의 IT 지원 비용을 20~30% 줄이는 동시에 사용자 만족도를 높이고 직원에게 시간을 돌려줄 수 있다. 그러나 AI의 모든 이점을 얻는다는 것은 알고리즘을 연결하는 것 이상을 의미한다. 데이터의 가용성과 품질을 보장하고 프로세스와 조직을 변경하는 것 또한 의미한다. 이러한 단계를 놓치면 개선 효과는 20~30%가 아니라 4~7% 수준이 된다.
예측, 해결, 개선
문제와 사고 관리가 이룩한 ROI에 대해 상을 받는 경우는 거의 없다. IT 조직은 일반적으로 예산의 10~15%, 인력의 10~20%를 지원에 할당하지만 사용자 만족도는 낮은 수준에 머문다. IT 직원이 정보를 수집하고 보다 기본적인 문제를 해결하는 시작 단계인 레벨 1 기술 지원은 해당 단계 최고 수준인 해결율 90%에 도달하는 법이 없다. 지원 요청은 문제 해결로 끝나기 보다, 또 다른 이슈의 시작인 경우가 많다. 이슈는 IT 문제 해결 체인의 위로 아래로 움직이다가, 어딘가로 탈선해 버리기도 한다.
지원에 대한 사후적 접근 방식은 비용과 수익 간의 균형을 왜곡할 뿐만 아니라 저울을 기울인다. IT 조직은 종종 사고의 영향이 이미 상당해진 게임 후반부에 문제 해결을 시작한다. 침수된 부엌에 도착한 배관공의 말을 인용하자면 “파이프가 빠졌을 때 전화하셨으면 좋았을 텐데요.”와 같은 상황이다.
저울을 더 한방향으로 기울이는 것은 많은 대부분 지원 요청 티켓의 품질이 좋지 않다는 것이다. 일반적으로 기업은 대부분의 티켓 (대개 80% 이상)을 하드웨어나 메일과 같은 소수의 카테고리로 분류하여 문제의 복잡성을 숨긴다. (보기1 참조) 예를 들어 프린터와 워크 스테이션 문제는 모두 하드웨어 버킷에 있다. 여기서 바로 비효율성이 시작된다. IT팀은 특정 문제와 문제를 해결할 수 있는 최적의 위치에 있는 사람에 집중하는 대신, 티켓을 넘기고, 더 많은 정보를 찾고, 특정 해결책을 시도해본다. 이렇게 해도 문제가 해결되지 않는 경우, 처음부터 다시 시작한다.
잘못된 분류는 또 다른 결과를 가져온다. 별 의미가 없는 버킷에 티켓을 넣으면 사후 분석이 불가능하다. 가장 중요한 문제 해결 영역을 세분화해 식별하는 것도 불가능한다. 큰 버켓 접근 방식은 IT 부서가 진화하는 유지 관리 (일상의 문제를 해결하는 작은 개선 사항)에 가장 효율적인 방법으로 예산을 할당하지 않았을 수 있다는 의미다.
AI는 저울에서 저울 바늘을 기울이는 엄지 손가락을 다양한 방법으로 떼어낸다. 다양한 사용 사례를 통해 IT 부서는 문제를 예측하고, 문제를 보다 효과적으로 해결하고, 지원 관리와 우선 순위 지정 방식을 개선할 수 있다. (보기 2 참조)
어떤 사용 케이스는 다른 사용 케이스보다 더 정교하고 구현하기 복잡하다. 하지만 “모 아니면 도(all-or-nothing)” 식으로 접근할 필요는 없다. AI를 점진적으로 구현해 초기 애플리케이션 웨이브를 통해 가치를 창출하고 동의를 얻은 다음 그 기반을 구축할 수 있다.
지원 티켓 분류
AI는 옵션 선택권과 유연성을 제공한다. 기업은 다양한 방법과 알고리즘을 사용해 다양한 종류의 문제를 해결할 수 있다. 어디서부터 시작해야 할까? 지원 티켓 분류는 AI 향상을 위해 특히 성숙된 영역이라는 사실이 확인됐다. IT 부서가 티켓을 더 정확하게 분류할 수 있다면 티켓 전반의 연결과 패턴을 식별할 수 있다. 이는 새로운 문제 지점을 찾아내고 해결 노력의 우선 순위를 정하는 데 도움이 되는 인사이트다.
보다 좋은 점은 지원 상담원이 발신자의 설명을 입력할 때도 알고리즘이 작동해 실시간으로 분류가 이뤄진다. 즉, 티켓이 반송돼 지연과 불만을 유발하는 대신 적절한 곳으로 즉시 우회될 수 있다.
다음 7가지 사용 케이스는, 완전한 리스트는 아니지만, AI가 지원 티켓을 더 잘 관리하고 활용하는 데 어떤 도움을 주는지 보여준다.
- 지원 티켓 분류 개선(세분화된 분류 활성화 및 관련 티켓 연결)
- 시스템, 사이트, 사용자 클러스터, 기타 기준별로 사고를 분류(다양한 유형 분석이 필요한 경우 티켓 분할)
- 지원 티켓 우선 순위 구분
- 지원 티켓 스마트 리라우팅 활성화(실시간)
- 지원팀 업무량 예측
- 지원 티켓에서 패턴을 감지
- 새로운 문제 감지(이전 사용 케이스에서 식별된 패턴을 사용해 문제가 다시 나타나는 시기나 뭔가 비정상 방식으로 작동하는 시기를 실시간으로 식별).
이러한 일을 어떻게 정확히 수행할 수 있을까? 자연어 처리(NLP)와 기계 학습(machine learning)이라는 두 가지 데이터 과학 기술이 핵심이다.
NLP 알고리즘은 지원 티켓의 일상적인 문장으로 이뤄진 설명을 분석해 주제와 연결성을 식별한다. 이를 통해 티켓을 하위 범주로 분류하고 문제를 가장 적절한 팀에 전달해 해결 속도를 높일 수 있다. (보기3 참조) 또한 공통 키워드와 주제로 연결된 티켓으로 클러스터를 생성할 수 있다. 이를 통해 주의를 기울여야하는 근본적인 문제를 드러낼 수도 있다.
NLP를 기존 및 현행 티켓에 적용하면 매우 구체적인 방식으로 분류하고, 연결되는 사건 기록을 풍성하게 생성할 수 있다. 이후 기계 학습을 사용해 새로운 문제를 미리 파악한 티켓 분류를 식별할 수 있다. 예를 들어, 과거에 특정 보고서 패턴이 워크스테이션 문제와 관련된 티켓의 급격한 증가에 선행했음을 발견했을 수 있다. 이 패턴이 나타나기 시작했을 때 실시간으로 감지할 수 있다면 티켓 피크에 도착하기 훨씬 전에 알람을 울릴 수 있다. 이렇게 하면 문제를 더 일찍 해결할 수 있고, 콜센터 라인에 “해당 이슈에 대해 파악하고 있습니다.”라는 메시지를 표시하는 등 조치를 취해 들어오는 티켓 수를 줄일 수 있다.
사고 예측
AI는 사고 예측에 대한 보다 강력하고 정확한 접근 방식도 지원한다. 기존 IT 부서는 본능과 경험에 의존해 왔다. AI는 데이터에 의존한다. 대부분 기업은 CPU 사용량, 메모리 사용량, 네트워크 대역폭 등 수백 가지 성능 메트릭을 캡처하는 기술 로그를 유지한다. 이 풍부한 정보는 정교한 패턴 인식을 촉진시킬 수 있다.
기본 개념은 회귀 분석, 클러스터링, 의사 결정 트리, 딥 러닝 등을 포함한 기계 학습 알고리즘을 사용해 로그 데이터와 과거 사건 간의 상관 관계를 식별하는 것이다. 이를 통해 이상을 예고하는 신호 패턴을 이해하고 문제가 그 모습을 드러내려 하기 전에 경보를 울린다. 그 결과 사고의 영향을 완화하거나 완전히 예방할 수 있는 예상의 창(30분이든 30시간이든)이 제공된다.
하지만 새로운 유형의 사건은 어떨까? 탐지할 알려진 패턴이 없는 경우 예상의 창을 어떻게 생성하고 이점을 얻을 수 있을까? 대답은 비지도 학습(unsupervised learning)이라 알려진 AI 개념에 있다. 일치시킬 패턴이 없을 때에도 알고리즘은 데이터의 이상을 감지할 수 있다. 말하자면, 뭔가 일반적이지 않다는 것을 발견하고 눈을 크게 뜨는 것과 비슷하다. 비정상적인 데이터가 특정 문제와 연결되어 있지 않기 때문에 프로세스의 정확성이 부족할 수 있지만, 조사가 필요하다는 경고는 울릴 수 있다.
“기업은 AI를 점진적으로 구현해 초기 애플리케이션 웨이브를 통해 가치를 창출하고 동의를 얻은 다음 그 기반을 구축할 수 있다.”
이후에 이와 같은 신규 이벤트를 AI에 다시 공급해 경고 패턴을 식별하고 경보를 생성할 수 있다. 실제로 AI의 흥미로운 사용 케이스 중 하나는 복잡한 사례에 대한 포렌식 분석이다. 신규 이벤트의 근본 원인을 이해하는 알고리즘을 적용해 다음에는 더 빠르게 더 잘 대응할 수 있다.
알고리즘 활성화하기
물론, 세계 최고의 데이터라도 필요한 알고리즘으로 연결되지 않는다면 큰 의미가 없다. 많은 기업에서 데이터는 특정 시스템 내에 저장돼 다른 목적으로 액세스나 사용하기 어렵도록 조직 전체에 흩어져 있다. 바로 이 지점이 과거와 현재의 사건과 성능 정보를 저장하고 통합하기 위한 메커니즘인 ‘데이터 플랫폼’이 그 가치를 입증하는 곳이다.
물론 알고리즘과 기술의 효과는 실행한 만큼만 얻을 수 있다. 지금 스위치를 전환하면 사고 티켓 수는 줄어들고, IT 지원 비용은 4~7% 감소할 수도 있다. 이것도 사소한 것은 아니지만, 이는 쉽게 수확할 수 있는 과일이다. 강력한 데이터 거버넌스를 촉진하는 변경(데이터가 정확하고 일관되며 필요한 알고리즘에서 사용 가능), 역할과 프로세스 조정 (인사이트를 보다 효율적으로 활용), 외부 업체와 협력 방식 최적화(분석을 통해 해야 할 일을 잘 수행하도록 함. 가능성은 낮을 수 있음)과 같이 운영 모델을 변경하면 보다 실질적인 효과를 거둘 수 있다.
이와 같은 조치를 취한다면, 절감액이 급증할 수 있다. 어떤 기업은 프로세스와 팀 효율성을 개선해 추가로 10~14%의 비용을 절감하고 외부 공급 업체 비용 감소를 통해 6~9%의 추가 절감 효과를 얻었습니다. 이제 전체 절감액은 20%에서 30%로 증가했다. 이는 단순히 사용자 만족도 향상 뿐만 아니라 사고 발생 수의 감소를 통해 IT 내부 및 외부의 직원에게 늘어난 업무 시간으로 환원될 수 있다.
올바른 운영 모델이 제공하는 부가 가치는 더이상 새로운 뉴스가 아니다. 인공 지능 작업에서 BCG는 종종 10/20/70 규칙에 대해 이야기한다. AI는 알고리즘이 10%, 기술이 20%, 비즈니스 프로세스 변환이 70%라는 것이다. 최대한의 이점을 얻으려면 알고리즘이 어떤 종류의 인사이트를 생성하는지 이해해야 한다. 그리고 이러한 인사이트를 활용하기 위해 프로세스와 조직에 어떤 변화를 줄 수 있는지 생각해야한다.
예를 들어, 들어오는 티켓이 분석되면 올바른 담당자에게 직접 전달되도록 프로세스를 조정할 수 있다. 각 지원 계층의 책임을 변경해 레벨1의 직원이 문제를 해결하는 데 더 많은 권한을 부여하는 반면, 레벨3(실제 애플리케이션을 담당하는 직원)은 모니터링에 소요되는 시간을 줄일 수 있다(더 많은 가치 있는 활동을 위한 시간 확보). 진화하는 유지 관리의 우선 순위를 지정하기 위해 티켓 분석 결과를 프로세스에 통합하는 것과 같이 덜 중요하지만 여전히 매우 유익한 조정을 수행할 수도 있다. 이를 통해 비용을 보다 효과적으로 할당하고, 비용을 어디에 넣을지에 대한 일반적인 논쟁을 축소하거나 없앨 할 수 있다.
적재적소에 배치하기
사용 케이스의 우선 순위를 지정하는 것으로 AI의 이점을 신속하게 얻을 수 있다. 만약 AI를 어떻게 써야할 지 알고, 관련 데이터에 액세스 할 수 있는 경우라면 단 3개월만에도 가능하다. 전체를 포괄하는 빅뱅 접근 방식이라면 최종적으로 모든 것이 베일을 벗을 때까지 2년까지도 걸릴 수 있다.
“알고리즘과 기술의 이점은 실행한 만큼만 얻을 수 있다. 진정한 효과는 운영 모델까지 변경했을 때 얻을 수 있다.”
그 동안 가치가 높은 사용 케이스의 우선 순위를 높여 AI의 이점을 눈에 띄게 보여준다. 이는 지속적인 노력과 프로세스 및 조직에 필요한 변경을 위한 지원과 자금을 마련하는 데 도움이 된다. 따라서 알고리즘으로 시작해 해결할 수 있는 문제를 결정하는 대신, 고통이 큰 지점부터 시작해 특정 데이터를 사용해 해결할 수 있는 알고리즘을 결정하라
점진적 접근 방식을 사용하면 점진적으로 가치 중심 방식으로 운영 모델을 배포할 수 있다. 사용 케이스와 운영 모델은 병렬적으로 혹은 동기화된 방식으로 개발된다.
이 모든 것이 실제로 어떻게 작동할까? 일반적으로 노력은 세 단계에 나눠진다.
- 시동. 이 초기 단계에서 IT 조직은 불만 사항을 분석하고 사용 사례의 우선 순위를 지정한다. 활용할 수 있는 데이터와 이를 데이터 플랫폼과 통합하는 방법을 식별한다(가용성, 액세스, 정확성을 보장하기 위해 강력한 데이터 거버넌스는 필수다). 동시에 IT 조직은 목표 운영 모델을 정의한다. 이 단계에는 레벨1, 레벨2, 레벨3 지원을 위한 조직 스키마 작성이 포함된다. 주요 프로세스를 정의하고, 현재 소싱 모델을 검토한다.
- 프로토 타입. 다음으로 IT는 첫 번째 사용 케이스에 대한 솔루션 프로토타입 작업을 시작한다. 알고리즘과 새로운 프로세스가 예상대로 작동하는지 확인하기 위해 실제 환경에서 AI를 테스트하는 개념이다.
- 배양 후 산업화. 개념 증명(PoC)을 개발한 후 IT 조직은 솔루션을 자동화하고 잠재력을 완전히 실현하기 위해 AI와 프로세스를 주변으로 확장한다. 첫 번째 사용 케이스가 “산업화”되면서 IT는 다음 단계로 넘어가 프로세스를 반복한다.
데이터 플랫폼은 사용 케이스를 출시하는 데 핵심적인 역할을 한다. 데이터 플랫폼이 존재하지 않는 경우, 이를 배포하는 것은 쉬운 일이 아니다. 그러나 데이터 플랫폼은 특정 사용 케이스에 필요한 것을 우선 구축하고 후속 사용 케이스가 있을 때 마다 더 구축하는 점진적 방식으로 개발할 수도 있다. 이러한 플랫폼의 이점은 AI 사용 이외의 경우에서도 거둘 수 있다. 데이터 중심의 의사 결정은 이제 성장을 위한 핵심요소 이므로 통합되고 확장 가능한 데이터 아키텍처가 모든 회사의 할 일 목록에 포함돼야 한다.