핵심 내용 요약
많은 기업에서 대부분 수작업으로 이루어지는 지루한 데이터 거버넌스 작업은 이미 골칫거리이다. 생성형 AI는 그 부담을 가중하는 것처럼 보이지만, 현명하게 적용된다면 오히려 부담을 줄여줄 수도 있다.
- 생성형 AI 알고리즘은 이미지와 프로그래밍 코드 등 방대한 양의 비정형 데이터를 학습한다. 이 데이터의 품질과 적절한 사용을 보장하기 위해서는 기존의 데이터 관리 프로세스를 능가하는 역량이 필요하다.
- 스마트한 기업이라면 생성형 AI의 콘텐츠 생성 및 해석 능력을 활용해 이 문제를 해결할 수 있다. 현명하게만 사용된다면, 생성형 AI는 수많은 데이터 관리 작업을 자동화해 효율적이라는 수식어가 붙기 힘들었던 이 작업에 드디어 효율성을 가져올 수 있다.
- 데이터 관리와 관련한 생성형 AI의 주요 사용 사례들로는 메타 데이터 라벨 생성, 계보 정보 주석 생성, 데이터 품질 강화, 데이터 정제 개선, 정책 준수 관리, 데이터 익명화 등이 있다.
생성형 AI는 많은 기업의 화두이며 CDO(Chief Data Officer)가 이 화두를 행동에 옮길 것이라고 예상된다. 혁신적인 콘텐츠 생성 알고리즘을 갖춘 이 새로운 기술은 데이터를 가치로 전환하는 CDO가 담당하기에 가장 적합하기 때문이다. 그러나 이에 따라 데이터 거버넌스와 관리의 기존 모델이 요주의 대상이 되고 있다.
그 이유는 생성형 AI가 텍스트, 동영상, 오디오, 프로그래밍 코드와 같은 방대한 양의 비정형 데이터를 학습함으로써 콘텐츠를 생성하는 방법을 배우기 때문이다. 이런 종류의 자료를 분류하거나 평가한 경험이 있는 기업들은 거의 없다. 게다가, 데이터 거버넌스는 효율적, 효과적이라는 수식어와는 거리가 멀다. 많은 기업에 이 작업은 대부분 수작업으로 이루어지는 지루한 과정이기 때문에 골칫거리이며, 특히 규제가 심하거나 개인 식별 정보의 양이 방대한 산업에서는 심각한 문제가 된다. 기업들은 너무 많지만, 여전히 충분하지 않은 인력을 이 작업에 투입하고 있다.
간단히 말해서 생성형 AI는 이미 골칫거리인 프로세스를 더 어렵게 만든다.
이 딜레마를 해결하는 것은 모든 CDO의 최우선 과제 목록에 포함되어야 (아직 포함되지 않았다면) 한다. 업종을 막론하고, 모든 기업이 생성형 AI를 이용해 고객 서비스와 개인 맞춤화를 강화하고, 기존의 수작업 프로세스를 자동화하며, 더 다양한 방식으로 가치를 창출하고 있다. 하지만 데이터 전략, 정책, 역량을 적절히 수정하지 않는다면, 기업은 홉슨의 선택(Hobson’s choice)에 직면하게 될 것이다. 즉, 모든 새로운 학습 데이터가 품질, 무결성, 보안, 책임 있는 사용에 대한 기준을 통과하려면 결국 더 많은 수작업이라는 수렁에 빠질 수 있다. 혹은 거버넌스 없이 계속 추진하면서 그로 인한 결과, 즉 최고경영진이 생성형 AI와 그 잠재적 가치에서 손을 떼게 되는 리스크를 감수해야 한다.
하지만, 여기 반전이자 희망의 빛이 있다. 데이터 거버넌스의 부담을 가중하는 이 기술이 오히려 부담을 경감시킬 수도 있다. 실제로 생성형 AI는 지루한 수작업의 고통을 줄여주는 것을 넘어 거의 제거할 수 있다. 생성형 AI는 콘텐츠를 생성하고 해석한다. 다시 말해, 주요 데이터 관리 작업을 강화하거나 자동화할 수 있다. 예를 들어, 개인 정보나 지식재산권이 우려되는 데이터의 라벨링을 통해 부적절한 사용을 방지할 수 있다. 데이터 관리에 마침내 효율성이 생긴다면, 생성형 AI는 스스로 획기적인 기술임을 다시 한번 입증하게 될 것이다.
생성형 AI를 데이터 거버넌스와 관리 프로세스에 적용하면, 기업은 부담을 없애고 기회를 얻을 수 있다. 또한 알고리즘이 수작업을 처리하기 때문에 데이터 전문가들은 더 많은 시간을 부가가치 창출 업무에 투자할 수 있어 비즈니스 성장 기회를 더 많이 창출할 수 있다.
비정형 데이터 문제
데이터의 확보, 저장, 사용 및 품질과 무결성에 대한 규칙을 말하는 데이터 거버넌스는 데이터에 대한 신뢰를 구축하는 작업이다. 데이터 관리는 이 규칙을 실행함으로써 조직이 데이터의 위치와 출처를 알고, 적절한 목적에 대해 적임자에게 데이터에 접근 권한을 제공하며, 데이터 활용 방식에 영향을 미칠 수 있는 개인 정보 및 규제와 관련한 이슈를 인지할 수 있도록 해 준다.
생성형 AI를 데이터 거버넌스와 관리 프로세스에 적용하면, 기업은 부담은 없애고 기회를 얻을 수 있다.
기업마다 데이터 거버넌스와 관리에 다양한 접근법을 취하지만, 오랫동안 변함없는 한 가지 요소가 있다. 바로 정형 데이터이다. 데이터베이스 내에 표준화된 형태로 저장되는 정형 데이터는 쉽게 라벨링되고 분류되므로 기업들은 데이터의 주요 특징 및 사용 가능 혹은 불가능 여부를 쉽게 파악할 수 있다. 데이터 계보, 출처 추적 가능성, 품질 보장, 개인 식별 정보 플래그 혹은 기타 우려 사항 등이 모두 기록된다.
하지만 일반적으로 생성형 AI의 연료인 비정형 데이터는, 데이터베이스 내에 깔끔하게 라벨링되거나 분류되어 저장돼 있지 않다. 비정형 데이터에는 이메일, 워드(Word) 문서, 유튜브(YouTube) 동영상, 컴퓨터 게임 대화 등 모든 것이 포함된다. 기업은 데이터를 보유하고 있을 수는 있지만 데이터를 누가, 어떻게, 사용할 수 있는지 없는지에 관해서는 인사이트가 거의 없을 가능성이 높다.
생성형 AI 모델은 약간의 비정형 데이터를 사용하는 것이 아니다. 어마어마한 양의 데이터를 사용한다. 그리고 데이터 라벨링, 분류, 데이터 품질 보장 프로세스는 대부분 수작업이다. 기업들은 백지에서 시작할 필요는 없을 수도 있다. 예를 들어, 내부 사용 문서에 대해서는 데이터 관리 관행을 적용해 왔을 가능성이 높다. 하지만, 여전히 이 모든 데이터를 이해하고 고객 중심 프로세스와 가치 흐름에 있어 데이터의 품질과 적절한 사용을 보장해야 하는 엄청난 과제에 직면해 있다.
또한 특히 데이터 수정과 관련해 리스크에 직면해 있다. 방대한 비정형 정보에 수작업 프로세스를 적용하는 기업은 데이터 오류와 불일치를 수정하는 데 있어 빠르게 뒤처질 것이다. 이는 모든 기업에 우려 사항이지만 특히 규제를 받는 대형 기업에는 더욱 심각한 문제이다.
스스로 문제를 해결하는 생성형 AI
상황이 꼭 이렇게 될 필요는 없다. 비정형 데이터에 대한 친화력과 콘텐츠 생성 능력이 주요 특징인 생성형 AI는 자연스럽게 데이터 관리의 효율성과 효과성을 강화해 주는 도구가 된다. BCG 경험을 기반으로 한 6가지 데이터 관리의 주요 생성형 AI 사용 사례는 다음과 같다.
[1] 메타 데이터 라벨 생성
데이터 거버넌스와 관리에 있어 생성형 AI의 ‘킬러앱’이 있다면 바로 비정형 데이터에 대한 세부 설명, 즉 메타 데이터를 생성하는 능력이다. 이 라벨에는 데이터 출처, 해당 사용 권한, 콘텐츠와 다른 데이터의 연관성 등 세부 내용이 상세히 표시된다. 메타 데이터를 통해 기업들은 해당 규제, 제약, 혹은 정책을 준수하면서 책임 있는 방식으로 적절한 맥락에서 적절한 데이터에 대해 알고리즘을 학습할 수 있다.
[2] 계보 정보 주석 작성
기업 IT 환경에서, 시스템 간 계보 데이터를 확보하고 유지하는 것은 일반적으로 복잡하고 많은 시간이 소요되는 작업이다. 생성형 AI를 이용하면 코드 파싱(code-parsing) 기법과 계보 데이터의 초안 생성을 통해 이 프로세스를 가속할 수 있다. 데이터 거버넌스 팀은 계보 정보를 수작업으로 생성하지 않고 생성형 AI의 산출물을 검증만 하면 되므로 시간을 더욱 효율적으로 사용할 수 있다.
[3] 데이터 품질 강화
데이터 수정은 보통 노동 집약적 프로세스이며 조직 내 데이터 관행과 품질이 다양할 경우(실제로 대부분이 다양함) 더 복잡해진다. 생성형 AI 모델은 중복 기록 제거, 데이터 포맷/유형/값 표준화, 데이터값 결함 수정 등 많은 핵심 작업을 가속하고 나아가 자동화할 수 있다.
[4] 데이터 정제 개선
기업은 알고리즘이 신뢰할 수 있는 일관된 결과물을 제공할 수 있도록 생성형 AI를 이용해 누락된 학습 데이터를 합성하고, 의미가 없거나, 손상됐거나, 사용할 수 없는 데이터인 ‘노이즈‘를 제거할 수 있다. 약간의 학습과 프롬프트 엔지니어링(생성형 AI 모델로부터 최적의 출력을 유도하는 입력 혹은 프롬프트의 생성)을 통해, 생성형 AI는 데이터 이상값을 수정하는 코드를 생성할 수 있고 이 업무를 담당하는 팀의 부담을 덜어준다.
[5] 정책 준수 관리
기업은 생성형 AI를 이용한 지식 기반, 준수 여부 검토, 행동 권고안을 통해 데이터 정책의 인식 및 준수를 촉진할 수 있다. 또한 챗봇을 활용함으로써 직원들이 정책을 검토할 수 있는 쌍방향의 대화형 수단을 제공하고 이를 비정기적 지원 및 교육의 대안으로 활용할 수 있다.
[6] 데이터 익명화
생성형 AI는 민감하거나 개인 식별이 가능한 정보를 포함하는 데이터를 변환시킬 수 있다. 이에 따라 기업은 데이터의 유용성과 무결성을 유지하는 동시에 기밀성과 개인 정보 보호를 보장함으로써 리스크 및 규정 준수를 강화할 수 있다.
이 같은 사용사례들은 데이터 담당자(data steward)와 데이터 관리자(data custodian)에 특히 큰 영향을 미칠 것이다. 데이터 품질을 보장하고 데이터 신뢰를 촉진하는 역할을 맡은 이 팀들은 많은 시간을 반복적인 수작업 활동에 할애하고 있다. 생성형 AI가 이 작업을 보강해 준다면, 데이터 담당자와 관리자들은 주의와 역량을 보다 복잡하고 전략적이며 부가가치를 창출할 수 있는 작업에 집중할 수 있을 것이다.
어떻게 시작할 것인가
CDO에게 두 가지 접근 방식을 취할 것을 권고한다. 첫째, 생성형 AI의 비즈니스 사용 사례를 위해 데이터 아키텍처, 데이터 플랫폼 역량, 데이터 라이프 사이클 관리(데이터 조달에서 운영을 위한 알고리즘 준비에 이르기까지 모든 것을 포함) 등 데이터 기반을 준비한다. 둘째, 생성형 AI를 기업의 데이터 거버넌스 및 관리 프로세스에 통합시킨다.
비정형 데이터에 대한 친화력 및 콘텐츠 생성 능력으로 인해 생성형 AI는 자연스럽게 데이터 관리의 효율성과 효과성을 강화해 주는 도구가 된다.
여정의 구체적인 전개는 기업에 따라 다르겠지만, 일반적으로 세 가지 로드맵을 생각해 볼 수 있다. 어떤 로드맵을 선택할지는 기업의 현재 디지털 성숙도, 즉 기업이 디지털 패시브(digital passive, 디지털 및 데이터 기반의 성숙도가 여전히 낮은 수준인 기업)인지, 디지털 리터리트(digital literate, 디지털 변혁 추진 중에 있으며 아직 디지털 기반을 완전히 구축하거나 사용 사례를 엔터프라이즈급 규모로 시작하지는 못한 기업)인지, 혹은 디지털 퍼포머(digital performer, 전사적 데이터 및 디지털 플랫폼을 갖추고 사용 사례를 대규모로 구현하는 기업)인지에 따라 달라진다.
[1] 디지털 패시브(Digital Passive)
이 기업들은 핵심 역량과 전략을 개발해 데이터 기반 디지털 전환을 추진하기 위해 데이터 기반 구축에 주력해야 한다. 이 노력은 기존 데이터 역량 평가에서 출발한다. 데이터는 비즈니스 기능을 어떻게 지원하고 있나? 데이터가 가치를 창출할 수 있는 다른 영역은 어디인가? 주요 데이터 자산의 식별, 라벨링, 정제와 같은 기본 요소 중 어느 것에 주의를 기울여야 하는가? 이와 같은 분석을 통해 기업은 데이터 활용의 현황을 이해하고 지향하는 바를 판단할 수 있다. 이는 최적의 데이터 아키텍처 구축, 데이터 거버넌스 및 관리 역량 강화, 사용 사례 우선순위 결정 등 총체적인 데이터 전략 수립의 지침이 된다.
이 전략의 가장 큰 장점은 기업들이 모든 것을 한 번에 추진하려다 실패하는 대신, 가장 중요한 것에 집중하면서 꾸준히 역량을 키워나갈 수 있다는 점이다. 하지만 데이터 기반을 구축하는 동시에, 기업은 내부 업무를 개선하기 위해 생성형 AI를 어떻게 사용할지 고민해야 한다. 생성형 AI를 데이터 거버넌스와 관리에 도입하면 이 프로세스가 더 효율적이 될 뿐 아니라 향후 생성형 AI를 더 광범위하게 활용할 수 있는 초석이 마련되며 기업이 비즈니스 사용 사례 개발에 필요한 인재를 파악하는데 도움이 된다.
[2] 디지털 리터리트(Digital Literate)
이 그룹의 기업들은 AI 기술 조기 진출 및 고급 분석 기술을 지원할 만큼 탄탄한 데이터 기반을 갖추고 있다. 이제 해야 할 일은 생성형 AI 사용 사례를 지원하기 위한 역량을 확대하는 것이다. 이를 위해, CDO는 POC(proof-of-concept, 개념 증명) 이니셔티브를 추진해 생성형 AI를 이용해 데이터 거버넌스와 관리가 얻을 수 있는 가치를 검토하고 입증해야 한다. POC 추진을 통해 기업은 기존 프로세스와 업무 흐름을 중단하지 않고도 기술을 테스트하고 사용 사례를 검증할 수 있다.
실현 가능성과 가치 창출 잠재력에 대한 초기 검토를 기반으로 1~3개의 POC에서 시작하는 것을 권고한다. 각 이니셔티브에 대해 CDO는 기술 및 인재 요건뿐 아니라 리스크 및 규정 준수에 미치는 영향이 포함된 청사진을 작성해야 한다. 파일럿 프로그램을 통해 얻은 교훈을 바탕으로 기업들은 각 POC의 비즈니스 사례를 구체화하고, 이니셔티브 확장 순서를 최적화(결과가 좋지 않은 POC 중단 등)하고, 인재 및 역량 요건을 더 잘 이해하고 계획하며, 확장에 따른 장애물이나 병목현상을 해결할 수 있다.
[3] 디지털 퍼포머(Digital Performer)
이미 성공적인 AI 사용 사례를 경험한 기업들은 생성형 AI를 비즈니스에 통합할 준비가 되어 있다. 디지털 리터리트 기업들과 마찬가지로, 이 기업들은 생성형 AI를 이용해 근본적인 데이터 역량을 개선하고, POC를 추진하고, 파일럿을 통해 얻은 인사이트를 활용해 대규모 활용을 계획하고 조정하는 방법을 고민해야 한다. 하지만 높은 수준의 디지털 성숙도 덕분에 이 그룹은 더 빠르고 대담하게 움직일 수 있는 위치에 있다. 핵심은 데이터 과학자, AI 개발자, 데이터 거버넌스 전문가로 구성된 애자일 팀을 구성하고 활용하는 것이다.
디지털 퍼포머 기업들은 이미 애자일 역량이 뛰어날 가능성이 높으므로 그 구조와 방법론을 생성형 AI에 적용하는 과정 역시 비교적 큰 어려움은 없을 것이다. 애자일 팀원들은 함께 일하면서 비정형 데이터(스캔된 이미지나 이메일 등)를 활용해 비즈니스 가치를 창출할 가능성을 평가할 수 있다. 그 후 기준을 통과한 생성형 AI 사용 사례를 효율적이고 협력적인 방식으로 구현할 수 있다.
가치 극대화
기업이 어떤 경로를 택하든 그 여정을 가속할 수 있는 몇 가지 훌륭한 실천 방안이 있다. 첫째, 가치와 영향력을 기준으로 노력의 우선순위를 선택하라. 파일럿 프로그램은 비즈니스 사례를 입증하거나 중단함으로써 올바른 순서를 정할 수 있는 좋은 방법이다. 다음으로, 개인 정보 보호 및 책임 있는 AI를 특히 강조하는 강력한 변화 관리 및 리스크 관리를 통해 규모 확장을 지원하라. 이를 제대로 실행하는 조직에서는 새로운 리스크와 우려에 노출되지 않고, 사용자와 비즈니스가 생성형 AI 기반 솔루션을 최대한 활용할 수 있을 것이다.
데이터 성숙도에 상관없이 모든 기업이 규제를 준수하는 책임 있는 AI 사용을 담당하는 AI 윤리 책임자를 임명해야 한다. 또한 이 책임자는 조직이 필요로 하는 추가적인 윤리 AI 전문가를 합류시키거나 지원할 수 있다. 책임 있는 AI의 중요성은 아무리 강조해도 지나치지 않다. 책임 있는 AI는 피해 가능성을 감소시킬 뿐 아니라 신뢰를 강화하고, AI 시스템의 성능을 개선하며 가치 창출을 촉진한다.
생성형 AI는 새롭게 떠오르는 기술이기 때문에 나열할 만한 긴 실적은 아직 부족하다. 하지만 상황이 전개되는 것을 관망할 시간은 없다. 생성형 AI는 R&D에서 고객 지원에 이르기까지 모든 것을 변혁시킬 잠재력이 있다. 그 잠재력을 실현하기 위해, CDO는 지금 당장 행동해야 한다. 생성형 AI로 인해 데이터 거버넌스와 데이터 관리에 가해질 부담을 예측하고 이를 줄이기 위해 움직여야 한다.
다행히, 생성형 AI는 스스로를 강화하는 최고의 인에이블러(enabler)이다. 생성형 AI를 이용해 중요한 데이터 프로세스를 자동화함으로써, 기업은 생성형 AI라는 기술과 그로 인한 가능성을 촉진하는 기반을 마련할 수 있다. 생성형 AI는 콘텐츠만 생성하는 것이 아니다. 제대로 준비만 한다면, 경쟁 우위도 창출할 수 있다.