Home BCG X (Digital & AI)

BCG X (Digital & AI)

생성형 AI의 두 얼굴 ― 기회 혹은 함정?

2023/10/17

생성형 AI는 성공적으로 생성형 AI를 도입하는 기업에 강력한 경쟁우위를 제공하는 원동력이 될 것이다. BCG는 관련된 최초의 실험을 통해 생성형 AI가 적절하게 사용될 경우, 그 역량은 AI를 활용한 결과물의 품질을 개선하려는 사람들의 노력이 역효과를 낼 수 있을 정도임을 발견했다. 하지만 새로운 기술이 적합한지 아닌지는 분명하지 않으며, 이 도구의 설득력 때문에 적합하지 않은 경우를 찾아내는 것은 쉬운 일이 아니다. 이는 심각한 결과를 초래할 수 있다. 생성형 AI가 잘못된 방식으로, 잘못된 작업에 사용된다면 생성형 AI는 심각한 가치 파괴로 이어질 수도 있다.

BCG는 하버드 비즈니스 스쿨(Harvard Business School), MIT 슬론 경영대학원(MIT Sloan School of Management), 펜실베니아 대학교 와튼 스쿨(Wharton School at the University of Pennsylvania), 워릭 대학교(University of Warwick) 등 학계 지원으로 실험을 진행했다. 전 세계에서 750명이 넘는 BCG 컨설턴트를 피실험자로 한 이번 연구는 직원들의 일상적인 업무를 반영하는 과제를 통해 전문 서비스 환경에서 생성형 AI 사용을 테스트하는 최초의 연구이다. 연구 결과는 산업 전반에 의미심장한 시사점을 제시한다.

성과를 개선할 수 있는 가능성은 놀라운 수준이었다. 생성형 AI(이번 실험의 경우 오픈AI(OpenAI)의 GPT-4)를 사용할 경우, 아이디어 도출과 콘텐츠 생성 등 창의적인 제품 혁신 과제에서 참가자 중 약 90%의 성과가 개선됐다. 그뿐만 아니라 GPT-4를 사용하지 않고 동일한 작업을 수행한 사람들에 비해 성과 수준이 40% 더 높았다. 사람들이 AI 기술로 생성된 결과물을 개선하려고 시도하지 않았을 때 그 장점이 더 뚜렷하게 나타났다.

창의적 아이디어 도출은 현재 생성형 AI 역량 내의 영역으로 확고히 자리 잡고 있다. 설문조사 참가자들이 이 영역에 속하지 않은 역량인 비즈니스 문제 해결을 위해 생성형 AI 기술을 사용할 경우에는, GPT-4를 사용하지 않고 과제를 수행한 사람들에 비해 23% 낮은 성과를 보였다. 또한 심지어 생성형 AI가 잘못된 답을 도출할 가능성에 대해 경고받은 참가자들도 그 결과물을 의심하지 않았다.

GPT-4를 현재 역량 영역 내에서 사용할 경우 거의 모든 참가자의 성과가 개선됐다. 이 영역 외의 과제에 GPT-4를 사용하는 사람들은 이 도구를 사용하지 않은 사람들보다 저조한 성과를 보였다.

설문조사 결과는 역설적이다. 사람들은 이 기술이 막대한 가치를 창출할 수 있는 분야에서는 불신하고 이 기술이 경쟁력이 없는 분야에서는 오히려 너무 과신하는 것처럼 보인다. 이 자체만으로도 매우 우려스러운 현상이다. 조직이 이런 역설적인 현상을 변화시킨다 해도 리더들이 주의해야 하는 다른 잠재적 함정도 존재한다. 이번 연구조사에 따르면 이 기술로 인해 도출된 상대적으로 획일적인 결과물은 그룹의 사고방식 다양성을 41% 감소시킬 수 있다.

이번 연구를 통해 밝혀낸 효과의 정도는 상황에 따라 달라질 수 있다. 하지만 이 연구 결과는 산업 전반의 리더들에게 의사결정의 중요성을 강조한다. 리더는 조직이 하는 업무, 생성형 AI를 통해 도움을 받을 수 있는 업무, 혹은 피해를 볼 수 있는 업무에 대해 비판적으로 고민해야 한다. AI 도입에 대해 데이터 인프라, 철저한 테스트 및 실험, 기존 인재전략의 혁신을 포괄하는 변화관리 노력의 일환으로 접근해야 한다. 무엇보다 중요한 것은 생성형 AI의 역량 영역이 발전함에 따라 리더들이 지속해서 의사결정을 재검토해야 한다는 점이다.

새로운 기술의 가치

이번 연구 결과는 생성형 AI 도입이 양날의 검이라는 사실을 확실히 보여준다. 실험에서 창의적 제품 혁신에 GPT-4를 사용하는 참가자들은 대조군(GPT-4를 사용하지 않고 과제를 완료한 참가자들)보다 40% 더 좋은 성과를 기록했다. 하지만 비즈니스 문제 해결에 있어서는, GPT-4를 사용한 참가자들이 대조군보다 23% 낮은 성과를 보였다.(보기1 참조)

창의적 제품 혁신 과제에서는 참가자들에게 신제품 아이디어와 출시계획 도출을 요청했다. 비즈니스 문제해결 과제에서는 참가자들에게 성과 데이터와 경영진 인터뷰를 바탕으로 회사의 문제점에 대한 근본원인 규명을 요청했다. (‘실험설계 및 방법론’ 참조) 직관적으로 예상했던 것과는 반대로, 현재의 생성형 AI 모델은 첫 번째 유형의 과제에서 더 좋은 성과를 나타냈다. LLM에는 방대한 양의 학습된 데이터를 기반으로 창의적이거나, 새롭거나, 유용한 아이디어를 도출하는 것이 더 쉬운 과제이다. 오류의 여지가 있는 분야는 LLM이 미묘한 질적 데이터와 양적 데이터를 평가해 복잡한 문제를 대답하도록 하는 것이다. 이런 약점이 있기 때문에, BCG 연구자들은 참가자들이 비즈니스 문제해결 과제(이 과제에는 ‘정답’이 있었음)를 해결하려고 할 때 자신의 판단이 아니라 생성형 AI에만 전적으로 의존한다면, GPT-4로 인해 잘못된 결과가 도출될 가능성이 있음을 알고 있었다.

실험 설계 및 방법론

전 세계에서 총 758명의 BCG 고객 대면 컨설팅 업무를 수행하는 주니어 컨설턴트가 이 실험에 자원했으며, 모두 최소 학사학위 이상을 소지하고 평균 약 4년의 실무경력이 있다. 본 보고서와 학술 논문에서 제시된 모든 결과물은 성별, 학력, 영어 유창성, 지역, 과거 생성형 AI 경험, 생성형 AI에 대한 관점, 자술한 성격 특성 등 사회과학에서 일반적으로 사용되는 20개 이상의 요인을 통제해서 얻은 결과이다.

과제 설계

본 실험은 2개의 과제 세트로 설계됐으며 각 과제는 별도의 참가자 그룹이 완수했다.

첫 번째 세트는 창의적인 제품 혁신에 중점을 뒀다. 참가자들은 미충족 니즈를 해결하기 위한 신제품 아이디어를 브레인스토밍하고, 각각에 대해 비즈니스 사례를 도출하며, 테스트 및 출시 계획을 수립하고, 아이디어의 채택을 다른 사람들에게 설득하기 위한 문서를 작성해야 했다. 다음은 참가자들이 답해야 했던 몇 가지 질문들이다.

당신은 신발 회사의 신제품 개발 부서에서 일하고 있다. 배제된 특정 시장이나 스포츠 부문을 겨냥한 새로운 신발에 대한 아이디어를 도출하라. 창의적으로 최소 10개 이상의 아이디어를 제시하라.
제품 출시에 필요한 단계의 목록을 작성하라. 간결하지만 포괄적이어야 한다.
지식을 총동원해 사용자별 신발 시장을 분류하라. 목표로 하는 세그먼트별 마케팅 슬로건을 개발하라.
마케팅 슬로건이 관련 세그먼트의 고객들에게 효과가 있는지 테스트할 수 있는 세 가지 방법을 제안하라.
제품의 보도자료를 위한 마케팅 문구를 작성하라.

두 번째 세트는 비즈니스 문제 해결에 초점을 맞췄다. 참가자들은 가상회사의 경영진 인터뷰와 과거의 비즈니스 실적 데이터를 바탕으로 매출과 수익을 최적화하기 위한 (가상)회사의 판매채널과 브랜드를 파악해야 했다. 다음은 참가자들이 답해야 했던 몇 가지 질문들이다.

클레딩(Kleding)(가상 회사)의 CEO인 해롤드 반 뮬더스(Harold Van Muylders)는 회사의 3개 브랜드(클레딩 맨(Kleding Man), 클레딩 우먼(Kleding Woman), 클레딩 키즈(Kleding Kids)의 실적을 제대로 이해함으로써 보다 중요한 이슈를 찾아내고자 한다. 첨부된 회사 내부자 인터뷰를 확인하라. 첨부된 엑셀 시트는 브랜드별로 세분된 재무 데이터를 제공한다.
- 이 정보를 이용해 CEO가 회사의 매출 성장을 증대하기 위해 하나의 브랜드에 집중하고 투자해야 한다면, 어떤 브랜드를 선택해야 하는가? 이 선택의 근거는 무엇인가? 본인의 의견을 뒷받침하기 위해 데이터 그리고/혹은 인터뷰 내용을 활용하라.

이 두 세트의 과제는 의도적으로 참가자들이 경영 컨설턴트로서 수행하는 업무와 어느 정도 유사하게 고안됐다.

창의적 제품 혁신 과제는 GPT-4의 역량 영역 내에 있는 창의성, 수정, 설득력 있는 글쓰기 등과 관련됐기 때문에 LLM으로서의 강점을 발휘할 수 있도록 설계됐다. 비즈니스 문제 해결 과제는 노골적으로 GPT-4가 완수하기 어렵게 설계됐다. 정답이 분명한 이 과제는 GPT-4의 첫 번째 검토에서 오답을 낼 정도로 복잡하게 설계됐다. 참가자들은 자신의 판단에 따라 질문과 제공된 데이터의 미묘한 의미를 알아채거나 GPT-4가 이 문제를 ‘곰곰이 생각‘하도록 프롬프팅함으로써 비즈니스 문제 해결 과제를 풀 수 있다.

기본 숙련도 측정

실험 과제를 시도하기에 앞서, 모든 참가자는 AI 도구를 사용하지 않고 기본 과제를 풀었다. 이 과제는 난이도와 테스트하는 기술 측면에서 실험 과제와 매우 유사하게 설계됐다.

이 기본 과제의 성과를 동일한 채점 기준(아래 참조)으로 평가함으로써, 특정 과제 유형에 대한 각 참가자의 기본 숙련도를 파악할 수 있다. 그 후 이를 통해 GPT-4가 기본 숙련도가 서로 다른 다양한 개인들의 상대적 성과에 어떤 영향을 미쳤는지 알 수 있었다.

채점 기준표

각 과제 세트는 고유한 채점 기준표가 있다.

창의적인 제품 혁신의 경우, 참가자들은 창의성, 설득력 있는 글쓰기, 분석적 사고, 전반적인 글쓰기 기술의 4개 요인에 대해 1에서 10점 기준으로 평가받았다. 전체 성과는 4개 요인의 평균으로 산정됐다.

비즈니스 문제 해결의 경우, 참가자들은 응답의 정확도(즉, 가상회사의 매출이나 이익 증대 가능성이 가장 높은 것은 어떤 채널 혹은 브랜드인지)로 점수가 매겨졌다. 성과는 정답 혹은 오답의 이분법적인 등급으로 평가됐다.

실험 처치 설계

본 실험에 참여한 758명은 모두 주요 인구통계학적 변수를 통제한 채 두 개의 과제 세트(창의적 제품 혁신 혹은 비즈니스 문제 해결) 중 하나를 무작위로 배정받았다. 그 후 각 과제 세트 내에서, 참가자들은 다시 한번 무작위로 세 그룹으로 나뉜다.

A그룹: GPT-4 사용 모범사례를 30분간 교육(교육에 대해서는 사이드바 참조)받은 후 GPT-4를 사용해 과제를 해결한 그룹
B그룹: 교육 없이 GPT-4를 사용해 과제를 해결한 그룹
C그룹: GPT-4를 사용하지 않고 과제를 해결한 그룹(대조군)

그룹으로 분류된 후, 참가자들은 두 가지 과제를 완수해야 했다. GPT-4를 사용하지 않고 모두가 수행하는 기본 과제 그리고 A그룹과 B그룹은 GPT-4를 사용해 완수하고, C그룹은 GPT-4를 사용하지 않고 완수하는 실험 과제이다. 결국, GPT-4에 접근할 수 있는 A그룹과 B 그룹 참가자의 99%가 실제로 이 도구를 사용해 과제를 완료했다.

인센티브 구조

이 실험의 핵심은 비즈니스 전문가가 수행하는 실제 과제와 얼마나 유사한지다. 이 실험을 통해 참가자들이 실제 행동하는 방식을 최대한 포착하기 위해 참가자들이 이 각 과제 해결을 위해 최선을 다하도록 유도할 수 있는 인센티브 구조를 구축했다.

이를 위해 이 실험의 참가 내용이 2년마다 실시되는 성과평가에 기록됐다. 이 실험의 성공은 기록됐고 결과적으로 참가자의 연간 성과 보너스에 반영됐다. 또한, 상위 20% 성과자들은 관리자에게 별도로 통보돼 고성과에 대한 추가 인센티브를 부여했다.

채점 방법론

기본 과제와 실험 과제 모두에 대해 참가자들의 결과물은 사람이 채점한다. (BCG 컨설턴트와 학술과제 채점 경험이 있는 경영대학원생들로 구성된) 채점자들은 ‘블라인드’ 방식으로 점수를 매기는데, 즉 결과물에 대해 GPT-4의 사용 여부를 알지 못하고 채점했다. 또한, 채점자별 고정 효과(일부 채점자들은 본래 점수에 인색한 편임)를 통제하는 방식으로 채점을 진행해 결과가 편향되지 않도록 했다.

또한 사람 채점자와 동일한 채점 기준표를 이용해 모든 과제에 대해 GPT-4를 이용해 별도로 성과를 채점했다. 사람이 산출한 점수는 대체로 GPT-4의 점수와 일치해 실험에 대해 같은 결론이 도출됐다. 표준 학계 관행에 따라, 기본 과제와 실험 과제 사이의 분포 변화 분석을 제외하고 본 연구에서 제시된 분석은 주로 사람이 생성한 점수에 의존했다. 분포 변화 분석에서는 기본 과제와 실험 과제 간 일관성을 극대화하기 위해 GPT-4 점수에 의존했다. (사람이 채점하는 경우, 다른 채점자 동일한 참가자의 기준 과제와 실험 과제를 채점했을 수 있다.)

실험 설계에 대해 보다 자세한 내용은 해당 주제에 대한 학술 논문을 참조한다.

또한 참가자들이 비즈니스 문제 해결 과제에 대한 해답을 스스로 찾을 능력이 있다는 것을 알았다. 대조군에서 참가자들의 85%가 정답을 찾았다. 하지만 과제에 GPT-4를 사용한 많은 참가자가 GPT-4의 잘못된 결과를 액면 그대로 받아들였다. 설득력 있는 콘텐츠를 생성하는 GPT-4의 능력이 이런 결과를 낳은 것으로 보인다. 참가자들과의 대화에서 많은 이들이 GPT-4가 결과물에 대한 제시한 근거가 매우 그럴듯했다고 답했다. (비록 LLM으로서 근거를 바탕으로 추천안을 만든 것이 아니라 추천 후에 근거를 제시했음에도 불구하고)

이 양날의 검과 같은 효과는 모든 수준의 기본 숙련도에서 발견된다. (실험을 시작할 때, 참가자들은 GPT-4를 사용하지 않고 기본 과제를 완료하고, 이 내용은 채점되고 순위가 매겨진다. 실험 설계와 방법론에 대해서는 사이드바를 참고한다.) 여기에는 중요한 주의할 점이 있다. 개인의 기본 숙련도가 낮을수록, 양날의 검 효과는 더 커지는 경향이 있다. 창의적 제품혁신 과제의 경우 개인의 성과는 43% 향상됐다. 하지만 기본 숙련도 최고성과자들에게도 이 효과는 상당한데, 두 과제에 대해 GPT-4를 사용할 경우 상승효과와 하락효과는 각각 17%와 -17%였다.(보기 2 참조) (전체적으로, 참가자들의 성과에 대한 논의는 이 과제 혹은 다른 과제에 관한 역량 및 인재의 절대적 수준을 나타내는 것은 아니다.)

‘과’와 ‘생성형 AI가 사용되는 환경’ 사이의 강력한 연관성을 생각할 때 교육과 관련한 중요한 질문이 제기된다. 사람들은 이 기술이 주어진 과제에 얼마나 적합한지 이해할 수 있다면 가치 파괴의 위험을 완화할 수 있는가? 참가자들이 GPT-4의 한계점을 안다면, 해당 상황에서는 이 기술을 사용하지 않거나 다른 방식으로 사용할 것이라고 가정하는 것이 합리적일 것이다.

하지만 연구 결과에 따르면 그렇게 간단하지는 않을 수도 있다. 비즈니스 문제 해결 과제의 경우 피실험자에게 GPT-4 프롬프팅 방법과 기술의 한계점에 관해 설명이 주어진 경우에도GPT-4의 부정적 효과는 사라지지 않았다.(‘실험 중 교육의 활용’ 참조)

실험 중 교육의 활용

일부 응답자들에게 제공된 교육은 약 30분 정도 소요되고 참가자들이 실행하게 될 과제를 위해 GPT-4를 가장 잘 활용할 수 있는 방법에 대해 ‘설명하고, 보여주고, 실행하는’ 단기 집중 코스로 구성됐다. 교육의 설명 단계에서 참가자들은 GPT-4 사용의 모범사례에 대해 듣는다. 보여주기 단계에서는 이 개념이 표본 과제에 어떻게 적용될 수 있는지 보여주는 사례를 소개한다. 마지막으로 실행 단계에서는 실험 과제를 준비하기 위해 참가자들이 막 완료한 기본 과제에 대해 GPT-4를 사용해 학습한 내용을 테스트할 기회가 주어졌다.

비즈니스 문제 해결 과제의 참가자들은 문제 해결 맥락에서 GPT-4를 사용할 경우의 문제점과 함정에 관해 설명을 들었다. GPT-4가 어떻게 추론에서 실패할 수 있는지 사례를 보여주고 이런 과제에서 GPT-4에 지나치게 의존하지 않도록 주의받았다.

더욱 놀라운 것은 동일한 과제에 대해 GPT-4를 사용하기 전에 이 간단한 교육을 받지 않은 사람들보다도 평균적으로 훨씬 더 낮은 성과를 보였다는 사실이다.(보기 3 참조) 이는 모든 교육이 효과가 없음을 의미하는 것은 아니다. 하지만 이 결과로 참가자들이 교육받았기 때문에 자신의 GPT-4 사용 능력을 과신한 결과인지에 대해 고민하게 됐다.

인재 관련 새로운 기회

앞서 언급한 바와 마찬가지로 그룹 차원에서의 효과는 반드시 생성형 AI가 개인에게 영향을 미치는 정도를 나타내는 것은 아니다. 평균값 외에도, GPT-4의 사용이 개인의 성과 분포에 두 가지 뚜렷한 영향을 미치는 것을 발견했다.(보기 4 참조) 첫째, 전체 분포는 성과 수준이 더 높은 오른쪽으로 이동한다. 이는 앞서 설명한 40%의 성과 상승이 ‘긍정적인’ 이상값(outlier)과 상관관계가 없다는 사실을 강조한다. 거의 모든 참가자(약 90%)가 기본 숙련도와 상관없이 창의적 제품 혁신 과제에 GPT-4를 사용할 경우 더 높은 수준의 결과물을 창출했다. 둘째, 성과의 편차가 급격히 감소했다. 평균 혹은 평균에 매우 근접한 성과를 보인 참가자의 비율이 크게 증가했다.

다시 말해 기본 숙련도가 낮은 참가자들이 생성형 AI에 접근할 수 있을 경우 결과적으로 기본 숙련도가 더 높은 참가자들과 거의 비슷한 수준의 성과를 보인다. 모든 사람이 GPT-4를 사용하여 창의적인 제품 혁신 작업을 수행할 수 있다면 기술의 도움 없이도 능숙하게 작업할 수 있다고 해서 큰 우위를 점할 수 없다.(보기 5 참조) 이런 효과가 교육 수준이 높고, 성취도가 높은 표본에서 관찰됐다는 사실을 감안하면 숙련도 편차가 크고 이질적인 그룹의 경우에는 그 효과가 훨씬 더 두드러질 것으로 예상된다.

더 자세히 살펴보면, GPT-4를 이용해 창의적 제품 혁신 과제에서 매우 높은 수준의 성과를 얻을 수 있기 때문에 일반적인 사람은 이 기술의 결과물을 더 개선할 필요가 없는 것으로 보인다. 실제로 GPT-4 결과물을 개선하려는 인간의 노력은 오히려 결과물의 품질을 떨어뜨린다. (품질 측정 방식에 대해서는 설계 및 방법론에 대한 사이드바 참조.) GPT-4 결과물을 ‘복사하여 붙여넣기’하는 것이 성과와 강력한 상관관계가 있음을 발견했다. 참가자의 창의적 제품 혁신 과제 최종 제출물이 GPT-4의 초안과 달라질수록, 품질이 떨어질 가능성이 더 높았다.(보기 6 참조) GPT-4 초안과의 차이가 10% 커지면, 참가자들은 평균 품질 순위가 약 17퍼센타일 포인트 감소했다.

인간이 가치를 창출할 수 있는 주된 분야는 생성형 AI가 이미 뛰어난 분야에서 개선이 아니라 이 기술의 핵심역량 영역 외의 과제에 집중하는 것에 있을 것이다.

흥미롭게도 참가자들의 대부분은 이 점을 직관적으로 이해하고 있는 것처럼 보였다. 일반적으로 생성형 AI에 위협을 느끼기보다는 역할의 변화를 흥미롭게 생각하고 인간만이 할 수 있는 과제를 맡게 된다는 생각을 받아들였다. 한 참가자는 ‘우리가 인간으로서 할 수 있는 일을 통해 많은 부가가치가 발생한다고 생각한다. 답을 비즈니스 맥락에 맞게 수정하기 위해서는 사람이 필요하다. 이 과정은 AI가 대체할 수 없다.’ 라고 말했다. 또 다른 참가자는 ‘일을 보다 효율적으로 하고, 반복적인 업무에 시간을 낭비하지 않으며, 중요하고 전략적인 것에 실질적으로 집중할 기회라고 생각한다.’고 덧붙였다.

하지만 이 연구의 대상자들이 이런 전환을 쉽게 할 수 있는 가능성이 높은 고도로 숙련된 젊은 근로자들이라는 점을 간과해서는 안 된다. 다른 전문가들은 이 새로운 기술에 대해 더 큰 두려움을 느끼거나 적응에 더 큰 어려움을 겪을 수 있다.

창의성의 함정

연구에 따르면 생성형 AI를 적절한 방식으로, 적절한 과제에 활용한다 해도 창의성 위험의 소지가 있다.

첫 번째 위험은 개인의 성과 상승과 집단의 창의성 손실 간의 트레이드오프이다. GPT-4는 많은 경우 똑같은 프롬프트에 대해 매우 비슷한 의미의 응답을 제공하기 때문에, 이 기술을 사용하는 참가자들에게 주어지는 결과물은 개별적으로는 더 뛰어나지만, 집단으로서는 반복적이다. 창의적 제품 혁신 과제에 대해 GPT-4를 사용한 참가자 중 아이디어의 다양성은 이 기술을 사용하지 않은 그룹과 비교해 41% 낮았다.(보기 7 참조) 사람들이 GPT-4의 결과물을 편집하는 경우에도 아이디어의 다양성이 눈에 띄게 증가하지는 않았다.

두 번째 위험은 참가자들과의 인터뷰에서 도출한 것이다. 약 70%가 GPT-4를 광범위하게 사용하면 장기적으로 창의력이 저하될 수 있다고 생각한다.(보기 8 참조)

한 참가자가 말한 것처럼 ‘다른 기술과 마찬가지로 사람들이 이 기술에 지나치게 의존할 수 있다. GPS는 처음 출시됐을 때 길 찾기에 큰 도움이 됐다. 하지만 이제 사람들은 GPS 없이는 운전할 수 없다. 사람들이 기술에 지나치게 의존하면 기존에 갖고 있던 능력을 잃을 수도 있다.’ 또 다른 참가자는 ‘이 현상이 나는 매우 우려스럽다. 만약 내가 GPT에 너무 의존하게 되면, 내 창의력이 약화할 것이다. 이 실험 중에 이미 이런 현상이 발생했다.’고 강조했다. 기업들은 생성형 AI에 대한 직원들의 인식과 태도, 그리고 이것이 혁신을 주도하고 부가가치를 창출하는 능력에 어떻게 영향을 미치는지 신중히 고민해야 한다.

참가자들의 인식을 정확히 확인할 수 있는 데이터는 아직 없다. 이는 더 많은 연구가 필요한 주제이다. 하지만 직원들의 우려가 사실로 드러난다면, 집단 차원에서의 위험을 가중할 수 있다. 특히, 직원 개개인의 창의력이 약화한다면, 집단의 입장에서는 아이디어의 다양성이 손실될 수 있다.

생성형 AI 도입을 위한 필수사항

연구 결과를 바탕으로, 비즈니스 리더들이 차별화의 원천이자 지속적 경쟁우위의 도구로써 생성형 AI를 도입하고자 할 때 도움이 될 수 있는 일련의 질문, 과제, 옵션들을 정리했다.

데이터 전략

생성형 AI를 도입하는 모든 기업이 이 기술이 능력을 발휘하는 분야에서 상당한 효율성 개선을 실현할 수 있다. 하지만 여러 기업이 비슷한 과제들에 대해 이 기술을 적용한다면 실험 참가자들 사이에서 관찰됐던 패턴과 유사하게 조직 간에도 평준화 효과가 발생할 수 있다. 따라서, 차별화의 핵심 요소 중 하나는 대량의 고품질 기업 고유 데이터를 이용해 생성형 AI 모델을 미세 조정할 수 있는 능력이 될 것이다.

이를 실천하는 것은 말처럼 쉽지 않다. BCG 경험에 따르면, 모든 기업이 고유 데이터 처리에 필요한 첨단 데이터 인프라 역량을 갖추고 있는 것은 아니다. 이 역량의 개발은 이미 AI 혁신의 핵심 중점사항이었지만 생성형 AI의 등장으로 더욱 중요해졌다. 생성형 AI의 저력은 종종 예상치 못한, 때로는 직관에 반하는 패턴과 상관관계를 밝혀내는 것에 있다. 이 저력을 충분히 활용하기 위해 기업들은 포괄적인 데이터 파이프라인을 갖추고 내부 데이터 엔지니어링 역량 개발에 다시 한번 주력해야 할 것이다.

역할 및 업무 흐름

생성형 AI가 능숙한 과제(그 목록은 점차 확대 중임)에 대해 업무를 대하는 사고방식과 접근법을 전면 수정해야 한다. 사람들은 기술이 만들어 낸 유용한 초안이 반드시 수정이 필요할 것이라고 기본적으로 가정하는 대신, 그 결과물을 그럴듯한 최종 버전으로 생각하고 확실히 정해진 가드레일과 비교해 검토하거나 거의 그대로 둬야 한다.

이 새로운 기술의 가치는 효율성 개선 가능성뿐만 아니라 AI가 대신할 수 있는 과제에서 사람들의 시간, 에너지, 노력을 줄일 가능성에 있다. 직원들은 이 기술의 영역을 넘어서는 과제에 대해 노력을 배가해 더 높은 숙련도에 도달할 수 있을 것이다.

이 새로운 기술의 가치는 효율성 개선 가능성뿐만 아니라 AI가 대신할 수 있는 과제에서 사람들의 시간, 에너지, 노력을 줄일 가능성에 있다.

BCG 내부로 눈을 돌려보면, 우리는 이미 직원들이 수작업으로 연구자료를 요약하거나 슬라이드를 다듬는 데 걸리는 시간을 줄이고 복잡한 변화관리 이니셔티브를 추진하는 데 더 큰 노력을 기울이는 모습을 그려볼 수 있다. 생성형 AI의 파괴적 혁신의 영향은 물론 업무 카테고리별로 매우 다양할 것이다. 하지만 조사 참가자들 대다수를 포함해 적어도 일부 근로자들은 이런 전망을 낙관적으로 바라보고 있다.

전략적 인력 계획

복잡한 조직에서 AI와 인간 간의 조화로운 역학관계를 수립하려면, 리더들은 다음 네 가지 질문을 고심해야 한다.

어떤 역량이 필요한가? 다른 기술들과 마찬가지로 생성형 AI를 무엇을 위해 어떻게 사용할지 정의하기 위해서는 사람이 필요하다. 하지만 어떤 인적 역량이 이 도구의 가치를 극대화하는데 가장 적합한지 혹은 이 역량이 얼마나 자주 바뀔지는 명확하지 않다. LLM에 관해 이런 불확실성이 나타나고 있다. ‘프롬프트 엔지니어‘라는 직무는 1년 전만 해도 존재하지 않았지만 2023년 2분기 이 직무의 수요는 1분기에 비해 거의 7배 상승했다. (GPT-4는 2023년 3월 14일 1분기 말 무렵 출시됐다.) 하지만 프롬프트 엔지니어도 일단 생성형 AI 자체가 복잡한 문제를 최적의 프롬프트로 세분하는 작업에 능숙하게 된다면(자율형 에이전트로 인해 곧 가능하게 될 것으로 보임) 더 이상 필요하지 않게 될 수 있다. 현재 대부분 인간이 하는 특정 비즈니스 응용에 대한 최적 LLM 선택 작업도 미래에는 AI 시스템이 처리할 수도 있다.
어떤 채용 전략을 수립할 것인가? 생성형 AI는 어떤 과제에 대해서는 숙련도를 평준화하는 역할을 하기 때문에 타고난 재능은 생성형 AI가 광범위하게 사용되는 세계에서 고성과를 예측하는 좋은 지표가 될 수 없다. 예를 들어 어떤 사람들은 특정유형의 과제에 대해 기본 숙련도가 낮지만, 생성형 AI를 이용하면 동료들보다 뛰어난 성과를 보일 수 있다. 이런 개인을 찾아내는 것은 미래 인재전략에서 중요한 목표가 되겠지만 아직 기본적으로 필요한 특성은 정확히 파악되지 않았다.
사람들을 어떻게 효과적으로 교육할 것인가?연구 결과에서 알 수 있듯이 간단한 교육만으로는 충분하지 않다. 효과적인 교육을 통해 아직 AI 기술이 충분한 수준의 역량에 도달하지 못한 상황에서 생성형 AI에 지나치게 의존할 수 있는 인지적 편견을 분명히 해결해야 한다. 또한 잠재적으로 더 심각한 이슈도 있다. 특정 작업이 완전히 생성형 AI에게 넘어간다고 해도 어느 정도 인간의 감독은 여전히 필요할 것이다. 이 경우 직원들은 스스로 어떻게 하는지 배워본 적도 없는 작업에 대해 기술을 어떻게 관리 감독할 것인가?
사고의 다양성을 어떻게 키울 것인가? 연구 결과에 따르면 생성형 AI는 개인이 생성하는 관점의 범위를 제한함으로써 집단의 창의성을 저해한다. 이처럼 사고의 다양성이 손실되면 우리가 현재 상상하는 것보다 더 큰 파급효과가 있을 수 있다. 한 가지 위험은 아이디어 생성이 보다 획일화되는 등 조직의 장기적 혁신 역량이 위축될 수 있다는 점이다. 혁신 역량의 감소는 경쟁업체와의 차별점이 감소한다는 의미이기 때문에 성장 잠재력을 저해하고, 이는 곧 실패로 가는 지름길이다. 다행인 것은 인간이 스스로 만들어 내는 아이디어와 생성형 AI의 도움으로 만들어 내는 아이디어가 굉장히 다르다는 점이다. 각 그룹의 다양성 정도는 차치하고, 대조군과 실험군의 결과물을 비교해 보면, 겹치는 부분(의미의 유사성)은 10% 미만이었다. 리더들에게 중요한 것은 두 가지 방법을 모두 사용해 아이디어를 도출함으로써 궁극적으로 아이디어의 범위를 더욱 확대하는 것이다.

실험과 테스팅

생성형 AI 시스템은 놀라운 속도로 계속해서 발전하고 있다. 오픈AI의 GPT-3.5가 출시되고 GPT-4가 출시되기까지 불과 몇 달 만에 이 모델은 매우 다양한 작업에 대해 매우 비약적인 성과개선을 이뤄냈다. 현재 생성형 AI가 해결하기에는 아직 부적합한 작업도 곧, 아마도 머지않은 미래에, 역량 범위 내에 들어오게 될 것이다. 특히 LLM이 멀티모달(텍스트 외에 다른 형태의 데이터도 포함)이 되거나 모델의 규모가 커지면서 예측할 수 없는 역량이 개발될 가능성이 커짐에 따라 가능하게 될 것이다.

이처럼 예측 가능성이 부족한 상황에서, 생성형 AI가 비즈니스에 미치는 영향을 이해할 수 있는 유일한 방법은 실험 역량을 개발해 나날이 확장되는 생성형 AI의 영역을 따라잡을 수 있도록 일종의 ‘생성형 AI 랩’을 구현하는 것이다. 기술이 변화함에 따라 인간과 생성형AI의 협업모델 역시 변화해야 할 것이다. 실험을 통해 기업 입장에서 직관에 반하거나 심지어 불편한 결과가 도출될 수도 있지만 이를 통해 이 기술이 어떻게 사용될 수 있고 사용돼야 하는지에 대한 귀중한 인사이트를 얻을 수도 있다. BCG는 이 실험에 직접 뛰어들었으며 모든 비즈니스 리더 역시 똑같이 해야 한다고 생각한다.

———————————

생성형 AI는 우리가 하는 일과 일을 하는 방식을 크게 변화시킬 것이며, 이것은 아무도 예상할 수 없는 방식으로 이루어질 것이다. AI의 시대에서 성공 여부는 그 어느 때보다 빠르게 배우고 변화하는 조직의 능력에 따라 좌우될 것이다.