열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

챗GPT의 한계와 가능성 본문듣기

작성시간

  • 기사입력 2023년02월12일 17시10분
  • 최종수정 2023년02월14일 13시10분

작성자

  • 윤기영
  • 한국외대 경영학부 미래학 겸임교수, 에프엔에스미래전략연구소장

메타정보

  • 65

본문

챗GPT(ChatGPT)가 2023년 초부터 거대한 화두가 되었다. 작년 11월 30일 공개된 챗GPT의 사용자는 한 주 만에 1백만, 한 달이 지나 5천 7백만, 두 달 만에 1 억 명으로 급격하게 늘었다. 이로 인해 언론과 유튜브 등에서 챗GPT에 관련된 기사와 콘텐츠가 봇물을 이룬다. 여기에 더해 아마존에서 검색하면 챗GPT를 주제로 하는 책을 100여권 이상 찾을 수 있다. 불과 3개여월만에 그만큼의 책이 쏟아져 나왔다. 지난 1월 27일 윤석열 대통령은 행정안전부가 챗GPT를 잘 연구하여 우리나라 공무원이 잘 활용할 수 있도록 해달라고 요청했다.

 

 챗GPT에 대한 높은 관심은 2016년 알파고와 2021년 메타버스를 되돌아보게 한다. 구글의 알파고는 한중일 동양 삼국에 큰 영향을 미쳤다. 그런데 알파고의 승리는 구글의 주가를 올리는데 기여를 했다. 알파고는 바둑과 같은 제한된 수의 규칙을 가지는 게임에 특화되어 있으며 그 이상의 쓸모가 없다. 알파고의 가장 큰 기여는 동양삼국의 자존심에 생체기를 낸 것과 구글 주가를 상승시킨 것이다.

 

2021년 메타버스가 정부와 기업의 화두가 되었다. 이러한 인기에 힘 입어 페이스북은 사명을 메타로 바꾸었다. 우리나라에서도 3D 콘텐츠나 온라인 회의 프로그램을 메타버스로 치장하고 상당한 투자를 했다. 그러나 2022년 말 메타는 임직원의 13%를 감축했다. 우리나라 관련기업도 메타버스 관련 투자를 축소하고 있다. 그런데 메타버스에 대한 인간의 욕구와 상상력이 오래된 만큼 거대한 흐름으로 봐야 한다. 단기 트렌드가 아닌 메가 트렌드로 진단하고 성장전략을 수립해야 했다. 메타버스는 특정한 기술이나 컨텐츠가 아니라 복수의 하드웨어, 소프트웨어, 제도, 콘텐츠 등의 결합이기 때문이다. 아직 변변한 증강현실 안경도 개발되지 않은 현재, 메타버스 전략은 장기전략이어야 한다.

 

위의 두 사례는 새로운 기술이 등장했을 때 짧은 기간내에 기대의 거품을 끌어 모은 사례에 해당한다. 기대의 거품과 정보의 ‘디지털 분진’을 걷어내고 기술을 바라보는 것이 필요하다. 그러기 위해서는 개념, 쓰임새, 한계 및 미래발전경로를 전망해야 한다. 챗GPT도 같다. 이 글에서는 챗GPT의 개념, 한계를 살펴보고 그 활용가능성을 간략하게 다루겠다.

 

챗GPT란 무엇인가?


챗GPT는 챗봇(ChatBot)의 하나다. 챗봇이란  음성 혹은 문자로 사람과 대화를 할 수 있는 컴퓨터 프로그램에 해당한다. 애플의 시리, 아마존의 알렉사, 삼성의 빅스비 등이 챗봇이다. 시리 등은 말귀를 알아듣지 못하는 경우가 많았는데 반해, 챗GPT는 말귀를 알아듣기도 하며 상당한 지식을 보유한 것처럼 보인다. 챗GPT의 비약적 성장의 이면에는 GPT-3가 있다.

 

GPT-3가 똑똑해 보이는 이유는 매개변수의 규모 때문이다. 인공지능에게 있어 매개변수란 고등생물 뇌세포의 시냅스에 대응한다. 뇌세포가 많을수록 그리고 시냅스가 많을수록 지능이 높다. GPT-3의 매개변수는 1,750억개에 달한다. 인간의 뇌는 시냅스가 대략 100조개다. 인간의 시냅스와 인공지능의 매개변수를 단순 비교할 수 없다. 매개변수의 신경망 알고리즘은 뇌세포와 유사한 것이지 동일하지 않기 때문이다. 그러나 매개변수의 규모가 크다면 그 만큼 ‘똑똑해’ 질 수 있기는 하다.

 

인공지능의 매개변수 규모는 지속적으로 커지고 있다. GPT-1의 매개변수는 1억1천만 개, 2는 15억 개, 3은 1,750억 개로 급격하게 늘었다. 현재 개발진행 중인 GPT-4의 매개변수는 1조개에 달한다. 언어인공지능 매개변수의 규모가 커짐에 따라 ‘거대’라는 수식어를 붙였다. 매개변수가 일정규모 이상인 언어인공지능을 거대언어모델이라 한다. 영어로 Large Language Model, 약어로 LLM을 번역한 것이다. 

 

GPT-3는 거대언어모델의 하나다. 구글의 람다의 매개변수는 1,370억개, 다중언어모델인 Bloom 1,760억개, 엔비디아의 메가트론-튜링 자연어생성 인공지능 5,300억개, 중국의 WuDao 2.0 1조 7,500억개에 달한다. 일부 주장에 따르면 이 규모를 늘린다고 거대언어의 한계와 문제가 해결되지 않는다. 어떻든 챗GPT을 포함한 다양한 거대언어모델이 동시다발적으로 개발됨에 따라 미래 시장을 두고 격렬하게 경쟁할 것으로 보인다.

 

챗GPT를 GPT-3.5라고도 한다. OpenAI의 관련 담당자가 챗GPT의 답에 대해 옳고 그름을 평가하고 이를 기반으로 강화학습(Reinforcement Learning from Human Feedback, 이하 RLHF)을 함으로써 GPT-3보다 개선되었다. 이 때문에 버전을 미세하게 올렸다는 것이 OpenAI의 주장이다. 그런데 챗GPT의 기능개선은 GPT-3에 지속적으로 반영되고 있다. GPT-3의 속살을 까보면 GPT-3.5라는 뜻이다. 챗GPT가 챗봇의 한계를 지니는데 반해 GPT-3는 더욱 넓은 활용범위를 가진다. 이 글에서 편의를 위해 챗GPT는 GPT-3를 포함한 개념으로 설명하였다.

 

참고로 GPT-3에 대해 간략하게 설명하면, GPT-3는 Generative Pre-trained Transformer version 3의 약어다. 이를 우리말로 번역하면 ‘생성 사전학습 트랜스포머 버전 3’를 뜻한다. ‘생성’이란 인공지능을 통해 문자열, 음악, 화면 등을 만드는 것을 의미한다. 딥페이크의 기반기술인 GAN(Generative Adversarial Network, 적대적 생성 신경망)도 생성 인공지능의 하나다. ‘사전학습’이란 학습된 인공지능에 추가로 학습이 가능함을 의미한다. 트랜스포머는 인공지능 모델의 하나다. 참고로 인공지능 모델로는 화상인식에 주로 활용되는 합성곱신경망(CNN), 장단기기억신경망(LSTM) 등이 있다.

 

챗GPT에 대한 관심이 몰리고 있기는 한데, 지나쳐 볼 수 없는 한계가 적지 않다. 알파고로 인한 착시와 메타버스에 대한 장기적 시각의 실종이라는 실수를 반복하지 않기 위해서는, 기대의 거품과 디지털 분진을 걷어 낼 수 있어야 한다. 그러기 위해서는 챗GPT와 거대언어모델에 내재된 한계를 바로 볼 수 있어야 한다. 

 

한계는?


챗GPT의 한계로는 실시간 학습 불가, 논리력 부족, 아는 것과 모르는 것의 구분 불가, 환각, 기억력 한계, 저작권 침해, 편향, 복잡성, 지식의 독재의 위험 등을 들 수 있다. 실시간 학습 불가에서 기억력  한한계까지는 시간과 비용은 들겠으나 기술의 발달에 따라 점진적 해결이 가능할 것으로 점쳐진다. 그러나 저작권 침해에서 지식의 독재의 위험까지는 인공지능 밖의 한계라 쉽게 극복하기 어려울 것으로 보인다. 하나씩 아래 설명하겠다. 참고로 여기서 지식의 독재란 통계적으로 정리된 단일한 정보와 지식이 지배하는 경우를 뜻한다.

 

챗GPT는 실시간으로 텍스트 데이터를 취합하고 학습할 수 없다. 인터넷 검색엔진으로 몇 분 전 발간된 자료도 검색이 가능하다. 그러나 언어인공지능이 학습을 위해서는 학습 데이터의 정리와 별도의 학습 시간이 필요하다. 챗GPT는 2021년까지의 데이터만 학습했다. 대한민국은 문재인 정부이며, 러시아-우크라이나 전쟁은 아직 발발하지 않았다. 현재의 신경망 알고리즘으로 인공지능이 실시간 학습을 하는 것은 어렵다. 이는 챗GPT가 구글과 같은 검색엔진을 대체할 수 없음을 의미한다. 다수의 전문가와 RLHF에 의해 학습된 챗GPT는 Google을 대체할 수 없을 것이라 답하고 있다.

 

검색엔진을 보조하는 기능으로 활용할 수는 있다. 검색어에 대해 통계적으로 정리된 내용을 제공할 수 있을 것이다. 그러나 잘못된 정보를 제공할 위험이 있어 참고로만 제공될 것으로 판단한다. 이미 챗GPT를 구글의 인터넷 브라우저인 크롬 등과 연계하는 ‘ChatGPT for Google’과 같은 다양한 확장 프로그램이 존재한다. 그렇다고 인터넷 검색엔진을 대체하는 것은 불가능하며, 그래서도 안 된다. 그래서 안되는 이유는 지식은 고정되어 있지 않고 진화하며, 세계관과 내러티브에 따른 다각도의 지식이 있을 수 있기 때문이다. ‘확률적 앵무새’라는 비판을 받는 챗GPT가 통계적으로 예외인 지식과 시각을 반영하기 어렵다.

 

챗GPT는 귀납, 연역 및 유비추론으로 활용하기 어렵다. 챗GPT에게 간단한 논리 퀴즈를 냈다. 참고로 영어로도 같은 질문을 했다.

 

5aa7cbf71bd368fb90ea947a5cc5d6ef_1676164
연역추론 삼단논법의 구성은 ‘모든 사람은 죽는다. 소크라테스는 사람이다. 소크라테스는 죽을까?”이다. 이를 비틀어서 유비추론 혹은 가설추론의 질문을 했다. 이 삼단논법에서 소크라테스는 사람일 수도 혹은 반려견일 수도 있다. 따라서 답은 ‘모른다’이거나 혹은 사람일 ‘가능성’이 있다고 해야 한다. 다양한 사람이 다양한 논리 퀴즈를 챗GPT에게 물어보았으나 챗GPT는 적정한 답을 하지 못했다. 챗GPT가 논리에 취약한 이유는 특정 문장에 대한 통계적 대답을 하는 것으로 최적화되었기 때문이다.

 

통계적 대답을 하는 ‘확률적 앵무새’는 두가지 문제를 낳는다. 아는 것과 모르는 것을 구분하지 못하며, 이로 인해 환각(Hallucination)의 답을 한다. 영어로 소고기 식혜(beef sikhye) 재료와 시나리오 플래닝의 유형(types of scenario planning)에 대해 질문했다. 

소고기 식혜의 재료로 쌀, 물, 소고기, 당근, 설탕, 마카로니, 마가스타(megastar)를 들었다. 독자는 이미 아시겠지만 소고기 식혜란 음식은 존재하지 않는다. 존재하지 않는 음식에 대한 최선의 답은 ‘모른다’이다. 챗봇은 아는 것과 모르는 것을 구분하지 못한다. 아는 것과 모르는 것을 나누는 것이 지식의 출발이다. 그러한 면에서 챗봇의 활용은 제한적이다. 

 

시나리오 플래닝의 유형에 대한 질문에 대해 전략, 위험, 재해 복구, 비즈니스 연속성, 환경 및 시장으로 시나리오 유형을 제시한다. 시나리오 플래닝의 활용 사례로 그 유형을 분류한 것으로 보이긴 하나, 그 분류가 중복되며 분류의 층위가 다른다. 재해 복구와 비즈니스 연속성은 관련성이 있으며, 전략은 다른 시나리오 플래닝에 공통된다. 더구나 질문이 활용 사례가 아니라 유형을 물어본 것인데 동문서답을 했다. 시나리오 플래닝의 유형에 대한 답은 시각에 따라 다양하다. 유의미한 답의 하나는 양적, 확률 기반, 워게임(war game), 운영, 규범, 대안 미래 시나리오 플래닝이다. 챗GPT의 답은 거대한 단어와 문장의 미로에서 미시적 통계로 길을 잃은 환각(Hallucination)에 해당한다. 일부 주장에 따르면 이러한 환각에 의한 답의 비율이 20%에 달한다고 한다.

 

기억력의 한계는 사용자와 일관성 있는 대화를 할 수 없도록 한다. OpenAI의 공식적인 답에 따르면 챗GPT는 사용자와의 대화에서 대략 3,000개의 단어를 기억한다. 이 3,000개의 단어에는 사용자의 질의와 챗GPT의 응답까지 포함한다. 이 한계를 초과하면 챗GPT는 그 이전의 질의응답을 기억하지 못한다. 

 

챗GPT의 시스템 구성에 따라 기억할 수 있는 기억 용량은 늘어날 수 있으나 한계가 있을 수밖에 없다. 그런데 챗GPT의 한계는 입력의 한계에 해당한다. 챗GPT에서 과거의 기억을 되살리기 위해서는 매번 과거의 질의응답과 새로운 질의를 같이 입력해야 한다. 입력의 길이를 늘릴수록 챗GPT의 구조와 매개변수는 기하급수적으로 증가해야 한다. 챗GPT의 기억력의 한계는 본질적이다. 시간과 비용을 들인다 하더라도 기억력 증진은 제한적일 수밖에 없다. 다시 강조하지만 신경세포의 시냅스와 인공지능의 매개변수는 같지 않다. 챗GPT에게 과거의 추억이 머물 공간은 존재하지 않는다. 이를 극복하기 위해서는 새로운 인공지능 패러다임의 도약이 필요하며, 아직 이를 위한 기술은 개발되지 못했다.  

 

여기까지 나열한 챗GPT의 한계는 기술의 발달과 막대한 비용의 투자로 점진적으로 개선될 수 있을 것으로 보인다. 완전한 극복은 불가능하나, 점진적 개선은 챗GPT의 활용범위와 효율성 및 효과를 높일 수 있다. 그러나 앞으로 나열한 제약은 기술에 의해 극복될 수 없는 한계로 보인다.  

 

챗GPT가 인용하는 내용의 저작권도 문제가 된다. 챗GPT로 코딩을 할 수 있다. 일정한 요청을 하면 그럴 듯한 컴퓨터 코딩을 만들어 준다. 일정한 요구사항을 글로 쓰면 이에 부합하는 컴퓨터 코딩을 제시하는 도구는 깃허브(GitHub)의 코파일롯(Copilot) 등 다양하다. 깃허브는 소프트웨어 개발 협업과 소스코드 저장을 위한 플랫폼이다. 깃허브에 올라간 컴퓨터 코드를 학습 데이터로 한 인공지능 컴퓨터 프로그래밍 도구다. 최근 코파일롯은 저작권 문제로 시달리고 있다. 깃허브에 올라온 코드를 저작자를 표시하지 않는 등 무단으로 사용했기 때문이다. 챗GPT도 동일한 문제를 안고 있다.

 

챗GPT도 인공지능의 편향에서 자유로울 수 없다. 챗GPT는 다양한 언어의 데이터를 학습했으나, 주로 영어로 된 데이터를 기반으로 학습했다. 영어로 된 자료는 그 자체의 편향을 가질 수 있다. 여기에 사람의 편향이 더해질 수 있다. 챗GPT는 사람 피드백에 의한 강화학습 즉, RLHF에 의해 지속적으로 개선되고 있다. 챗GPT 초기에 대한민국의 역대 대통령을 영어로 물어보면 영화배우 이병헌 등이 거론되었다. 그 이후 상당하게 정확한 답을 하나 장면 총리가 윤보선 대통령 다음의 대통령으로 나열되었다. 최근에는 정확한 답을 한다. RLHF의 덕이다. RLHF는 여기에 참여한 사람의 편향의 위험을 가지고 있다. 

 

인공지능의 편향에 대해서는 반복적인 경고가 있다. 데이터는 중립이라는 주장은 환상이다. 페이스북의 시각지능은 사진 속의 흑인을 고릴라로 분류했으며, 그 오류를 극복하지 못했다. 구글의 인공지능윤리팀 공동 책임자였던 팀니트 게브루(Timnit Gebru)는 구글의 인공지능이 인종 및 여성 차별을 할 위험이 있다고 지적했다. 이로 인해 게브루는 구글에서 해고되었다. 챗GPT도 편향의 위험에서 자유로울 수 없다. 학습한 데이터의 편향, 영어의 편향, 인간의 편향은 챗GPT의 알고리즘과 컴퓨터 하드웨어의 밖에 존재하기 때문이다.

 

챗GPT 개선을 위한 사람 피드백의 복잡성도 문제가 될 것으로 보인다. 대한민국 역대 대통령에서 정향차(丁香茶) 레시피까지 RLHF로 그 정확도가 증가했다. 사람 피드백이 누적될수록 복잡성이 증가하고 이 복잡성은 서로 상충하는 피드백을 걸러내지 못하도록 할 것이다.

 

마지막으로 챗GPT는 지식의 독재 가능성을 높인다. 챗GPT는 학습된 데이터를 요약하고 정리하여 제시한다. 챗GPT는 지식을 교조화하게 할 위험이 있다. 챗GPT를 통해 학습하거나 주로 노출된다면 다른 생각과 다른 지식에 노출될 기회가 그만큼 줄어든다. 다만 일부 정치적 논쟁이 있는 질문에 대해서는 RLHF에 의해 다양한 입장을 모두 제시하도록 하는 것으로 보인다. 챗GPT가 정치적 구설수에 휘말리자 않도록 하기 위해서다. 그러나 챗GPT가 다양한 입장을 제시한 경우는 매우 드물다.

 

지식은 영원하지 않다. 지식의 반이 잘못된 것으로 입증되거나 혹은 더 좋은 지식으로 대체되는 데 소요되는 기간을 지식 반감기라 한다. 일부 연구에 따르면 20세기 초 공학 지식의 반감기는 40여년이었으나, 20세기 말 10년 내외로 줄었다. 1996년의 한 논문에 따르면 대학에서 배운 지식의 반감기는 6년에 불과하다. 또한 지식은 일종의 믿음에 기반한다. 사회학에서부터 물리학까지 지식의 기반에는 세계관이 있으며, 세계관의 근저에는 내러티브와 신화가 있다. 따라서 지식을 비판적으로 보기 위해서는 다양한 입장의 지식과 주장에 접해야 한다. 

 

챗GPT는 복잡한 지식을 단순화하는 장점이 있으나, 지식을 비판적으로 볼 수 있는 기회를 원천적으로 차단할 위험이 있다. 맨눈으로 풍경을 보는 것이 아니라 바늘구멍으로 세상을 보게 할 수 있다. 다양한 지식의 충돌 속에서 내적 성찰과 다른 민족과 다른 문화를 이해할 수 있는 기회를 없애고, 한 권의 책만 읽은 용감한 자를 양산할 가능성이 크다.

 

이 이외에도 다양한 한계가 있다. 프라이버시 침해 위험이 있으며, 거대언어모델의 규모를 키워도 환각의 비율이 일정 수준 이하로 줄일 수 없을 것으로 판단된다. 또한 챗GPT를 다양한 분야에서 활용함에 따라 아직 밝혀지지 않은 한계가 드러날 것이다.  이들 한계는 챗GPT에만 존재하는 것은 아니며 거대언어모델에 공통된다. 그렇다고 챗GPT 등이 쓸모 없다는 뜻은 아니다.  이러한 한계가 크게 문제가 되지 않거나 자유로운 분야에서 활용될 것이다. 


활용분야는?


2023년 1월 ‘인공지능이 주도하는 시대에 챗GPT와 기타 챗봇을 위한 1,337개 쓰임새(1337 Use Cases for ChatGPT & other Chatbots in the AI-Driven Era)’라는 긴 이름의 책이 출간되었다. 1,337개의 쓰임새를 보면 챗GPT는 만능이다. 저자의 주장을 호기심을 가지고 살펴볼 필요가 있는데, 먼저 챗GPT에게 질문을 해보고, OpenAI의 주장 등을 살펴보겠다.

 

챗GPT에게 활용분야를 질문하니, 고객 서비스와 지원, 요약 및 보고서 생성, 지능형 챗봇, 번역, 감성 분석, 글 쓰기 지원, 사용자 선호도 분석 등을 제시했다. OpenAI는 GPT-3의 활용 사례로 서른 가지를 제시했다. 그 중 일부만 나열하면 질의응답, 문법 오류 정정, 컴퓨터 프로그래밍과 관련된 다양한 기능, 키워드 추출 등이다. 

 

챗GPT의 활용분야에 대해서는 다양한 글이 존재하는데 OpenAI가 제시한 범주에서 벗어나지 않는다. 챗GPT는 사전학습된 인공지능으로 특정 분야의 추가 학습이 가능하다. 이에 따라 그 활용분야가 개발되고 확대될 것이다. 예를 들어 토스토엡스키의 글을 추가 학습하게 하여, 그의 문장 스타일을 닮을 글을 쓰게 하거나, 법령과 판례를 학습하게 하여 기초적인 법률 자문 서비스를 하는 것도 기대할 수 있다.

 

향후 챗GPT와 다른 인공지능이 결합됨에 따라 그 활용분야가 확대될 수 있다. 말을 글자로 바꾸는(Speech to Text) 인공지능은 음성지능과 언어지능의 결합이다. 글로 이미지를 만드는 인공지능은 언어지능과 GAN을 묶은 것이다. 특정분야의 언어지능이나 거대언어모델이 복수 결합하는 사례도 늘어날 것이다. 번역 인공지능과 법률 인공지능이 결합하여 해외 법률 서비스를 제공하는 것을 상상할 수 있다. 의료 시각인공지능과 의학서적과 의료처방을 학습시킨 의료언어지능의 결합은 의료서비스의 비용효율성 확보와 건강수명의 증진에 기여할 수 있다. 

 

차안대를 벗고 챗GPT 봐야 한다.


차안대(遮眼帶)란 경주마의 눈가리개를 가리키는 단어다. 경주마가 빠르게 달리기 위해서는 주변을 전체적으로 볼 수 있도록 해서는 안된다. 그런데 거대언어모델을 포함한 인공지능 정책과 전략을 기획하는 사람은 경주마가 아니다. 알파고의 거품과 메타버스에 대한 장기 전략의 실종은 정책과 전략을 담당한 사람의 다수가 차안대를 차고 있었던 것으로 조심스럽게 의심된다. 거대언어모델과 관련된 정책과 전략의 개발을 위해서는 챗GPT가 단기적으로 던지는 기대의 거품과 디지털 분진을 걷어내고 그 한계, 장기 기술발전 전망, 거대언어모델의 발달에 따른 부작용 등을 함께 봐야 한다. 

 

이 글에서 거대언어모델이 어떻게 발전할지, 이로 인해 어떤 영향이 끼칠지를 탐색하지 않았다. 따라서 거대언어모델 미래전략도 제시하지 않았다. 챗GPT의 한계를 탐색하는 것이 이 글의 목표였기 때문이다. 다른 글에서 거대인공지능의 미래와 미래전략을 다루겠다.

 

<ifsPOST>

65
  • 기사입력 2023년02월12일 17시10분
  • 최종수정 2023년02월14일 13시10분

댓글목록

등록된 댓글이 없습니다.