Offcanvas

AI / CIO / 로봇|자동화 / 분쟁|갈등 / 신기술|미래 / 애플리케이션

생성형 AI의 어두운 진실 7가지

2023.09.15 Peter Wayner  |  CIO
생성형 AI 알고리즘이 그럴듯한 예술 작품을 만들고 훌륭한 문법의 긴 에세이를 작성해버리는 모습에 여전히 모두가 감탄을 금치 못하고 있다. 모든 CIO와 CEO는 생성형 AI가 비즈니스를 어떻게 변화시킬 것인가를 논의할 슬라이드 몇 개쯤은 저장해두고 있다. 

생성형 AI 기술은 아직 초기 단계에 있으나 그 가능성은 이미 부인할 수 없는 수준이다. 컴퓨터의 다음 물결은 아마도 워크플로우의 여러 곳에서 생성형 AI를 포함하는 양상일 것이다. 그리고 그 여정은 오랜 기간 이어질 것이다. 

그렇다면 대체 무엇이 문제일까? 많은 문제가 논의된다. 종말론자들은 경제의 완전한 파괴, 인간 및 동물 세계 상당 부분의 노예화를 상상한다. 이들이 과민 반응을 보이는 것일 수 있다. 그러나 최악의 시나리오가 아니라고 해서 모든 게 완벽할 것이라는 의미는 아니다. 나날이 빠르게 진화 중인 생성형 AI일지라도 여전히 기반 곳곳에 균열이 존재한다. 엔터프라이즈 워크플로우에 이 기술을 통합하는 방법을 계획 시 염두에 두어야 할 생성형 AI 알고리즘의 어두운 진실 몇 가지는 다음과 같다. 
 
Image Credit : Getty Images Bank

느닷없는 오류 생성
대규모 언어 모델(Large Language Models, LLM)이 모래두루미의 짝짓기 의식에 대해, 혹은 17세기 동유럽 건축에서의 크레뉼레이션(Crenulations)의 중요성과 같은 주제에 대해 1,000단어 분량의 에세이를 작성하는 모습은 마치 마법처럼 보일 정도다. 그러나 바로 이러한 마법의 힘으로 인해 LLM은 느닷없이 오류를 생성할 수 있다.

대규모 언어 모델은 대학 교육을 받은 영어 전공자의 실력으로 동사를 조합하고 문법을 배치한다. 대다수의 사실은 정확하다. 그러나 곧 초등학교 4학년생의 속임수 마냥 거짓을 만들어낸다. 

이는 LLM의 구조로 인한 불가피한 현상이다. LLM은 단어가 어울리는 방식을 학습하기 위해 확률을 활용한다. 그 과정에서 잘못된 단어를 선택하기도 한다. LLM을 제대로 인도할 진정한 지식 혹은 존재론은 없다. 단지 확률일 뿐이고 때때로 잘못된 결과가 나온다. 실제로는 주사위 순서에서 규칙을 찾는 라스베가스의 도박꾼과 유사한 행태를 보인다.

데이터 필터링 난제
어떤 정보는 내부자에게 알리고 어떤 사항은 모두가 공유하는 정교한 지식 계층을 만들기 위해 인간은 노력을 기울여 왔다. 이러한 계층 구조는 군대의 분류 체계에서 잘 드러난다. 많은 기업 또한 이러한 계층 구조를 가지고 있다. 이러한 계층 구조 유지는 IT 부서 및 이를 관리하는 CIO에게 매우 번거로운 일인 경우가 많다.

LLM은 이러한 분류 수행에 미숙하다. 컴퓨터가 규칙을 엄격히 따르고 거의 무한한 복잡성을 가진 카탈로그를 보관할 수 있는 반면, LLM의 구조는 어떤 세부사항은 비밀로 하고 또 다른 사항은 공유하도록 허용하지 않는다. 모든 게 거대한 확률 집합일 뿐이며 마르코프 체인(Markov chains)을 따라 무작정 거ㄹ을 뿐이다.

심지어 LLM이 확률을 활용해 2가지 사실을 결합하고 명목상 비밀인 일부 사실을 추론하는 소름 끼치는 순간들도 있다. 언젠가 LLM이 강력한 비밀을 유지할 수 있는 시기가 올 수도 있다. 그러나 지금은 매우 공개적이고 유출 시 문제되지 않는 정보로 시스템을 잘 훈련하는 게 좋다. 

이미 기밀 데이터 유출 및 LLM 가드레일 우회와 관련된 유명 사례 몇 가지가 있다. 일부 회사의 경우 데이터 유출 방지용 도구를 만들기 위해 노력하고 있으나 신뢰할 수 있는 방법을 만들기까지는 시간이 걸릴 것이다. 그때까지 CIO는 제공 데이터에 대해 엄격한 통제를 유지하는 게 더 바람직할 수 있다. 

게으름의 유발
인간은 기계를 덜컥 신뢰하기 십상이다. 특히 업무 부담을 줄여줄 경우에 그렇다. LLM이 대부분의 경우 정확하게 업무를 처리하면 인간은 이내 신뢰하기 시작한다. 

인간에게 AI를 이중으로 점검하라고 요구하는 것은 별 효과가 없다. AI의 정확성에 익숙해지면 인간은 기계가 제대로 작동할 것이라고 믿은 채 나태해지기 시작한다. 

생성형 AI 덕분에 인간이 더 생산적이고 창의적인 작업에 몰두할 수 있다. 그러나 인간은 스스로 사고하는 것을 멈추고 기업은 결국 그 누구도 틀 밖에서 사고하지 않으려는 무기력 상태에 빠질 가능성도 감안해야 한다.

알 수 없는 실제 비용
LLM 사용에 필요한 정확한 비용은 아무도 모른다. 많은 API에 토큰당 비용이 명시되어 있는 가격표가 있다. 그러나 이 금액은 대개 벤처캐피털로부터 많은 보조금을 받아 책정된 것이다. 우버와 같은 서비스에서도 이와 같은 일이 발생하는 것을 보았다. 투자자들의 돈이 바닥나자 가격이 크게 상승했다.  

현재 가격이 앞으로도 이어지지 않을 것이라는 징후가 몇 가지 있다. 비디오 카드로 랙을 채워 LLM을 로컬에서 실행하면 될까? 그러나 이 또한 그리 저렴하기 어렵다. 또 필요시에만 비용을 지불하는 것과 같은 턴키 서비스의 모든 장점을 잃게 된다.  

저작권의 악몽
학교 숙제 수행 혹은 대학 입학 에세이 작성과 같은 일반적인 업무도 처리할 수 있는 고성능 LLM들이 이미 시장에 출시되어 있다. 그러나 대부분의 기업 업무는 이러한 일반적 속성을 가지지 않는다. 특정 비즈니스에 따라 결과를 맞춤화해야 하는 것이다. 기본적인 LLM이 기반을 제공할 수는 있다. 그러나 여전히 많은 훈련 및 미세 조정이 필요하다. 

이러한 훈련 데이터를 조합하는 탁월한 방법은 아직 없다. 일부 기업은 자체 통제가 가능한 데이터 세트를 보유하고 있다. 그러나 대부분의 기업은 저작권과 관련된 법적 문제가 해결되지 않았음을 깨닫고 있다. 일부 저자는 AI 훈련에 자신의 글이 활용되는 것과 관련해 의견을 묻지 않았다며 소송을 제기하고 있다. 일부 아티스트는 자신이 표절 피해를 입었다고 생각한다. 프라이버시 문제는 여전히 해결 중이다. 
 
고객 데이터로 AI를 훈련시킬 수 있을까? 저작권 문제는 해결되었나? 올바른 법적 혁식을 갖추고 있는가? 데이터는 올바른 형식으로 사용할 수 있는가? 기업에 바로 적용시킬 수 있는 훌륭한 맞춤형 AI를 생성하는 데 방해가 되는 질문은 상당히 많다. 

벤더 종속의 초래
이론적으로 AI 알고리즘은 사용자 인터페이스의 각종 복잡성을 추상화한 도구다. 경직되고 융통성이 없으면 실용성이 떨어진다. 벤더 교체 시 일부 프로그래머 팀이 글루 코드를 다시 작성하고 문제를 발생시키는 모든 작업을 수행해야 하는 상황을 감안하면 이해가 쉬울 것이다.

그러나 실제로는 괴리가 있다. API는 간단할 수 있으나 호출을 위한 JSON 구조와 같은 차이점들이 여전히 있다. 깊숙이 숨어 있는 벤더 종속 요인도 있다. API 차이가 미미하더라도 프롬프트 구조의 미묘한 차이로 인해 AI의 빠른 전환이 어려워지기 십상이다.

여전히 피상적인 지능
자료에 친숙하다고 해서 깊이 이해한다고 착각하면 안 된다. 알렉산더 포프는 “어설프게 배우면 안 배우는 것만 못하다”라고 말한 바 있다.  

몇몇 현자들은 인간 지능의 한계에 대해서도 유사한 문제에 주목했다. ‘이 모든 지식에도 불구하고 나는 사실 아무것도 모른다’라고 소크라테스는 결론 내린 바 있다. 세익스피어는 ‘현명한 사람은 자신이 어리석다는 것을 안다’라고 말했다. 그럴듯해 보이는 생성형 AI의 산출물이 실상은 단어의 얄팍한 조합임을 깨닫는 순간은 생각보다 흔하다. 

* Peter Wayner는 오픈소스 소프트웨어, 자율주행 차량, 개인정보 보호 강화, 디지털 트랜잭션, 스테가노그래피(stegano5raphy) 등 다양한 주제에 관한 16권 이상의 책을 저술한 저자다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.