Offcanvas

AI / 머신러닝|딥러닝 / 신기술|미래 / 인문학|교양

칼럼 | 공유지의 비극?··· 챗GPT와 LLM의 어두운 미래

2023.06.01 Matt Asay   |  InfoWorld
기술 세계에서는 모두가 결국 기생 생물이다. 드루팔을 만든 드리스 보이타르트가 몇 년 전에 말했듯이 사람은 모두 만드는 사람(maker)보다는 취하는 사람(taker)에 가깝다. 보이타르트는 오픈소스 커뮤니티의 일반적인 관행을 두고 “취하는 사람은 자신이 이익을 취한 오픈소스 프로젝트에 유의미한 기여로 갚지 않는다. 오히려 의존하는 프로젝트에 해를 끼친다"라고 말했다. 열정적인 오픈소스 기여자라 해도 기여하는 것보다 취하는 것이 더 많을 수밖에 없다.
 
기생적 경향은 다른 이의 콘텐츠에 의존하는 구글, 페이스북, 트위터에서도 드러났지만, 현재 생성형 AI에서 훨씬 더 선명하게 나타난다. 소스그래프(Sourcegraph) 개발자인 스티브 예게는 “LLM은 소셜, 모바일 또는 클라우드 이후의 가장 큰 변화일 뿐만 아니라, 월드 와이드 웹 이후의 가장 큰 변화”라고 주장했다. 그 말이 맞을 수도 있지만, 대규모 언어 모델(LLM)은 근본 속성이 기생적이다. 다른 사람의 코드 저장소(깃허브), 기술적 질문에 대한 답(스택 오버플로우), 문헌 등에서 정보를 긁어오는 방식에 의존하기 때문이다.
 
ⓒ Getty Images Bank

오픈소스에서 그랬듯 콘텐츠를 만들고 모아서 배급하는 쪽에서는 콘텐츠에 대한 LLM 접근을 차단하기 시작했다. 예를 들어 와이어드(Wired)의 보도에 따르면 사이트 트래픽 감소를 겪고 있는 스택 오버플로우는 레딧과 마찬가지로 LLM 제작자에게 LLM 학습에 스택 오버플로우 데이터를 사용하려면 정당하게 돈을 내라고 요구하고 있다. 오픈소스에서 벌어졌던 라이선스 전쟁, 그리고 뉴스 발행사가 구글과 페이스북을 막기 위해 구축했던 페이월을 연상시키는 과감한 조치다. 하지만 정말 효과가 있을까?
 

공유지의 비극

물론 기술 기생충의 역사는 오픈소스 이전까지 거슬러 올라가겠지만 필자가 경력을 시작한 오픈소스 초기부터 살펴보자. 다른 사람의 기여에 기대 수익을 얻으려는 회사는 리눅스 또는 마이SQL의 극초창기부터 있었다. 예를 들어 리눅스 분야의 경우 최근 록키 리눅스(Rocky Linux)와 알마 리눅스(Alma Linux)라는 두 회사가 레드햇 엔터프라이즈 리눅스(RHEL)와의 완전한 호환성을 약속하고 나섰는데 정작 둘은 레드햇의 성공에는 아무것도 기여하지 않는다. 이 두 RHEL 클론의 성공에 따르는 자연스러운 결과는 숙주가 사라지고 이어 클론 스스로도 사라지게 된다는 것이다. 그래서 리눅스 업계에서는 이들을 가리켜 오픈소스의 '막장'이라고 칭하기도 한다.
 
지나친 표현일 수도 있지만 요지는 잘 보여준다. 한때 AWS를 향했던 이른바 '노천 채굴' 같은 맥락의 비판이다. 이 비판의 영향으로 여러 클로즈드 소스 라이선스의 변경과 비즈니스 모델의 왜곡, 그리고 오픈소스 지속 가능성에 대한 끝이 없어 보이는 논쟁이 촉발됐다.
 
물론 오픈소스의 입지는 그 어느 때보다 견고하지만 개별 오픈소스 프로젝트의 상태는 제각각이다. 몇몇 프로젝트와 프로젝트 유지관리자는 커뮤니티 내에서 '테이커'를 관리하는 방법을 마련했지만 그렇지 않은 프로젝트도 있다. 어쨌든 추세적으로 오픈소스의 중요성과 힘은 계속해서 커지고 있다.
 

우물의 고갈

LLM으로 돌아와 보자. JP 모건 체이스 같은 대기업은 수십억 달러를 투자하고 데이터 과학자, 머신러닝 엔지니어 등을 1,000명 이상 고용해서 개인화와 분석 등에서 막대한 금전적 효과를 거두고 있다. 많은 기업이 챗GPT와 같은 서비스를 공개적으로 채택하기를 주저하고 있지만 현실은 그 기업에 속한 개발자는 이미 LLM을 사용해서 생산성을 높이고 있다는 것이다.
 
그 효과의 대가가 이제 명확하게 드러나기 시작했다. 역사적으로 생산성 개선의 원천 역할을 해온 스택 오버플로우 같은 기업이 감당해야 하는 대가다.
 
예를 들어 시밀러웹(Similarweb)에 따르면 스택 오버플로우 트래픽은 2022년 1월 이후 매월 평균 6% 감소해왔고 2023년 3월에는 무려 13.9% 떨어졌다. 이 감소의 원인이 전적으로 챗GPT와 기타 생성형 AI 기반 툴이라고 단정하기는 어렵지만 영향이 없다고도 못할 것이다.
 
피터 닉시는 인터내셔널.io의 창업자이자 스택 오버플로우의 상위 2% 사용자이다. 지금까지 170만 명 이상의 개발자가 닉시가 작성한 답변을 봤다. 이처럼 스택 오버플로우에서 유명한 닉시도 “스택 오버플로우에 다시 글을 쓸 일은 아마 없을 것”이라고 말했다. 이유가 무엇일까? 챗GPT와 같은 LLM으로 인해 스택 오버플로우의 지식 풀이 고갈될 위험에 처했기 때문이다.

닉시는 “함께 지식 풀을 만들기를 멈추고 그 대신 각자 기계에 바로 쏟아붓는다면 어떤 일이 일어날까?”라고 물었다. 닉시가 말한 “기계”는 챗GPT 같은 생성형 AI를 의미한다. 예를 들어 깃허브 저장소, 스택 오버플로우의 Q&A 등을 이용해 학습된 깃허브의 코파일럿 같은 AI 툴에게서 답을 얻는다면 편리할 것이다. 그러나 스택 오버플로우와 달리 AI와의 질답은 비공개로 이뤄지고 따라서 공공의 정보 저장소로 구축되지도 않는다. 닉시는 “GPT4는 2021년 이전에 스택 오버플로우에서 올라온 질문을 이용해 학습됐다. 과연 GPT6은 무엇을 이용해 학습될까?”라고 질문했다.
 

일방통행 정보 고속도로

이제 문제가 보이는가? 이것은 그동안 오픈소스 분야에서 벌어졌던 실랑이보다 훨씬 심각한 문제일 수 있다. 닉시는 “이 패턴이 다른 곳에도 복제되고, 인류를 향해 외적으로 확산되던 집단 지식의 방향이 바뀌어 기계의 내부를 지향하게 된다면 이전의 모든 의존과는 비교할 수 없는 방식으로 기계에 의존하게 될 것”이라고 말했다. 그냥 ‘문제’라고 한다면 온건한 표현이다. 닉시는 “빠르게 성장하는 코로나19 변종 같이 AI는 오로지 성장의 힘만으로 지배적인 지식 소스가 될 것이다. 스택 오버플로우를 예로 들면 한때 사람에게 속했던 지식 풀이 트랜스포머 내부에 사용되는 겨우 가중치 하나로 전락하게 되는 것”이라고 강조했다.
 
여기에는 AI로 끊임없이 밀려 들어오는 엄청난 양의 현금뿐만 아니라 그 외에도 많은 것이 작용한다. 챗GPT 등에 의해 생성되는 정보의 상대적 가치도 살펴봐야 한다. 예를 들어 스택 오버플로우는 2022년 12월부터 챗GPT가 제공한 정보를 기반으로 한 답을 금지했다. 텍스트가 너무 많고 정보의 품질은 떨어진다는 이유다. “챗GPT에서 올바른 답을 얻을 평균적인 비율이 너무 낮고, 챗GPT에 의해 생성된 답을 게시하는 것은 사이트, 그리고 질문을 통해 올바른 답을 찾는 사용자에게 상당히 해롭다.” 챗GPT 같은 부류는 올바른 정보를 생산하도록 설계되는 것이 아니라 단순히 데이터의 패턴에 부합하는 확률론적 정보를 생산하도록 설계된다. 오픈소스에 '막장 기업'이 만연하다고 치자. 그러나 양질의 학습 데이터가 꾸준히 공급되지 않는 LLM은 스스로를 쓰레기 정보로 채우게 되고 유용성은 더 떨어지게 된다.
 
LLM과 생성형 AI의 가능성을 폄하하는 것이 아니다. 과거 오픈소스, 뉴스 발행사의 사례와 마찬가지로 오픈AI를 비롯한 여러 기업에 집단적으로 생산된 정보를 활용할 수 있도록 도와준 점에 감사한 마음을 가지면서, 동시에 레딧(그 자체가 개인적인 기여의 집합체)처럼 기여자가 각자의 역할에 금전적 대가를 기대하는 것을 지지할 수도 있다. 오픈소스는 이미 라이선스 전쟁을 겪었다. 이제 생성형 AI의 세계에서도 그와 비슷하되 더 큰 파급력을 가진 일이 곧 일어날 것으로 보인다.
editor@itworld.co.kr 
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.