Offcanvas

AI / 분쟁|갈등 / 오픈소스

칼럼 | 오픈소스 AI의 정의를 둘러싼 혼란과 현실

2024.07.31 Matt Asay  |  InfoWorld
AI에 대한 과대포장이 드디어 현실을 만났다. 알파벳의 최근 실적 발표에서 CEO 순다르 피차이는 구글 클라우드의 생성형 AI 솔루션이 광범위하게 이용되고 있다고 자랑했지만, 여기에는 커다란 함정이 도사리고 있다. 피차이는 "우리는 가치를 실현하는 데 있어 더 깊은 진전을 이루고 있으며, 매우 낙관적이다. 하지만 이런 일에는 시간이 걸린다"라고 말했다. 무슨 뜻일까? 생성형 AI가 곳곳에서 활용되고 있지만, 수익을 창출하는 진지한 애플리케이션에는 많이 채택되지 않고 있다.
 
ⓒ Getty Images Bank

이는 아마도 "오픈소스 AI"가 도대체 무엇을 의미하는지 파악할 시간을 벌어준다면 점에서 좋은 일이다. 메타 CEO 마크 저커버그를 비롯한 여러 전문가가 오픈소스가 LLM과 AI 전반을 장악할 것이라고 말했다는 점에서 중요한 부분이다. 실제로 그렇게 될지도 모른다.

하지만 OSI와 관련 전문가들이 오픈소스의 정의를 업데이트하기 위해 위원회를 구성하는 동안 메타를 위시한 주요 플레이어들은 업계를 정의하는 모델을 출시하면서 이를 "오픈소스"라고 부르고 있다. 일각에서 오픈소스의 정의 맞지 않는 라벨을 붙였다고 질책해도 전혀 신경 쓰지 않는다. 사실 오늘날의 모델 중 기본적으로 우리가 전통적으로 생각해 온 방식으로 '오픈소스'라고 할 수 있는 것은 없다.

과연 오픈소스 정의는 중요한가? 어떤 사람은 절대적으로 중요할 뿐만 아니라 가장 중요한 것이라고 주장할 것이다. 그렇다면 우리는 아직 해결책이 없다. OSI 최고 디렉터 스테파노 마풀리의 말을 요약하면, "AI 모델을 다루려면 학습된 모델, 학습 데이터, 이 데이터를 전처리하는 데 사용되는 코드, 학습 프로세스를 관리하는 코드, 모델의 기본 아키텍처 또는 기타 여러 가지 미묘한 세부 사항에 액세스할 수 있어야 한다." 이는 단순히 코드에 대한 액세스 권한의 문제가 아니다. 문제의 핵심은 데이터이다.
 

정의와 용어를 둘러싼 신경전

OSI의 AI용 오픈소스 정의 위원회에 참여하고 있는 줄리아 페라이올리는 "데이터가 개방되지 않으면 시스템도 개방되지 않는다"라고 주장한다. AI 모델을 학습시키는 데 사용되는 데이터가 없다면, AI 모델은 유용한 방식으로 개방되지 않기 때문이다. AI에서는 코드를 움직이고 목적을 부여하는 데이터 없이는 코드 같은 것은 존재하지 않는다.

참고로, 페라이올리를 비롯한 많은 AWS 직원이 이런 주장을 하는 것이 다소 아이러니하게 느껴지는데, 이는 오픈소스 지지자들이 클라우드에 대해 말한 것과 비슷하기 때문이다. 소프트웨어에 생명을 불어넣는 하드웨어 구성이 없다면 소프트웨어가 무슨 의미가 있을까? 일부, 특히 대형 클라우드의 직원들은 관련 인프라를 오픈 소싱하지 않고는 클라우드에서 소프트웨어를 실행하기 어렵다면, 그런 소프트웨어는 진정한 의미로 개방적이라고 할 수 없다고 생각한다. 맞다. 하지만 이는 고객을 위해 해당 모델을 실행하기 위해 다른 사람의 데이터를 요구하는 것과 무엇이 다를까? 필자는 대형 클라우드의 직원들이 악의적으로 운영한다고 생각하지 않는다. 다만 그들이 이 문제를 충분히 성찰하지 않았다고 생각한다. 그렇기 때문에 필자는 오픈소스 AI의 결함을 수정하려면 오픈소스 클라우드의 유사한 결함을 다시 살펴봐야 한다고 주장했다.

한편, 많은 데이터를 보유한 기업은 개발자가 이 문제에 관심을 갖는지 전혀 알 수 없기 때문에 (클라우드 업체가 카피레프트 문제에 항복할 인센티브가 거의 없는 것과 마찬가지로) 이 문제를 해결할 인센티브가 전혀 없다. 익명을 요구한 한 업계 오픈소스 임원은 개발자들이 오픈소스의 위상에 관심이 없다고 말한다. 이 임원의 말에 따르면, "AI 개발자들은 오픈소스의 의미에 대한 OSI나 다른 사람들의 강의에 관심이 없고 원하지도 않는다"고 한다. 메타의 움직임은 확실히 그 설명에 부합한다. 저커버그는 조금의 아이러니도 없이 오픈소스의 가치에 대해 장황하게 설명했다. "라마가 업계 표준이 될 수 있는 길은 세대를 거듭할수록 일관되게 경쟁력 있고 효율적이며 개방적인 것이다"라고.

다만 라마는 개방되어 있지 않다. 적어도 OSI의 설명에 따르면 그렇다. 다시 말하지만, 정의가 중요할까? 결국, 많은 개발자가 메타의 라마 2가 오픈소스의 엄격한 정의에 부합하지 않는다는 사실에 개의치 않고 행복하게 사용하고 있다. 충분히 개방되어 있다는 것이다.
 

충분히 개방적이라는 기준

정보를 잘 알고 있는 오픈소스 사람들 사이에서도 "오픈소스"로 인정받기 위해 AI에서 무엇이 공개되어야 하는지에 대한 합의가 이루어지지 않고 있다. 예를 들어, 짐 자겔스키는 데이터가 오픈소스 AI에 필수적이라는 생각에 반대한다. 학습 데이터를 개방한다는 아이디어는 좋지만, 그렇게 하면 모든 종류의 개인정보 보호 및 배포 문제가 발생할 수 있다.

OSI는 10월까지 AI 오픈소스에 대한 정의 초안이 나올 것으로 예상한다. 8월이 거의 다 되어가고 있고 페라이올리와 같은 주요 참가자들이 오픈소스 AI 정의의 중요한 구성 요소가 "비참하게 잘못 안내되고", "모호하며", "기준에 상당히 미치지 못한다"고 지적하고 있다는 점을 고려하면, 10월까지 업계가 명확성을 확보할 수 있을지는 의문이다. 한편, 메타와 다른 업체들(기본적으로 OSI가 원하는 만큼 개방적인 업체는 없다)은 계속해서 개방형 모델을 출시할 것이며, 보통 이를 "오픈소스"라고 부를 것이다. 유럽 규제 당국과 같은 일부 기관은 자신들이 수용하는 소프트웨어와 AI에 "오픈소스"라는 친근한 용어를 붙이기를 원하기 때문에 그렇게 할 것이다.

다시 말하지만, 정의가 중요할까? 오픈소스의 의미가 모호해지면 업계가 멈춰 설까? 글쎄요. 개발자들은 이미 라마 2와 다른 "충분히 개방적인" 모델을 사용해 키보드로 투표하고 있다. OSI가 이런 모멘텀을 이어가려면 오픈소스에 대한 원칙적이면서도 실용적인 접근 방식을 취하고 가장 열렬한 팬들의 독단적인 지시를 따르는 것을 중단해야 한다. 클라우드에 대해서는 그러지 않았기 때문에 AI에만 엄격한 정의를 요구하는 것은 설득력이 부족하다.
editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.