Offcanvas

AI / 개발자 / 분쟁|갈등 / 오픈소스 / 클라우드

칼럼 | 2024년 오픈소스, 클라우드와 AI에 발맞춰야 한다

2024.01.02 Matt Asay  |  InfoWorld
오늘날 특히 중요한 기술로는 클라우드와 AI가 있다. 그리고 두 기술 모두 기존 오픈소스 영역을 넘어서고 있다. 이제 오픈소스를 새롭게 정의해야 할 때다. 
 
Image Credit : Getty Images Bank

오픈소스의 선구자인 브루스 페렌스가 최근 한 인터뷰에서 언급한 내용 중에서 한 가지는 맞고 한 가지는 틀렸다. "(오픈소스) 라이선스가 더 이상 작동하지 않는다"라는 그의 말은 정확하다. 그러나 그 이유에 대해서는 틀렸다. 그는 "기업들이 각종 허점을 발견했기 때문"이라고 말했다.

오픈소스가 그 어느 때보다 중요해졌다. 문제는 현 시대의 주요 기술 트렌드인 클라우드 컴퓨팅과 인공지능에 대해서는 관련성을 잃어가고 있다는 점이다. 2024년, 오픈소스는 이들 기술을 따라잡을 필요가 있다.

클라우드와 오픈소스
일각에서는 몽고DB(필자가 속한 조직이다), Neo4j, 엘라스틱, 하시코프 등의 회사를 유행처럼 비난하곤 한다. 이들 기업이 비즈니스 소스 라이선스, 커먼즈 조항, 서버사이드 퍼블릭 라이선스(SSPL) 등의 라이선스로 오픈소스를 오염시킨다는 주장이다. 그러나 정작 문제는 따로 있다. 클라우드에 적합하지 않은 오픈소스 라이선스가 클라우드 서비스 배포에 사용되고 있다는 사실이다.

동의가 어려운가? 그렇다면 오픈소스 정의(Open Source Definition)를 관할하는 오픈소스 이니셔티브(OSI)의 전무이사 스테파노 마풀리의 이야기 하나를 상기할 일이다. 마풀리는 한 인터뷰에서 "오픈소스 영역이 소프트웨어가 배포되고 실행되는 방식의 진화에 대응하지 못하고 있다"라고 말했다. 

모든 오픈소스 라이선스는 클라우드 이전 시대에 고안됐다. 그리고 OSI는 AGPL(Affero General Public License)이라는 클라우드 네이티브가 아닌 대안을 수용했다. 마풀리는 "변화하는 현실에 대해 우리는 제대로 주의를 기울이지 않았다. 이로 인해 클라우드 비즈니스에 많은 긴장이 조성됐다"라고 말했다.

일부 긴장감은 필자가 AWS에서 재직하던 시절에 이미 가시화됐다. 몽고DB가 SSPL을 오픈소스 라이선스로 승인 받고자 했던 시도가 대표적이다. 그러나 결국 몽고DB는 해당 시도를 철회했다. 안타까운 일이다. GPL을 좋아하는 이라면 기본적으로 클라우드화된 GPL인 SSPL도 좋아할 것이기 때문이다.

비즈니스 소스 라이선스 및 여타 최신 라이선스와 달리, SSPL은 특정 종류의 소프트웨어 사용에 차별을 두지 않는다(즉, 상업적 또는 경쟁적 목적으로 소프트웨어를 실행하는 것에 대한 제한이 없다). 소프트웨어를 서비스로 배포하려 하는데, 소프트웨어를 구동하는 데 필수적인 인프라가 폐쇄되어 있다면 소프트웨어를 검사, 수정, 실행할 수 있는 자유가 무슨 소용이 있을까? (AGPL과 SSPL의 차이점은 여기에서 명확하게 확인할 수 있다).

2024년 OSI가 해야 할 작업 하나는 클라우드에 적합하도록 오픈소스 정의를 업데이트하는 것이다. 꼭 SSPL일 필요는 없다. 단 ‘OSD의 오픈소스가 가정하는 방식’으로 오늘날의 소프트웨어들이 배포되는 것만은 아니라는 사실을 반영해야 한다. 마차 시대의 정의를 사용해 전기 자동차를 설명하려 들어서는 안 될 것이다.

AI 시대와 오픈소스
클라우드가 오픈소스를 앞지른 만큼, AI 또한 오픈소스의 적절성을 희박하게 만들고 있다. 이에 대해 자세히 설명한 적이 있지만(여기여기 참조), 근본적인 질문으로 귀결된다. ‘오픈소스가 보존하고자 하는 '코드'란 무엇일까?’라는 질문이다.

아린의 CEO 매흘 샤와의 대화에서 이 ‘코드 문제’에 대해 논의했던 바 있다. 해당 대화를 그대로 인용하면 다음과 같다. 

“첫 번째는 선별된 훈련 데이터를 소프트웨어 프로그램의 소스 코드처럼 생각하는 것이다. 여기서부터 시작하면, 훈련(소프트웨어 프로그램의 소스 코드처럼)은 소스 코드의 컴파일과 같고, 트랜스포머 모델 또는 LLM의 심층 신경망 아키텍처는 컴파일된 프로그램이 실행되는 가상 하드웨어 또는 물리적 하드웨어와 같다. 이 때 가중치는 컴파일된 프로그램다.”

이는 합리적으로 보이지만 곧바로 몇 가지 중요한 질문으로 이어진다. 첫째, 큐레이션된 데이터는 다른 사람이 소유하고 있는 경우가 많다. 둘째, 가중치가 부동 소수점 숫자에 불과하기 때문에 제대로 작동하지 않을 수 있다. 

이것이 1과 0으로 이루어진 코드에 라이선스를 부여하는 것과 무엇이 다를까? 라이선스가 아키텍처에 있어야 할까? 같은 아키텍처라도 가중치가 다르면 완전히 다른 AI를 구현할 수 있다. 그렇다면 가중치와 아키텍처에 대한 라이선스가 있어야 할까? 그럴 수도 있지만, 소스 코드에 액세스하지 않고도 미세 조정과 명령어 튜닝을 통해 프로그램의 동작이 달라지게 될 수 있다. 또 개발자가 종종 원래 가중치와 다른 델타 또는 차이점을 배포하는 것이 현실이다. 이때 델타에 원래 모델과 동일한 라이선스가 적용될까? 완전히 다른 라이선스를 가질 수 있을까?

간단히 말해서 LLM을 오픈소스라고 쉽게 말할 수 없는 이유는 아직 정확히 무엇이 오픈소스가 되어야 하는지 결정할 수 없다는 것이다. 이는 SSPL이 해결하려고 했던 문제와 비슷하지만 훨씬 더 복잡한 문제다. 깃허브의 개발자 정책 책임자인 마이크 링스베이어는 "오픈소스 AI가 무엇인지에 대한 정해진 정의는 없다"라고 말한 바 있다. 이 난제를 해결할 수 있는 방법은 아직 없다고 할 수 있다.

다행히 이번에는 OSI가 잠자고 있는 것이 아니라 AI를 위한 OSD가 무엇이어야 하는지 적극적으로 연구하고 있다. 하지만 마풀리는 "매우 복잡한 시나리오"라고 전했다. 필자의 새해 소망은 OSI가 클라우드와 AI 모두를 위한 OSD 업그레이드를 책임지는 것이다. 우리는 지난 몇 년 동안 오픈소스 원칙을 지키지 않는 기업들을 비난해왔고, OSI는 소프트웨어의 주요 트렌드에 부응하지 못했다. 올해는 그런 일을 멈춰야 한다.

* Matt Asay는 몽고DB의 개발자 관계 업무를 담당하고 있다. 그러나 본 글은 몽고DB의 입장이 아니다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.