Offcanvas
오픈AI가 GPT-4를 훈련시키는 데 투자한 비용
7800만
달러
자료 제목 :
2024 AI 인덱스 보고서
The AI Index Report: Measuring trends in AI 2024
자료 출처 :
Stanford Institute
원본자료 다운로드
발행 날짜 :
2024년 04월 15일

AI / 개발자 / 디지털 트랜스포메이션 / 보안 / 오픈소스 / 클라우드

칼럼 | ‘라이선스 변경’ 보다 더 시급히 다뤄야 할 오픈소스 문제

2024.04.23 Matt Asay  |  InfoWorld
요즘 오픈소스 업계에서 라이선스 변경 문제가 큰 화제다. 상업적 활동을 제한하는 라이선스를 채택하는 경우(예:레디스, 레드햇)가 늘어나는 것이다. 하지만 이보다 더 걱정해야 할 문제가 있다. 바로 보안 그리고 AI와 관련된 오픈소스 프로젝트 문제를 더 들여다 봐야 한다.  
 
ⓒ Getty Images Bank

소셜 미디어 엑스(구 트위터)에서 오픈소스 관련 주제를 팔로우하고 있다면, ‘기업의 오픈소스 코드 라이선스를 변경 사례’와 관련한 많은 글을 볼 수 있을 것이다. OSI의 부의장인 티에리 카레즈는 ‘단일 벤더가 새로운 독점 플랫폼이 되는 이유’라는 제목의 글로 비슷한 지적을 했다. 끔찍하게 들리는가? 놀랄 것도 없다. 우리가 매일 쓰는 스마트폰, 노트북, 서버 등에서 사용하는 소프트웨어 대부분이 독점 형태다. 물론 그 독점 소프트웨어도 일부 오픈소스를 사용하며, 사실상 업데이트된 라이선스가 다시 적용된 것이다.

다음 데이터를 보면 라이선스 변경 건에 대한 우리의 걱정이 기우라는 것을 확인할 수 있다. 리눅스 재단 프로젝트(및 오픈소스 전반)에 참여하는 기업 1만 개 중 라이선스를 변경을 발표한 사례는 14건이었다. 이 중에 라이선스 변경을 위해 프로젝트를 포크한 사례는 단 3건에 불과했다. 깃허브에 등록된 오픈소스 프로젝트가 수천개가 있는 상황에서 단 14개 프로젝트가 라이선스를 바꿨다. 우리가 너무 극소수 사례에 집중하는 것은 아닐까? 이런 오픈소스 변경 사례보다 오픈소스 업계에서 중요한 문제는 사실 따로 있다.

보안성 문제, 기업 기여 늘어야 해결된다
악의적인 행위자들은 오픈소스의 작동 방식 자체를 공격하고 있다. 오픈소스의 장점은 누구나 참여할 수 있다는 것이지만, 이는 약점이 될 수도 있다. 최근 발생한 XZ Utils 익스플로잇과 유사한 공격에서 보았듯이, 정교한 악의적 공격자(아마도 국가 지원을 받는 공격자)는 오픈소스 기여 과정을 활용해 공격을 가한다. 이는 잘 알려지지 않은 정보다.
 
오픈소스가 제공하는 거의 무한한 공격 표면과 (런타임에 나타나는) 최신 공격의 정교한 특성을 고려하면 이러한 소셜 엔지니어링 기법은 탐지하기 어렵다. 물론 오픈소스 프로젝트가 가진 개방적인 특성으로 오히려 문제를 발견하고 수정하는 것이 상용 소프트웨어보다 쉬울 수도 있다. 하지만 상용 소프트웨어를 포함한 모든 소프트웨어에 오픈소스 코드가 거의 100% 포함되어 있기 때문에 그 과정을 문제는 마치 두더지 게임처럼 없애도 없애도 계속 등장할 수 있다.

리눅스 재단을 비롯한 오픈소스 관련 단체는 이미 오픈소스 프로세스에서 보안성을 높이 위한 새로운 방법을 모색하고 있다. 새로운 방법은 신규 오픈소스 기여자가 의심스러운 활동을 하는 사례를 어느 정도 적발할 수 있다. 그러나 수년에 걸쳐 발생한 XZ Utils 익스플로잇 같은 사례는 막을 수 있을까? 그럴 가능성은 낮아 보인다.

오픈소스 프로세스를 개선하는 과정은 복잡하다. 오픈소스 소프트웨어는 그 특성상 단일 벤더에서 작성된 것이 아니라 수많은 사람이 자유롭게 참여해 작성된 것이기 때문이다. 이러한 현실을 감안할 때 무엇을 할 수 있을까? 미국 사이버 보안 및 인프라 보안 기관(CISA)의 잭 케이블과 에바 블랙은 공급 업체가 더 적극적인 노력을 해야 한다고 조언한다. CISA는 “오픈소스 소프트웨어로 수익을 창출하는 모든 기술 제조업체는 자신이 의존하는 오픈소스 패키지의 책임 있는 소비자이자 지속 가능한 기여자가 되어야 한다”라고 설명했다.

필자는 오픈소스를 가장 많이 활용하나 아직 기여가 미미한 기업이 행동에 나서 달라고 말하고 싶다. 수조 달러 규모의 클라우드 기업들은 오픈소스로 수백억 달러를 벌어들이지만 이익을 얻은 만큼 유의미한 분량의 코드를 제공하지 못하고 있다. 오픈소스 보안성이 하룻밤 사이에 개선되기를 원하는가? 그럼 CISA가 제안하는 대로 공급업체가 책임을 지고 보안 개선을 위한 활동을 하며 커뮤니티에 기여해야 한다.

오픈소스 AI의 접근성 향상
우리가 봐야 할 또 다른 이슈는 AI와 관련 있다. 즉 지금은 오픈소스 AI를 만드는 것이 어려운 상황이다. 필자는 이미 칼럼 | ‘오픈소스’ AI에 대해 다시 생각해야 할 때라는 글과 칼럼 | ‘오픈소스’가 AI 분야에서 실패하지 않도록 하려면이라는 글을 통해 관련된 의견을 밝혔다. 이번 글에서는 굳이 자세히 다루지 않겠지만, AI는 접근성 측면에서 문제가 있다.

스탠포드 대학 보고서에 따르면, 오픈AI는 GPT-4를 훈련시키는 데 7,800만 달러를 투자했으며, 구글은 제미나이 울트라 모델을 훈련시키는 데 1억 9,100만 달러를 지출했다. 물론 이런 모델들만이 대형 언어 모델인 것은 아니며, ‘오픈소스’ AI 모델도 존재한다. (오픈소스가 AI의 정의가 아직 명확하게 정립되지 않았기 때문에 따옴표로 표기했다). 돈이 많은 기업만 접근할 수 있는 AI 모델이라면 과연 그 모델이 진정으로 개방된 오픈소스 AI 모델인지에 대한 논란도 있다.

물론 이것은 새로운 문제는 아니다. 똑같은 문제를 클라우드 영역에서도 볼 수 있다. 거의 20년 전에 필자는 구글과 야후 내 오픈소스 담당 임원에게 왜 더 많은 코드를 기여하지 않는지 물어본 적이 있다. 예상대로 그들은 분노했다. 두 회사 모두 오픈소스 기여의 선두 주자 중 하나였지만, 그들 중 한 명은 “우리가 인프라를 오픈소스화해도 외부 기업이나 개발자는 자원이 부족해서 사용할 수 없을 것”이라고 표현하기도 했다.

클라우드에서는 이 문제를 해결할 수 있는 방법(예: 쿠버네티스)을 발견했다. AI에서도 비슷한 방법을 찾을 수 있을 것으로 필자는 보고 있다. 하지만 그렇게 되기 전까지는 AI 관련 오픈소스는 미술관에 있는 그림처럼 볼 수는 있지만 실제로 코드를 만지거나 사용할 수 없는 존재다.

다시 앞서 제기한 문제를 살펴보자. 우리는 보안과 지속적인 혁신에 더 잘 투자하는 대신 몇 되지도 않는 라이선스를 변경하는 오픈소스 프로젝트를 이야기하는 데 시간을 허비할 수 있다. 사실 필자가 속한 기업인 몽고DB도 비슷한 상황에 처했다. 또는 ‘오픈소스 AI’를 정의하거나 일반 개발자(또는 고용주)에게 유용한 오픈소스 기술을 만들지 않고 말만 오픈소스 업계에 기여하겠다고 표현할 수 있다. 그리고 이런 활동은 기껏해야 소셜 미디어에서 관심만 받고 끝날 것이다.

그것보다 다른 방식을 선택할 수 있다. 오픈소스를 전 세게 모든 사람이 더 안전하게 사용할 수 있도록 돕고 부유한 기업 외에도 AI를 이용할 수 있는 기반을 마련하는 것이다. 이러한 노력은 더 어렵지만 사회적으로 실질적인 성과를 가져올 것이다.

*필자 Matt Asay는 몽고DB에서 개발자 릴레이션(developer relations) 업무를 담당하고 있다.
ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.