지난 12일 리눅스 재단이 OMI(Open Model Initiative)를 지원하겠다는 발표가 나온 뒤, 이 프로젝트가 윤리적 LLM의 개발을 이끌 수 있을 것이라는 분석이 나오고 있다. OMI는 기존의 상용 모델과 동등하거나 더 나은 품질을 유지하면서도 사용 제한이 없는 커뮤니티 기반 LLM을 만드는 것을 목표로 삼고 있다.
컨설팅 기업 에베레스트 그룹(Everest Group)의 데이터, 분석 및 AI 분야 담당자인 아비지안 말릭은 “OMI가 리눅스 재단에 합류한 핵심 목표 중 하나는 생성형 AI 모델을 훈련할 때 사용하는 데이터의 윤리적인 사용을 장려하고 확산시키는 것”이라고 설명했다. 그러나 말릭은 데이터 보호에 대한 인식이 높아지고 데이터 관련 프라이버시와 사용 정책이 강화되면서, 윤리적으로 데이터를 사용해 AI 모델을 훈련하는 것이 점점 더 어렵게 될 것이라고 전망했다. 현재 오픈AI와 스태빌리티AI와 같은 여러 상용 LLM 제공업체는 모델 훈련 과정에서 저작권을 침해했다는 혐의로 소송에 직면해 있다.
OMI(Open Model Initiative)란 무엇인가?
OMI는 인보크(Invoke), 시비타이(Civitai), 컴피 오르그(Comfy Org)라는 세 개의 스타트업이 6월에 만든 프로젝트로, 개발자, 연구자, 기업이 함께 모여 개방적이고 허용적인 라이선스를 가진 AI 관련 모델 기술을 만들겠다는 목표를 추구하고 있다. 리눅스 재단에 따르면, 허용적인 라이선스는 커뮤니티 구성원이 별도의 의무 없이 기여를 할 수 있는 환경을 만들어 많은 사람의 참여를 독려할 수 있다. 오픈소스 코드를 바탕으로 상용 소프트웨어를 개발하는 경우에도 매우 유용하다.
OMI의 핵심 목표는 모델 훈련 및 추론에 대한 깊은 전문성을 결합해 오픈AI, 구글, AWS와 같은 기업이 제공하는 상용 모델과 동등하거나 그 이상의 품질을 가지면서도 사용 제한이 없는 모델을 개발하는 것이다. OMI는 커뮤니티가 주도하는 운영위원회에 의해 관리된다. 또한 협력적 커뮤니티 개발을 위한 거버넌스 프레임워크와 작업 그룹이 별도로 만들어질 예정이다. OMI 운영진은 향후 오픈소스 커뮤니티를 대상으로 설문조사를 실행하고 모델 연구 및 훈련에 대한 피드백을 수집하고, 모델 상호 운용성과 메타데이터 실습을 향상시키기 위한 개방형 표준을 만들겠다고 밝혔다.
AI 모델뿐만 아니라 OMI는 투명한 훈련 데이터셋을 개발하고 보안성을 파악하기 위한 테스트 모델을 제작할 예정이다. 리눅스 재단에 따르면, 연말까지 OMI AI 모델의 초기 버전과 이를 세부적으로 조정할 수 있는 스크립트를 커뮤니티에 공개할 계획이다.
OMI가 기업에게 중요한 이유
OMI가 중요한 이유는 기존 AI 모델과 다른 방향성을 추구하고 있기 때문이다. 대표적으로 메타, 미스트랄, 앤트로픽과 같은 LLM 제공업체는 소스 코드를 비공개하고, 공개된 경우에도 사용 정책에 제한을 두고 있다.
에베레스트 그룹의 AI 분야 책임자인 수실 메논은 메타가 라마 모델을 로열티 없이 사용할 권리를 제공하지만, 소스 코드를 제공하지는 않는다고 설명했다. 메논은 “메타는 라마 3 모델의 월간 활성 사용자 수가 7억 명을 초과하면 메타로부터 라이선스를 요청해야 한다는 조항을 추가했다. 이 조항과 소스 코드를 비공개한 부분 때문에 라마 모델 군이 오픈소스라고 불러도 되는지에 대해 논란이 제기됐다”라고 메논은 전했다.
애널리스트에 따르면, OMI의 목표는 외부 기업이 제한 없이 더 자유롭게 접근할 수 있는 AI 모델을 만드는 것이다.
OMI, 빅테크 모델보다 경쟁력 있을까?
OMI의 목표와 비전에 대해 애널리스트는 엇갈린 반응을 보였다. 컨설팅 기업 아말감 인사이트(Amalgam Insights)의 수석 분석가인 박현은 OMI가 오픈소스 모델을 위한 더 예측 가능하고 일관된 표준을 개발하는 데 기여할 것이라고 평가했지만, 에베레스트 그룹의 말릭은 OMI가 메타와 앤트로픽 같은 대형 벤더들을 상대로 경쟁력을 갖추기 어려울 것이라고 보았다.
말릭은 “LLM 개발은 매우 높은 수준의 인프라 자원을 필요로 하며, 이러한 규모를 달성하기 위해 대형 기술 기업과 스타트업은 막대한 자본 지출을 감수해 왔다”라고 “커뮤니티 기반 LLM을 만드는 과정에서도 이런 인프라 자원 확보가 큰 도전 과제가 될 수 있다”라고 설명했다. 또한, 말릭은 과거의 커뮤니티 기반 LLM이 확산되지 못한 이유로 대형 기업이 개발한 모델이 대부분의 지표에서 더 나은 성능을 보였기 때문이라고 설명했다. 말릭은 “예를 들어, 블룸(BLOOM)이라는 오픈소스 AI 모델은 성공적으로 개발됐지만, 비효율성과 채팅 인터페이스로 설계되지 않은 디자인 문제로 업계에서 그리 호응을 얻지 못하고 있다”라고 말했다.
그러나 말릭은 OMI가 모델을 구축하기 시작하면서 콘텐츠 개발 분야(2D/3D 이미지 생성, 적응, 시각 디자인, 편집 등)에서 적절한 틈새 시장을 찾을 수 있을 것이라고 전망했다. 말릭은 “비주류 사례(예: 3D 이미지 생성)나 특정 산업에 특화된 기술(예: 소매업을 위한 카탈로그 이미지 생성/편집)에서 OMI 모델을 활용할 수 있다”라고 설명했다.
인보크가 전문 스튜디오를 위한 생성형 AI 플랫폼이고, 시비타이가 창작자를 위한 생성형 AI 허브라는 점에서 말릭의 주장은 어느 정도 설득력이 있다.
또한, 다른 애널리스트는 OMI의 LLM이 소형 언어 모델(Small Language Models, SLM)로 활용될 수 있다고 전망했다. OMI의 모델이 특정 기능을 고효율로 수행하거나, 독특한 응용 프로그램 및 사용 사례에 특화된 기능을 제공할 수 있다는 것이다. 현재 OMI의 깃허브 페이지에는 아파치 2.0 라이선스 하에 세 개의 리포지토리가 올라와 있다.
ciokr@idg.co.kr