Offcanvas

AI / 개발자 / 머신러닝|딥러닝 / 애플리케이션 / 오픈소스

“LLM은 우리랑 안 맞어”··· 멀티모달·sLLM에 투자 늘리는 글로벌 기업들

2024.05.22 Paula Rooney  |  CIO
대규모 언어 모델(LLM)은 생성형 AI 기술의 최전선에 있다. LLM의 우수성에도 불구하고, 모든 기업이 이를 활용할 수 있는 것은 아니다. 실제로 일부 기업들은 LLM의 대안이 되는 모델을 찾고 있다. 아직 틈새 시장에 불과하지만, 몇몇 글로벌 기업들은 새로운 AI 모델을 통해 비용 절감과 함께 해당 업계의 특성을 반영한 솔루션 개발에 힘쓰고 있다.
 
ⓒ Getty Images Bank

생성형 AI 열풍이 한창인 가운데, 일부 IT 리더들은 생성형 AI 성공을 이끈 주역인 대규모 언어 모델(LLM)이 내부 AI 프로젝트에 적합하지 않을 수 있다는 사실을 깨닫고 있다.

LLM은 생성형 AI의 대표하는 기술로 여겨진다. 텍스트를 이해하고 생성하는 것을 넘어 이제 LLM은 코드 생성, 이미지 생성에도 쓰인다. 동시에 생성형 AI 기반 비즈니스 실험에서 핵심적인 역할을 하고 있다.

하지만 일부 IT 리더들은 LLM이 항상 최적의 결과를 보장하는 것은 아니라고 지적한다. 이들이 관심을 갖는 대안은 멀티모달 모델이다. 멀티모달 모델은 스프레드시트, 벡터 데이터베이스, 비디오 및 오디오 데이터 등을 처리하여 다양한 용도에 맞는 결과물을 생성할 수 있기 때문에 주목받고 있다.

컨설팅 기업 IDC가 지난 12월 공개한 ‘생성형 AI 파운데이션 모델’ 분석 보고서에 따르면, 멀티모달 기반 모델은 텍스트, 오디오, 이미지, 비디오 등 여러 모드를 결합하고 이미지에 대한 캡션을 생성하거나 이미지에 대한 질문에 답할 수 있다. 예로는 구글의 가토(Gato), 오픈AI의 GPT-4o, 마이크로소프트 LLaVA, 엔비디아 NeVA, 비쿠냐, BLIP2, 플라밍고 등이 있다.

비영리 의료 기관 노스웨스턴메디슨(Northwestern Medicine)은 멀티모달 모델에 투자하는 대표적인 기업이다. 노스웨스턴메니슨의 첨단기술그룹은 델의 AI 혁신팀과 협력하여 흉부 엑스레이 이미지를 해석하고 주요 결과를 요약할 수 있는 자체 멀티모달 LLM을 구축했다. 이 모델로 인해 환자는 이전보다 약 80% 더 빠르게 결과를 받을 수 있게 되었다. 노스웨스턴메디슨과 델은 앞으로 CT 촬영 및 MRI에 특화된 멀티모달 LLM과 전체 전자 의료 기록에 대한 예측 모델을 개발할 예정이다.

노스웨스턴메디슨의 마취과 의사이자 신기술 의료 책임자인 모지야르 에테마디 박사는 “현시점에서 멀티모달이 널리 사용되고 있지 않다는 점에서 멀티모달 모델은 흥미롭다”라고 말했다. 에테마디 박사는 현재 모델로 방사선 전문의는 따로 필기 작업을 하지 않아도 됐다. 덕분에 이전 작업 방식과 비교했을 때 40%의 시간을 절약했다”라며 “LLM은 텍스트, 엑셀에 국한되었지만, 멀티모달 모델은 이미지와 엑스레이까지 분석한다. 훌륭한 모델이다”라고 설명했다.

멀티모달 모델 활용하다
근무 스케쥴 관리 서비스 업체인 메이크쉬프트(MakeShift)는 의료, 소매 및 제조 고객을 위한 복잡한 예측 스케줄링을 수행하기 위해 LLM을 넘어선 다른 모델에 투자했다. 대형 그래픽 모델(Large Graphical Model, LGM)이다.

메이크쉬프트의 CTO 대니 맥기네스는 “관리자와 직원을 위한 챗봇 개발에서는 LLM을 사용했지만, 벡터 데이터와 행이 수억 개 있는 데이터가 있는 대규모 그래픽 구조에서 예측 모델을 최적화하려면 LLM으로는 한계가 있었다”라고 설명했다. 이에 따라 메이크쉬프트는 MIT 스타트업 이키가이 랩스(Ikigai Labs)가 개발한 새로운 LGM을 도입했다.

맥기니스는 “우리는 복잡한 구조의 데이터와 대규모 그래픽 모델을 활용하여 변수 간의 인과관계와 상관관계를 파악하고 있다”고 말했다.

MIT의 AI 및 데이터 과학 부서 책임자인 데바브랏 샤와 비나약 라메쉬가 공동 설립한 이키가이 랩스는 행과 열로 구성된 표 형식 데이터를 위한 AI를 제공한다. 작년 말 2,500만 달러의 투자를 유치한 이키가이 랩스는 메이크쉬프트 외에 메디코, HSBC, 스피릿 할로윈, 태거닷컴, 퓨처 메탈, WIO를 고객사로 두고 있다. 사업 성장으로 지난 6개월 동안 직원 수를 두 배로 늘리기도 했다.  

메이크쉬프트가 제공하는 서비스는 다양한 요소를 고려해 스케쥴을 제안한다. 이때 교대 근무를 하는 경우 24시간 주 7일 일정을 모두 고려해야 하고, 노조 규정과 법까지 감안해야 하기에 추천 및 관리 과정은 복잡하다.

메이크쉬프트 엔지니어들은 작년부터 이키가이 랩스의 API와 모델을 사용하여 서비스를 개선하기 현재 개발한 기술을 배포했다. 맥기네스에 따르면, LGM 도입으로 스케쥴 예측 성능이 크게 향상되었다

맥기니스는 “AI가 계속 학습하고 다른 유형의 데이터를 모델에 통합할 수 있으면서 큰 발전을 이루고 있다”라며 “어떤 고객 일정 관리 기능을 개선하기 위해 직접 데이터를 추가하고 있다”라고 언급했다. 또한 그는 “한 소매업 고객과는 날씨 데이터를 가져오는 방안을 논의하고 있다”라며 “일기 예보, 대중교통 접근성, 매장 내 인구 밀집도와 같은 공공 데이터를 통합하는 부분도 이야기하고 있다”라고 밝혔다.

메이크쉬프트가 이키가이 랩스 모델을 사용하면서 얻은 또 다른 이점은 상관관계와 인과관계 측면에서 생각하지 못했던 시나리오를 떠올리고 데이터에 다른 질문을 던지기 시작했다는 부분이다. 맥기니스는 “의료 분야 고객 중 한 곳은 과거 일정, 특정 프로세스 및 금융 거래 외에 다른 데이터를 쓸 수 없는지 살펴보고 있다”라고 밝혔다.

생성형 AI 기업 모자익(2023년 데이터브릭스에서 인수) 설립자이자 데이터브릭스의 AI 담당 부사장인 나빈 라오는 “물론 LLM도 마크업 언어를 통해 표 형식 및 텍스트외 다른 형태의 데이터를 처리할 수 있긴 하다”라고 설명했다.

더 작은 모델을 찾는 기업
가트너의 AI 애널리스트 아룬 찬드라세카란은 LLM이 더 강력한 멀티모달 모델로 진화하는 것은 예상된 일이지만, 막대한 비용 때문에 기업에서 실제 멀티모달 모델을 당장 활용하는 사례는 적을 것으로 분석했다.

찬드라세카란은 “2023년에는 AI는 텍스트와 프로그래밍 코드 모델이 중심이었다”라며 “그러다가 컴퓨터 비전이 적용된 모델이 등장하고 음성 모델과 같은 다른 유형의 모델이 등장했다. 하지만 근본적으로 이러한 모델을 구축하는 데는 컴퓨팅 및 데이터 리소스 측면에서 엄청난 비용이 든다”라고 설명했다.

대신 찬드라세카란은 많은 기업이 작게 모델을 만들면서 LLM이 가진 한계를 극복할 수 있을 것이라고 분석했다. 찬드라세카란은 “기존 LLM은 강력하며 기업의 여러 사용 사례에서 분명히 자리를 잡을 것”이라며 “동시에 기업에 필요한 충분한 성능을 제공하면서도 비용이 적게 드는 작은 모델을 우선시하는 가격 책정 전략을 취하는 것을 종종 보게 될 것”이라고 설명했다.

데이터브릭스의 나빈 라오도 이에 동의하며, 대형 모델을 구축하는 데 최대 2억 달러의 비용이 들 수 있다고 지적했다. 라오에 따르면 이 비용의 대부분은 필요한 컴퓨팅 성능이 아니라 모델의 성능을 결정하는 데이터 라벨링과 데이터 큐레이션에 투입된다.

또한 라오는 앞으로 AI 개발 시 ‘전문화’에 보다 주목해야 한다고 조언했다. 라오는 “전문성이 필요한가 또는 보편성이 필요한가에 맞춰 선택해야 할 부분이다”라며 “대규모 모델은 많은 토큰이나 많은 일반 텍스트 및 기능에 대해 학습하는 경향이 있다. 소규모 모델은 하위 집합이며 한 가지에 집중하는 경향이 있다”라고 밝혔다.

라오는 이런 상황에서 오픈소스가 CIO에게 도움이 될 수 있다고 조언했다. 라오는 “필요한 것은 모든 것을 다 준비하여 자체 데이터로 자체 모델을 구축할 수 있다”라며 “동시에 기존 오픈소스 모델을 가져와서 자신의 애플리케이션에 맞게 데이터를 미세 조정하고 맞춤 지정하는 전략을 취할 수도 있다”라고 설명했다.

식품 유통 기업 발도르 스페셜티 푸드(Baldor Specialty Foods)는 소규모 모델을 배포하는 것에 투자하고 있는 기업이다. 발도르 스페셜티 푸드 최고 정보 및 디지털 책임자 사티안 파라메스와란은 이런 소규모 모델로 편향이나 오류 없이 맞춤형 솔루션을 만들 수 있다고 보고 있다.

파라메스와란은 “LLM이 종종 환각 문제를 일으키기 때문에 더 작은 모델을 사용하려 한다”라며 “기업에서 직접 AI 모델을 을 만드는 일은 어려운 일이다. 그래서 우리는 허깅페이스에서 작은 모델을 가져온 다음 특정 작업에 맞게 맞춤화하고 있다”라고 밝혔다.

생성형 AI를 위한 새로운 방정식
오늘날 여러 엔터프라이즈 AI 업체가 AI 마켓플레이스에서 소규모 모델을 제공하고 있다. C3.ai, 아나플랜(Anaplan), 데이터이쿠, 허깅페이스가 그런 기업들이다.

이키가이 랩스에 따르면, 이들의 LGM은 스프레드시트와 같은 표 형식의 타임스탬프 데이터에 대한 확률적 표현을 제공한다. 모델이 학습되면서 무작위 변수 간의 관계, 누락된 데이터, 두 스프레드시트 간에 어떤 행이 비슷하게 보이는지 등을 파악하고 고객은 새로운 통찰력을 얻을 수 있다.

이키가이 랩스 CEO 샤는 “사용자는 스프레드시트에서 새로운 행을 생성할 수 있다. 예측 과정에서 변수가 중간에 변경되면 그 지점을 감지할 수 있다”라며 “궁극적으로 데이터 분석 및 예측의 정확도와 효율성이 향상될 수 있다”라고 설명했다.

또한 샤는 “이를 통해 사용자는 여러 스프레드시트에서 여러 차원으로 데이터를 생성할 수 있다”라며 “또한 데이터를 바탕으로 시뮬레이션과 데이터 증강을 수행하고, 대규모 그래픽 모델을 활용하여 의미 있는 통찰력을 얻을 수 있다”라고 밝혔다.

물론 이러한 모델들을 어느 정도로 맞춤화할 것인지를 결정하는 데 있어 비용은 핵심적인 고려 사항이 될 것이다. 현재 텍스트 전용 LLM은 엄청난 컴퓨팅 성능을 필요로 한다. 대형 칩 제조업체와 클라우드 제공업체까지 막대한 컴퓨팅 파워를 더 많이 공급할 수 있는 반도체를 개발하기 위해 경쟁하고 있다. 기업은 비즈니스 효율성을 높이고 혁신을 이끌어낼 수 있는 새로운 통찰력을 확보하기 위해, 다양한 규모의 모델을 지속적으로 실험하고 실제 운영에 적용할 것이다.

현재 많은 기업들이 실험 형태로 LLM을 사용해 보고 효율성을 확인한 후 이를 실제 제품 및 서비스에 도입하고 있다. LVM과 LGM의 사용은 아직 초기 단계에 머물러 있지만, 메이크쉬프트같은 얼리 어답터들은 성과를 거두고 있다.

메이크쉬프트의 맥기니스는 “우리는 기술로 각 기업에 필요한 최적의 근무 스케쥴을 제공하고자 한다”라며 “이때 지위나 직급 정보는 물론 근무지 이동 여부, 노조 가입 유무 등의 데이터를 통합하고 있다. 또한 번아웃, 초과 근무 비용 등을 고려해서 적절한 근무 스케쥴을 예측하고 있다”라고 설명했다.

맥기니스는 AI의 도움 없이 이러한 작업을 수행하는 것은 상당히 복잡하고 어려울 수 있다고 설명했다. 하지만 멀티모달 모델과 특정 작업에 초점을 맞춘 소규모 모델 덕분에 기술 구현 난이도를 낮출 수 있었다고 전했다.
ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.