Offcanvas

AI / CIO / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션

‘ML옵스 분야 이끈다’ 알아둘 만한 AI 스타트업 5곳

2021.06.23 Ian Pointer  |  InfoWorld
AI에 대한 관심이 고조되면서 AI 활용을 위한 소프트웨어와 인프라에 대한 갈증도 나타나고 있다. 이로 인해 ML옵스(MLops)라는 새로운 세계를 안내해 줄 스타트업들이 많이 등장했다. 데이터 준비와 훈련에서부터 배치와 그 이후 단계에 이르기까지 이들이 기업이 공략하는 지점도 다양하다. 특히 흥미로운 업체들을 소개한다.
 
Image Credit : Getty Images Bank

W&B
W&B(Weights & Biases)는 ML 분야에서 영향력 있는 존재로 자리매김하고 있다. 특히 잘 설계된 종합 실험 추적 서비스를 원하는 데이터 과학자들 사이에서 인지도가 높다. 

W&B의 서비스는 다양한 특징을 지닌다. 먼저 인기 있는 ML 라이브러리 거의 모두를 즉시 통합해 준다. (또한, 커스텀 지표 추가도 매우 간단하다.) 둘째, W&B는 사용자가 필요한 만큼 사용할 수 있다. 예를 들면, 텐서보드(Tensorboard)의 출력 강화 버전으로 사용하거나 하이퍼파라미터 튜닝에 대한 제어 및 보고 수단으로도 사용할 수 있다. 마지막으로 데이터 과학 팀원 전원이 결과를 확인하거나 다른 팀원이 실행한 실험을 재현할 수 있는 협력 센터로 사용될 수도 있다. 

기업에서는 W&B를 거버넌스 및 기원(governance and provenance) 플랫폼으로도 사용할 수 있다. 모델이 개발에서 생산 과정으로 가는 과정에서 어떤 입력값과 변환, 그리고 실험이 모델 구축에 사용되었는지에 대한 감사 흔적을 제공하기 때문이다.

주변에 데이터 과학자가 있다면 그들은 이미 W&B에 대해 알고 있을 가능성이 아주 높다. 또 회사 내에서 W&B를 쓰고 있지 않다면 쓰고 싶어 할 것이 거의 틀림없다. 오픈AI(OpenAI), 깃허브(GibHub), 세일즈포스(Salesforce), 엔비디아(Nvidia)에서도 W&B를 활용하고 있다. 

셀돈
셀돈(Seldon)은 엔터프라이즈 기능을 추가로 제공하는 오픈 코어 서비스 기업이다. 오픈소스 요소인 셀돈 코어(Seldon Core)는 고급 기능의 모델을 클라우드 네이티브 방식으로 배치한다. 여기서 고급 기능이란 추론을 위한 임의 모델 체인, 카나리 배치, A/B 테스팅, 멀티 암드 밴딧(Multi-Armed Bandit), 그리고 텐서플로(TensorFlow), 사이킷런(Scikit-learn), XG부스트(XGBoost)와 같은 프레임워크에 대한 즉시 지원 등이다. 셀돈은 ML 모델 점검 및 설명을 위한 오픈소스 알리바이(Alibi) 라이브러리도 제공한다. 모델 예측이 형성되는 방식에 대한 통찰력을 얻을 수 있는 다양한 기법이 포함되어 있다.

셀돈 코어의 흥미로운 특징은 사용자 기술 스택과의 조화 측면에서 믿기 어려울 정도로 유연하다는 점이다. 셀돈 코어는 단독으로 사용해도 되고 큐브플로(Kubeflow) 배치판에 넣어도 된다. ML플로(MLFlow)를 통해 만들어진 모델을 배치할 수 있고 아니면 엔비디아의 트리톤 추론 서버(Triton Inference Server)를 사용할 수 있다. 즉, 다양한 방법으로 최대 효과를 얻을 수 있게 해준다.

기업 대상 솔루션으로는 셀돈 디플로이(Seldon Deploy)가 있다. 대시보드, 감사 워크플로, 성능 모니터링 등 모델 관리용 종합 툴을 제공한다. 관리자와 감사관은 물론 데이터 과학자와 SRE를 겨냥한 것이다. 영국 기반의 스타트업인 셀돈은 감사 및 설명에 집중한 덕분에 금융업계에서 큰 인기를 확보했다. 예를 들면, 바클리즈(Barclays)와 캐피털 원(Capital One)이 셀돈의 서비스를 이용 중이다.

모델 배치 분야에 경쟁자가 많은 가운데 셀돈은 포괄적인 기능을 제공하는 한편 쿠버네티스(Kubernetes) 배치를 핵심 서비스로 제공하는 데 집중하고 있다. 아울러, 보다 종단간 솔루션을 원하는 회사들에게 유용한 엔터프라이즈 추가 기능도 제공하고 있다.

파인콘/질리즈
요즘 벡터 검색이 매우 핫하다. 벡터 검색은 최근 텍스트, 이미지, 오디오와 같은 영역에 걸친 ML의 발전 덕분에 검색 분야를 혁신하고 있다. 예를 들어, ‘크리넥스’(Kleenex)를 검색하면 유통 업체가 고른 휴지들이 검색되는데 유의어 대체 커스텀 규칙이 필요 없다. 벡터 임베딩 생성에 사용되는 언어 모델이 검색 질의를 벡터 공간의 같은 지역에 배치하기 때문이다. 이와 같은 프로세스를 소리 위치 파악이나 안면 인식 수행에 사용할 수 있다.

오늘날의 검색 엔진 소프트웨어는 벡터 검색 수행에 최적화되지 않은 경우가 많지만, 엘라스틱(Elastic)과 아파치 루씬(Apache Lucene)에서 지속적으로 연구되고 있다. 또한, 여러 오픈소스 대안들이 빠른 속도의 벡터 검색 기능을 규모 있게 제공하고 있다(예: NMSLib, FAISS, 어노이(Annoy)). 

또한, 벡터 검색 엔진을 설치하고 유지보수해야 하는 옵스 부서의 부담을 조금이나마 덜어주기 위해 많은 스타트업들이 등장했다. 예를 들면, 파인콘(Pinecone)과 질리즈(Zilliz)는 기업을 대상으로 벡터 검색을 제공하는 스타트업이다. 

파인콘은 순수한 SaaS 서비스이다. 사용자는 본인의 ML 모델이 생성한 임베딩을 파인콘 서버로 업로드하고 파인콘 API를 통해 질의를 전송한다. 보안, 확장, 속도 등 호스팅의 모든 측면과 그 밖의 운영 관련 문제는 파인콘 팀이 처리한다. 즉, 사용자는 유사성 검색 엔진을 불과 몇 시간 안에 가동시킬 수 있다는 뜻이다. 

질리즈는 질로우 클라우드(Zillow Cloud)라는 관리 클라우드 솔루션을 곧 출시할 예정이다. 이는 밀버스(Milvus)라는 오픈소스 라이브러리로 오픈 코어 방식을 취하고 있다. 밀버스는 NMSlib와 FAISS와 같이 흔히 사용되는 라이브러리를 포괄하여 개발자들이 자체 벡터 인덱스 구축과 유지관리에 쓸 수 있는 사용하기 쉽고 표현력 있는 API와 함께 간단한 벡터 검색 엔진 배치를 제공한다. 

Grid.ai
Grid.ai 는 파이토치 라이트닝(PyTorch Lightning)와 관련된 인물들의 작품이다. 파이토치 라이트닝은 파이토치를 기반으로 하는 인기 있는 고급 프레임워크로서 일반적인 파이토치 표준 조항의 많은 부분을 일반화해서 몇 개의 파라미터 스위치로 하나 또는 1,000개의 GPU 상에서 훈련하기 쉽게 만들어 준다. Grid.ai는 파이토치 라이트닝이 가져오는 단순화를 취해 진보했다. 따라서 데이터 과학자들은 코드를 로컬에서 실행할 때처럼 원활하게 일시적인 GPU 리소스를 사용해 모델을 훈련시킬 수 있다. 

하이퍼파라미터 스윕을 200개의 GPU에 걸쳐 한 번에 실행하고 싶은가? Grid.ai는 그렇게 하게 해 준다. 인프라 리소스의 프로비저닝(그리고 디커미셔닝) 전부를 막후에서 관리하고, 사용자의 데이터집합이 규모 있는 사용에 최적화되도록 해준다. 또 사용하기 간편한 웹 UI로 지표 보고서를 모두 묶어서 제공한다. Grid.ai는 콘솔에서 또는 주피터 노트북(Jupyter Notebook)에 연결된 상태에서 대화형 개발을 위한 인스턴스 스핀업에도 사용할 수 있다.

규모 있는 모델 훈련을 간소화하려는 Grid.ai의 노력은 한 번에 100개 이상의 GPU를 차지하는 훈련 실행을 정기적으로 스핀 업 해야 하는 회사들에게 특히 유용하다. 그러나 그러한 고객이 과연 얼마나 있는지는 두고 봐야 한다. 그래도 클라우드 비용을 최소화해 주는, 소속 데이터 과학자들을 위한 간소화된 훈련 파이프라인이 필요하다면 Grid.ai를 면밀히 검토해볼 가치가 있다. 

데이터로봇
데이터로봇(DataRobot)은 데이터 준비에서 생산 배치에 이르는 사용자의 엔터프라이즈 AI 생애주기를 모두 관할하려는 기업이다. 데이터로봇의 데이터 준비 파이프라인은 데이터 강화를 수월하게 하고 싶을 때 유용한 웹 UI 측면의 기능을 충실히 갖추고 있다. 또한, 데이터를 모델에 공급하기에 앞서 자동으로 프로파일화, 클러스터화하고 정리하여 사용자들(초심자 또는 전문가)을 돕는 도구가 포함되어 있다.

데이터로봇에 있는 자동화 ML 시설(facility)은 표적에 대한 한 쌍의 모델을 훈련시킨다. 따라서, 사용자는 최고 성능을 내는 모델이나 플랫폼에 업로드한 자체 모델 중 하나를 선택할 수 있다. 배치에 있어서는 플랫폼의 통합 ML옵스 모듈이 가동시간에서부터 시간 경과에 따른 데이터 드리프트에 이르는 모든 것을 추적한다. 따라서, 항상 해당 모델의 성능을 한 눈에 볼 수 있다. 

험블 AI(Humble AI)라는 기능도 있어서 낮은 확률의 이벤트가 예측 시간에 발생할 경우 모델에 추가 방호책을 둘 수 있게 해 준다. 물론 그와 같은 이벤트는 ML옵스 모듈을 통해 추적도 가능하다.

데이터로봇이 이 지면에 소개한 타 스타트업 대부분과 약간 다른 점은 사용자 자체 데이터센터와 하둡(Hadoop) 클러스터 내의 베어 메탈(bear metal) 상에 설치되는 한편, 사설 및 관리 클라우드에도 배치된다는 것이다. 이는 움직임이 빠른 스타트업에서부터 자리잡은 포춘 500대 기업에 이르는 고객을 상대하면서 다가올 엔터프라이즈 AI 플랫폼 전투의 모든 부분에서 경쟁하겠다는 의지로 해석될 수 있다.

ML옵스는 오늘날 특히 핫한 AI 분야 가운데 하나이다. AI 분야에 진입하는 회사들이 늘어나면서 가속기, 플랫폼, 관리 및 모니터링에 대한 수요 역시 지속적으로 증가할 전망이다. AI 골드러쉬에 합류하려는 기업이라면 위에 소개한 스타트업 5곳에서 곡괭이와 도끼를 공급받을 수 있다!
 
---------------------------------------------------------------
머신러닝 인기기사
->'의사결정은 아직… 목표는 최적화 찾기' 英 신생기업이 말하는 머신러닝의 현 주소
->'머신러닝을 더 쉽게' 6가지 툴
->"학습 데이터양을 1/40로"··· AI '준지도학습'의 이해
->'운영 데이터+머신러닝+자연어 처리'··· 오토데스크 '헬프 데스크 자동화' 분석
->요즘 화제 '챗봇'··· CMO가 알아야 할 7가지
 ->유비쿼터스 AI 시대··· 머신러닝이 차세대 BI인 이유
 ->'인지, 신경, 딥, 머신?'··· AI 분야 기본 개념 따라잡기
->기계학습 구현을 쉽게!··· 머신러닝 프레임워크 13종
 ->인공지능의 무한질주···협상·테스팅에도 접목
 ->칼럼 | 성큼 도래한 유비쿼터스 AI 세상··· 마음의 준비를 'Her'하라
->기계 학습을 최대한 활용할 수 있는 11가지 오픈소스 도구
---------------------------------------------------------------

ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.