Offcanvas

AI / 개발자 / 머신러닝|딥러닝 / 신기술|미래 / 오픈소스

"오픈소스가 진입장벽 낮추는 최선책"··· 세일즈포스, 자체 머신러닝 기술 공개

2018.08.21 Scott Carey  |  Computerworld UK
세일즈포스가 자사의 엘라스틴(Einstein) AI 플랫폼용 머신러닝 기술을 오픈소스로 공개했다. '트랜스모그리피아(TransmogrifAI)'라고 명명된 이 오토ML(AutoML) 라이브러리는 아파치 스파크(Apache Spark)를 기반으로 작성된 스칼라(Scala) 코드다.

이를 이용하면 대규모 학습 데이터을 사용하지 않고도 고객의 행동을 예측하는 머신러닝 모델을 학습시킬 수 있다. 업체 측은 "이것은 머신러닝 개발자의 생산성을 높이기 위해 개발됐다. 컴파일 안정성을 강화한 API와 머신러닝 자동화, 모듈화, 재사용 등을 활용한다. 특히 자동화를 통해 작업 시간은 100배 가까이 줄이고 정확성을 더 높일 수 있다"라고 설명했다.

세일즈포스 엘라스틴팀의 데이터 사이언티스트 수석이사 서바 나바는 "3년전 우리가 머신러닝 기능을 세일즈포스 플랫폼에 처음 구현했을 때 기업이 사용할 정도의 대규모 머신러닝 시스템을 만드는 것은 훨씬 더 힘들다는 것을 깨달았다"라고 말했다.

당시 엘라스틴을 개발할 때 세일즈포스가 가장 염두에 둔 것은 모든 고객의 데이터를 입력하지 않고도 인사이트를 도출하고 대응 조치를 추천할 수 있도록 하는 것이었다. 당시에는 세일즈포스가 머신러닝 전문업체를 인수하기 전이어서 더 버거운 과제였다. 이후 세일즈포스는 메타마인드(MetaMind) 등 머신러닝 전문업체를 잇달아 인수했다. 이 메타인드의 창업자가 현재 세일즈포스의 수석 사이언티스트인 리처드 사처다.

세일즈포스의 CEO 마크 베니오프는 "만약 우리가 데이터를 표준화하지 못했다면 여기까지 올수도, 인텔리전스를 적용할 수도 없었을 것이다. 현재 우리는 페타바이트 이상의 엄청난 데이터를 갖고 있다. 머신러닝에 꼭 필요한 데이터다. 더 중요한 것은 이 데이터를 고객과의 신뢰 속에서 어떤 갈등 없이 운영하고 있다는 것이다"라고 말했다.

나바는 더 자세한 설명을 내놓았다. 그는 "우리는 개별 고객의 필요에 맞는 머신러닝 모델을 만들어야 했다. 설사 공통 모델을 모델을 만들 수 있다고 해도 모든 고객의 데이터가 모두 다르기 때문에 이 모델은 전혀 의미가 없다. 실제로 각 기업의 데이터는 서로 다른 비즈니스 프로세서를 통해 스키마와 형태, 편향성 등에서 완전히 다르다. 따라서 머신러닝이 고객에게 실제로 도움이 되도록 우리는 수천개의 개인화된 머신러닝 모델을 만들어 적용해야 하고, 각 모델은 개별 고객의 데이터의 개별 사용 목적에 따라 학습이 진행되는 방식이어야 했다"라고 말했다.

이어 "각 활용 사례에 맞는 데이터 사이언티스트를 모두 고용할 것이라 아니라면 이를 달성할 수 있는 유일한 방법은 자동화다. 오토ML 솔루션 대부분은 전체 머신러닝 워크플로우의 매우 좁은 영역에 집중하거나, 혹은 이미지나 음성, 언어 등 비구조화된 동질의 데이터에 적합하기 때문이다. 또한, 다양하고 방대한 비정형 데이터에 맞춰 데이터 효율적인 모델을 빠르게 만드는 해법도 필요했다"라고 덧붙였다.


이러한 고민의 최종 모습이 단일 모듈러 머신러닝 모델이었다. 여러 도메인 특화된 모델에서 더 작고 개인화된 데이터 세트에서 작동한다. 나바는 "코드 몇 줄 만으로 데이터 과학자가 데이터 클린징, 기능 수정, 모델 선택 등의 작업을 자동화할 수 있다. 수천개 모델을 최소한 수작업으로 실제 운영환경에 적용할 수 있다. 모델을 변경하는 평균 전환시간도 수주에서 몇시간으로 줄어든다. 이러한 자동화는 기업 환경에서 확장성을 구현하는 데 필수적이다. 오늘날 모든 기업이 머신러닝을 더 많은 업무에 적용하고 있으므로 자동화는 머신러닝의 혜택을 실현하는 핵심 기술이다"라고 말했다.

그렇다면 세일즈포스는 왜 이 프로젝트를 오픈소스로 공개했을까? 세일즈포스는 아파치 스파크를 오랫동안 사용해 왔고 많은 공헌도 했다. 나바는 트랜스모그리피아 공개가 그 연장선에 있다고 설명했다. 그는 "머신러닝은 기업의 운영방식을 바꿀 잠재력을 갖고 있다. 우리는 머신러닝에 대한 새로운 생각과 코드를 공유하는 것만이 머신러닝 도입장벽을 낮추는 유일한 방법이라고 믿고 있다. 오픈소스로 개발하는 것으로 통해 이 기술이 계속 발전하고 모든 사람이 이를 활용할 수 있도록 지원할 것이다"라고 말했다. ciokr@idg.co.kr 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.