2017.03.13

'AI·머신러닝 문턱 낮춘다'··· 구글 클라우드가 제시하는 4가지

Steven Max Patterson | Network World
지난 11월, 구글은 머신러닝 분야 연구의 권위자 페이페이 리(FeiFei Li)가 구글 클라우드 플랫폼 그룹에 합류할 예정이라고 발표했었다. 그러나 구글은 그녀가 구글 클라우드의 머신러닝 사업을 책임질 것이라는 점 외에 그녀를 구글에 스카우트 한 이유를 설명하지 않았다. 지난 8일 그 이유가 좀더 구체적으로 드러났다.



5개월이 지난 어제, 리는 구글의 클라우드 개발자 컨퍼런스인 클라우드 넥스트(Cloud Next) 2017 키노트에서 자신이 초점을 맞추고 있는 업무 5가지를 공개했다. 그녀는 더 많은 기업들이 머신러닝을 도입해 이용하도록 하는데 자신의 역량을 십분 발휘할 예정이다. 그녀는 다양한 산업에서 머신러닝이 해결할 수 있는 문제들을 연구하고, 기업이 머신러닝을 도입할 수 있도록 돕는 업무를 관장하고 있다.

머신러닝 관련 논문 100여 개를 발표한 스탠포드 교수가 아닌 기업 세일즈맨에게 맡겨질 업무로 들릴지 모르겠다. 그러나 이는 잘못 생각한 것이다. 머신러닝은 지금까지 놀라운 결과를 생산했지만 아직 응용처가 제한적이다. 몇몇 대학 연구, 구글과 페이스북, IBM, 마이크로소프트가 자신과 직결된 특정 문제를 해결하기 위해 시도한 연구와 애플리케이션에 대한 장기 투자 정도에 그친다.

이중에는 다른 산업으로 확대될 수 있는 성과들이 있다. 리는 의사들과 균일한 정확성으로 피부암, (시력 상실의 가장 큰 원인인) 당뇨성 망막증 등을 진단하는 의료 영상 장치를 예로 들었다. 그리고 그녀는 기업들이 활용할 수 있는 아주 새로운 응용 분야를 찾고 있다.

기업이 머신러닝과 AI를 도입할 수 있도록 해주는 구글의 방법 4가지
리는 AI 보편화와 관련해 4가지를 강조했다. 그녀는 "머신러닝이 많은 성과를 실현시킬 수 있지만, 이 자체가 큰 장벽이다. 소수 기업만 감당할 수 있는 전문성과 리소스를 요구하기 때문이다"라고 말했다.

그녀는 구글 클라우드와 기술, 서비스를 AI와 머신러닝 도입의 관문으로 활용할 것을 제안했다.

1. 구글 클라우드의 머신러닝 컴퓨팅
딥러닝 알고리즘은 매개변수가 무수히 많기 때문에, 머신러닝 모델 훈련에 엄청난 컴퓨팅 리소스가 필요하다. 리는 이와 관련, 클라우드 머신러닝 엔진(Cloud Machine Learning Engine) 베타 버전이 출시된다고 발표했다. 텐서플로우(Tensorflow) 같은 라이브러리로 독자 머신러닝 모델을 구축할 수 있는 머신러닝 전문가와 데이터 과학자를 보유한 기업들이 대상이다.

큰 모델을 훈련시키는 경우 많은 컴퓨팅 자원이 필요하고, 때론 값 비싼 전용 하드웨어가 있어야 한다. 훈련을 반복해야 하는데 이는 모델의 정확성과 성능을 최적화할 학습 주기가 여러 번이라는 의미이다. 하드웨어가 느리면 모델 개발자가 정확성과 성능을 높이는 훈련을 반복하기 위해 한 번의 훈련을 마칠 때까지 며칠, 몇 주, 또는 그 이상을 기다려야 한다. 머신러닝 팀의 트레이닝에 필요한 자원과 운영 시스템이 부합하지 않아 내부 하드웨어 자원에 대한 자본 투자가 비효율적으로 이어질 위험성도 있다.

리는 구글 인프라가 훈련 시간을 앞당기고, 투자 수익을 개선하는 역할을 한다고 설명했다. 그녀에 따르면 구글 클라우드에는 훈련 시간 가속화에 도움을 주는 전문 ASIC, GPU, TPU 하드웨어가 있다. 또 온디맨드 방식의 클라우드 리소스 활용으로 ROI를 높일 수 있다. 모델을 트레이닝 한 후 온프레미스에서 모바일 장치까지 다양한 플랫폼에 이를 적용한다.

2. 알고리즘과 사전 훈련이 완료된 머신러닝 모델
그러나 머신러닝 엔진(Machine Learning Engine)을 이용하는 맞춤형 머신러닝 모델을 구축해 훈련시킬 기술적 역량이 없는 기업들이 훨씬 더 많다. 이런 기업들은 API를 이용, 자연어와 이미지 이해 및 처리 같은 머신러닝 애플리케이션을 적용할 수 있는, 구글이 사전에 훈련시킨 모델(모든 리스트 링크)을 이용해 머신러닝을 구현할 수 있다.

비디오를 이해하는 API 베타 또한 발표된 상태이다. 이 API는 타임라인을 통해 비디오 콘텐츠에 표시를 한다. 리는 비디오를 인터넷의 암흑 물질(다크 매터)에 비유했다. 인덱스가 되어 있지 않고, 비디오 콘텐츠의 특정 요소를 찾기 위해 일련의 검색이 요구되기 때문이다. 여기 3분 분량의 클라우드 비디오 인텔리전스 베타 데모 영상을 보면 기능을 좀더 쉽게 이해할 수 있다.

리는 또 구글은 새로운 상품을 만들기 위해 AI와 머신러닝 연구에 많은 투자를 하고 있다고 강조했다.

3. 데이터를 위해 캐글(Kaggle)을 인수한 구글
데이터는 AI의 원재료이면서, 기업들의 머신러닝 도입을 방해하는 큰 장애물이다. 리는 1,500여 만 개의 라벨 식별 이미지로 구성된 오픈소스 기반 이미지넷(ImageNet) 데이터 세트를 구축해 딥 러닝 연구를 발전시킨 경험을 그녀의 업무에 활용하고 있다. 이미지넷은 중요한 리소스다. 그러나 다른 종류의 데이터 세트가 필요한 머신러닝 문제들이 많다.

구글은 데이터 세트와 인재를 획득하기 위해 캐글(Kaggle)을 인수했다. 2010년 설립된 캐글은 전세계 데이터 사이언티스트 85만 명이 참가하고 있는 커뮤니티다. 이들을 대상으로 가장 정확한 예측 모델을 만들어 시장화 하는 경쟁 이벤트를 개최한다. 또 다양한 분야에서 새로운 공개 데이터 세트를 입수해 공유한다.

4. 전문 역량
리는 복잡한 문제를 해결할 머신러닝을 개발하고 싶은 고객들을 위한 어드밴스드 솔루션스 랩(Advanced Solutions Lab)을 소개했다. 그녀는 어드밴스드 솔루션스 랩과 제휴한 USAA라는 보험 회사의 사례를 설명했다. USAA 엔지니어들은 구글 엔지니어들로부터 정보를 얻고, 보험 산업에 특정적인 광범위한 스킬 기반을 구축하기 위해 구글을 방문했다.

어드밴스드 솔루션스 랩은 이들에게 가장 필요한 스킬을 전수하고 있다. 이는 리와 그녀의 팀이 특정 산업과 관련된 미답보의 머신러닝 연구를 할 기회이기도 하다. 구글 모회사인 알파벳(Alphabet)과 생명 과학 연구를 하는 회사인 베릴리(Verily)는 소속 연구원, 다른 회사와 기관을 참여시켜 새로운 문제, 해결하기 어려운 문제를 해결하는 노력을 경주하고 있다. 리의 팀이 추후 여기에 참여할지 여부는 불확실하다.

기업들의 새로운 AI 애플리케이션
리는 키노트 초반에 개인적으로 관심을 갖게 된 기업들의 응용처 몇 가지를 설명했다. 그녀는 "더 많은 것들이 이어질 것이다"라고 말했다.

- 소매: 소매 분야에서 개별 고객에게 가장 맞는 광고를 할 수 있도록 구글 애드센스(Adsense)를 확대할 수 있다.

- 공급 사슬(물류): 경로와 재고를 최적화 하고, 수요 변동을 예측하고, 드론과 무인 자동차를 이용한 배송에 AI를 이용할 수 있다.

- 뉴스 콘텐츠: 개인이 뉴스를 개인화 할 수 있다. 가짜 뉴스를 차단할 수도 있다.

- 금융 서비스: 신용 카드 관련 위험을 예측하고, 개인 가계 금융을 관리하고, 돈 세탁과 사기 등 범죄 활동을 식별하고, 훈련시킨 AI에이전트가 보험 청구를 처리하고, 고객 전화 응대 프로세스를 자동화 할 수 있다.

- 의료: AI가 의료 분야에 미칠 영향은 크다. 자동화 된 영상 진단, 경상비 절감, 실수 경감, 소외 계층으로 의료 서비스 확대, 증강된 형태의 수술, 병원 방문 때 EMR 처리 등 행정 개선, 만성 질환 관리 개선 등을 예로 들 수 있다.

리의 키노트가 알리는 바는 구글이 클라우드 비즈니스 차별화와 시장 선도에 오랜, 그리고 광범위한 AI 및 머신러닝 경험을 공격적으로 활용하고 있다는 사실이다. ciokr@idg.co.kr 

2017.03.13

'AI·머신러닝 문턱 낮춘다'··· 구글 클라우드가 제시하는 4가지

Steven Max Patterson | Network World
지난 11월, 구글은 머신러닝 분야 연구의 권위자 페이페이 리(FeiFei Li)가 구글 클라우드 플랫폼 그룹에 합류할 예정이라고 발표했었다. 그러나 구글은 그녀가 구글 클라우드의 머신러닝 사업을 책임질 것이라는 점 외에 그녀를 구글에 스카우트 한 이유를 설명하지 않았다. 지난 8일 그 이유가 좀더 구체적으로 드러났다.



5개월이 지난 어제, 리는 구글의 클라우드 개발자 컨퍼런스인 클라우드 넥스트(Cloud Next) 2017 키노트에서 자신이 초점을 맞추고 있는 업무 5가지를 공개했다. 그녀는 더 많은 기업들이 머신러닝을 도입해 이용하도록 하는데 자신의 역량을 십분 발휘할 예정이다. 그녀는 다양한 산업에서 머신러닝이 해결할 수 있는 문제들을 연구하고, 기업이 머신러닝을 도입할 수 있도록 돕는 업무를 관장하고 있다.

머신러닝 관련 논문 100여 개를 발표한 스탠포드 교수가 아닌 기업 세일즈맨에게 맡겨질 업무로 들릴지 모르겠다. 그러나 이는 잘못 생각한 것이다. 머신러닝은 지금까지 놀라운 결과를 생산했지만 아직 응용처가 제한적이다. 몇몇 대학 연구, 구글과 페이스북, IBM, 마이크로소프트가 자신과 직결된 특정 문제를 해결하기 위해 시도한 연구와 애플리케이션에 대한 장기 투자 정도에 그친다.

이중에는 다른 산업으로 확대될 수 있는 성과들이 있다. 리는 의사들과 균일한 정확성으로 피부암, (시력 상실의 가장 큰 원인인) 당뇨성 망막증 등을 진단하는 의료 영상 장치를 예로 들었다. 그리고 그녀는 기업들이 활용할 수 있는 아주 새로운 응용 분야를 찾고 있다.

기업이 머신러닝과 AI를 도입할 수 있도록 해주는 구글의 방법 4가지
리는 AI 보편화와 관련해 4가지를 강조했다. 그녀는 "머신러닝이 많은 성과를 실현시킬 수 있지만, 이 자체가 큰 장벽이다. 소수 기업만 감당할 수 있는 전문성과 리소스를 요구하기 때문이다"라고 말했다.

그녀는 구글 클라우드와 기술, 서비스를 AI와 머신러닝 도입의 관문으로 활용할 것을 제안했다.

1. 구글 클라우드의 머신러닝 컴퓨팅
딥러닝 알고리즘은 매개변수가 무수히 많기 때문에, 머신러닝 모델 훈련에 엄청난 컴퓨팅 리소스가 필요하다. 리는 이와 관련, 클라우드 머신러닝 엔진(Cloud Machine Learning Engine) 베타 버전이 출시된다고 발표했다. 텐서플로우(Tensorflow) 같은 라이브러리로 독자 머신러닝 모델을 구축할 수 있는 머신러닝 전문가와 데이터 과학자를 보유한 기업들이 대상이다.

큰 모델을 훈련시키는 경우 많은 컴퓨팅 자원이 필요하고, 때론 값 비싼 전용 하드웨어가 있어야 한다. 훈련을 반복해야 하는데 이는 모델의 정확성과 성능을 최적화할 학습 주기가 여러 번이라는 의미이다. 하드웨어가 느리면 모델 개발자가 정확성과 성능을 높이는 훈련을 반복하기 위해 한 번의 훈련을 마칠 때까지 며칠, 몇 주, 또는 그 이상을 기다려야 한다. 머신러닝 팀의 트레이닝에 필요한 자원과 운영 시스템이 부합하지 않아 내부 하드웨어 자원에 대한 자본 투자가 비효율적으로 이어질 위험성도 있다.

리는 구글 인프라가 훈련 시간을 앞당기고, 투자 수익을 개선하는 역할을 한다고 설명했다. 그녀에 따르면 구글 클라우드에는 훈련 시간 가속화에 도움을 주는 전문 ASIC, GPU, TPU 하드웨어가 있다. 또 온디맨드 방식의 클라우드 리소스 활용으로 ROI를 높일 수 있다. 모델을 트레이닝 한 후 온프레미스에서 모바일 장치까지 다양한 플랫폼에 이를 적용한다.

2. 알고리즘과 사전 훈련이 완료된 머신러닝 모델
그러나 머신러닝 엔진(Machine Learning Engine)을 이용하는 맞춤형 머신러닝 모델을 구축해 훈련시킬 기술적 역량이 없는 기업들이 훨씬 더 많다. 이런 기업들은 API를 이용, 자연어와 이미지 이해 및 처리 같은 머신러닝 애플리케이션을 적용할 수 있는, 구글이 사전에 훈련시킨 모델(모든 리스트 링크)을 이용해 머신러닝을 구현할 수 있다.

비디오를 이해하는 API 베타 또한 발표된 상태이다. 이 API는 타임라인을 통해 비디오 콘텐츠에 표시를 한다. 리는 비디오를 인터넷의 암흑 물질(다크 매터)에 비유했다. 인덱스가 되어 있지 않고, 비디오 콘텐츠의 특정 요소를 찾기 위해 일련의 검색이 요구되기 때문이다. 여기 3분 분량의 클라우드 비디오 인텔리전스 베타 데모 영상을 보면 기능을 좀더 쉽게 이해할 수 있다.

리는 또 구글은 새로운 상품을 만들기 위해 AI와 머신러닝 연구에 많은 투자를 하고 있다고 강조했다.

3. 데이터를 위해 캐글(Kaggle)을 인수한 구글
데이터는 AI의 원재료이면서, 기업들의 머신러닝 도입을 방해하는 큰 장애물이다. 리는 1,500여 만 개의 라벨 식별 이미지로 구성된 오픈소스 기반 이미지넷(ImageNet) 데이터 세트를 구축해 딥 러닝 연구를 발전시킨 경험을 그녀의 업무에 활용하고 있다. 이미지넷은 중요한 리소스다. 그러나 다른 종류의 데이터 세트가 필요한 머신러닝 문제들이 많다.

구글은 데이터 세트와 인재를 획득하기 위해 캐글(Kaggle)을 인수했다. 2010년 설립된 캐글은 전세계 데이터 사이언티스트 85만 명이 참가하고 있는 커뮤니티다. 이들을 대상으로 가장 정확한 예측 모델을 만들어 시장화 하는 경쟁 이벤트를 개최한다. 또 다양한 분야에서 새로운 공개 데이터 세트를 입수해 공유한다.

4. 전문 역량
리는 복잡한 문제를 해결할 머신러닝을 개발하고 싶은 고객들을 위한 어드밴스드 솔루션스 랩(Advanced Solutions Lab)을 소개했다. 그녀는 어드밴스드 솔루션스 랩과 제휴한 USAA라는 보험 회사의 사례를 설명했다. USAA 엔지니어들은 구글 엔지니어들로부터 정보를 얻고, 보험 산업에 특정적인 광범위한 스킬 기반을 구축하기 위해 구글을 방문했다.

어드밴스드 솔루션스 랩은 이들에게 가장 필요한 스킬을 전수하고 있다. 이는 리와 그녀의 팀이 특정 산업과 관련된 미답보의 머신러닝 연구를 할 기회이기도 하다. 구글 모회사인 알파벳(Alphabet)과 생명 과학 연구를 하는 회사인 베릴리(Verily)는 소속 연구원, 다른 회사와 기관을 참여시켜 새로운 문제, 해결하기 어려운 문제를 해결하는 노력을 경주하고 있다. 리의 팀이 추후 여기에 참여할지 여부는 불확실하다.

기업들의 새로운 AI 애플리케이션
리는 키노트 초반에 개인적으로 관심을 갖게 된 기업들의 응용처 몇 가지를 설명했다. 그녀는 "더 많은 것들이 이어질 것이다"라고 말했다.

- 소매: 소매 분야에서 개별 고객에게 가장 맞는 광고를 할 수 있도록 구글 애드센스(Adsense)를 확대할 수 있다.

- 공급 사슬(물류): 경로와 재고를 최적화 하고, 수요 변동을 예측하고, 드론과 무인 자동차를 이용한 배송에 AI를 이용할 수 있다.

- 뉴스 콘텐츠: 개인이 뉴스를 개인화 할 수 있다. 가짜 뉴스를 차단할 수도 있다.

- 금융 서비스: 신용 카드 관련 위험을 예측하고, 개인 가계 금융을 관리하고, 돈 세탁과 사기 등 범죄 활동을 식별하고, 훈련시킨 AI에이전트가 보험 청구를 처리하고, 고객 전화 응대 프로세스를 자동화 할 수 있다.

- 의료: AI가 의료 분야에 미칠 영향은 크다. 자동화 된 영상 진단, 경상비 절감, 실수 경감, 소외 계층으로 의료 서비스 확대, 증강된 형태의 수술, 병원 방문 때 EMR 처리 등 행정 개선, 만성 질환 관리 개선 등을 예로 들 수 있다.

리의 키노트가 알리는 바는 구글이 클라우드 비즈니스 차별화와 시장 선도에 오랜, 그리고 광범위한 AI 및 머신러닝 경험을 공격적으로 활용하고 있다는 사실이다. ciokr@idg.co.kr 

X