2017.07.26

김진철의 How-to-Big Data | 빅데이터와 인공지능 (1)

김진철 | CIO KR
LHC 실험 데이터의 복잡성과 인공지능 기술
이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자.

LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다.

검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류인 패턴인식(pattern recognition) 기술을 활용하기로 한 것이다.

검출기 데이터에 패턴인식 기술을 활용해서 궁극적으로 하려고 했던 것은 메타데이터 생성 및 추가 작업을 자동화하려고 했다. 그러면 어떻게 메타데이터 생성, 추가 작업을 자동화할 수 있을까? 시뮬레이션을 통해 LHC 실험환경에서 고에너지 입자가 만들 수 있는 이벤트 패턴을 가능하면 많이 생성해서 다양한 이벤트 패턴을 미리 만들어 놓고, 이 시뮬레이션 된 고에너지 입자 이벤트를 실제 재구성된 검출기 이벤트 데이터와 비교해서 가장 유사하게 판단되는 이벤트 데이터에 시뮬레이션 된 이벤트의 메타데이터를 이용해 메타데이터를 생성하여 추가하는 것이다.

그림 1. CMS 검출기 이벤트 데이터 분석의 어려움을 보여주는 데이터. (위) CMS 검출기 원시 데이터를 이용해 재구성된 힉스 입자가 Z보존 한 쌍으로 변하는 이벤트 데이터. (아래) 


Geant4 고에너지 빔 및 방사 시뮬레이션 소프트웨어를 이용해 시뮬레이션한 이벤트 영상 데이터. (그림 출처: [1-3]).

시뮬레이션을 통해 얻은 이벤트 데이터는, 물리학자가 완전하게 통제할 수 있는 가상 실험을 컴퓨터에서 먼저 수행하여 연구하고자 하는 고에너지 물리 현상이 어떤 형태로 나타날 것인지를 최대한 다양한 관점에서 확인할 수 있게 한다. 시뮬레이션 데이터는 실제 실험에서 얻은 데이터는 아니지만, 과학자들이 완전한 통제권을 가지고 현상을 수치 모델을 통해 관찰해볼 수 있다는 측면에서 매우 유용한 도구이다. 시뮬레이션을 통해 얻은 이벤트 데이터와 실제 검출기에서 측정된 데이터를 대조하면 효과적으로 이벤트 데이터를 대조, 분석하는 과정을 자동화하는 소프트웨어를 만들 수 있다.

LHC 실험에서 패턴인식과 머신러닝 기법을 사용하는 것은 시뮬레이션 데이터와 검출기 이벤트 데이터를 물리학자들이 일일이 대조해가면서 분석하기에는 LHC 검출기 데이터가 너무 양이 많고 복잡하기 때문이다. 사람이 두 장의 영상 데이터를 눈으로 비교하고, 이미 알고 있는 지식과 이론적인 예측 결과를 이용해 대조, 분석하는 과정을 기계가 자동으로 하게끔 하기 위해 패턴인식과 머신러닝 기법을 활용하게 된 것이다.

연간 수십 페타바이트의 3차원 영상 데이터를 전세계의 수만 명에 불과한 고에너지 물리학자가 아무리 열심히 눈과 두뇌로 분석을 한다고 해도 우리의 우주가 그 수명이 다 되어 사라질 때까지도 분석을 끝낼 수 없을 정도의 시간이 걸리는 것으로 추정되고 있다. LHC 실험을 시작한지 불과 4년만인 2012년에 힉스 입자를 발견할 수 있었던 것은 LHC 연구자들의 인지 능력과 분석 능력을 보조할 수 있도록 3차원 영상 데이터 대조 및 분석 과정을 패턴인식 기술을 이용해 자동화했기 때문에 가능했다.


빅데이터 비즈니스에서 인공지능 기술이 필요한 이유 – 자동화
최근 빅데이터 활용과 인공지능과의 관계를 얘기할 때 가장 많이 언급되는 것은 다음과 같다. 첫번째로, 머신러닝 알고리즘을 활용하면 이전에 알아낼 수 없었던 새로운 통찰을 얻을 수 있다. 두번째로, 머신러닝 알고리즘, 특히 요즘 많은 인기를 끌고 있는 딥러닝 알고리즘을 학습시키기 위해서는 많은 데이터가 필요한데, 이렇게 딥러닝 기반의 인공지능 알고리즘을 학습시키기 위해서 빅데이터가 필요하다.

위 두 가지 얘기가 전혀 틀리는 말은 아니지만, 빅데이터 비즈니스에서 인공지능 기술이 필요한 이유에 대해서는 충분하게 설명하고 있지 못하다. 이에 더해 인공지능, 특히 머신러닝을 깊이 알지 못하는 대다수 기업과 조직의 IT 실무자들은 마치 딥러닝 등의 머신러닝 알고리즘에 데이터만 모아 넣어 주기만 하면 조직에 도움이 되는 새로운 통찰이 쏟아져 나올 것처럼 인식하는 듯하다.

첫번째 사실부터 다시 살펴보자. 머신러닝 알고리즘을 빅데이터 분석에 잘 활용하면 이전에 알아낼 수 없었던 새로운 통찰을 얻을 수 있는 것은 다음의 두 가지 경우에 대해서 사실이다. 첫번째는 머신러닝 알고리즘이 기존의 분석 모델보다 더 일반적인 모델이어서 새로운 파라미터 영역에서의 탐색적 데이터 분석(exploratory data analysis)에 효과적으로 쓰일 수 있는 경우이다. 실제로 이렇게 머신러닝 알고리즘, 특히 딥러닝이나 통계적 머신러닝을 잘 활용해서 기존에 찾아내지 못했던 새로운 신약 물질을 발견해내는 등의 성과를 내고는 있지만[4], 아직은 극히 제한적인 영역에 불과하고, 이런 유용한 결과를 내기까지 많은 노력과 시행착오가 필요하다는 사실은 잘 알려지지 않았다.

두번째로 머신러닝 알고리즘이 빅데이터 분석에 유용한 경우는 사람의 인지 능력을 활용해서 데이터나 현상을 관찰하고 분류해야 하는 분석 작업의 경우이다[5]. 바로 위에서 살펴본 LHC 데이터 분석의 경우가 바로 그렇다. 머신러닝 알고리즘과 컴퓨팅 기술이 발전하면서 특수한 목적을 위해 단순하게 반복되는 상황에서 필요한 사람의 인지 기능은 머신러닝 및 다양한 인공지능 기술들을 통해 어느 정도 자동화할 수 있게 되었다. 이렇게 자동화된 인지 기능을 이용하면 사람보다 훨씬 빠르게 데이터를 분류, 처리하고 메타데이터로 주석을 달 수 있어 대량의 데이터를 검사, 분류하고 이를 바탕으로 의사 결정을 하거나 비즈니스 가치에 직접 연결되는 후속 데이터 처리 과정에 유용하게 활용될 수 있다.

사실 대부분 조직에서 더 큰 비즈니스 효과를 볼 수 있는 빅데이터와 인공지능, 머신러닝의 활용 방법은 자동화된 인지 기능을 활용하여 빅데이터를 처리, 분류하는 작업이다. 분석 과정에서 필요한 데이터의 분류 및 가공 과정이 단순하고 반복적인 인지 작업일 경우, 인공지능과 머신러닝 기술을 사용하면 같은 일을 사람의 힘으로만 수행하는 경우에 필요한 많은 시간과 노력을 줄여준다. 이렇게 얻을 수 있는 비즈니스 전체 프로세스의 스피드 향상, 단순화, 효율화는 빅데이터 처리에서 그 효과가 더 두드러지게 나타나게 된다.

하지만, 많은 수의 기업이 빅데이터와 인공지능, 머신러닝 기술을 생각할 때, 데이터 처리, 분류 과정의 자동화보다는 우선 좀더 나은 근사 모델로서 머신러닝 모델을 이용한 데이터 분석부터 떠올리는 것이 현실인 것 같다. 이는 우리나라에서 빅데이터 활용 논의가 비즈니스 인텔리전스(business intelligence; BI)의 연장선상에서 시작되었기 때문인 것으로 필자는 생각한다.

데이터를 분석해서 얻은 결과를 비즈니스에 적용해서 그 효과를 보기까지는 많은 시간이 걸릴 수밖에 없다. 우선 데이터 분석을 위해 데이터를 수집, 가공하는 과정에서도 시간과 노력이 필요한데, 특별한 목적이 없이 탐색적 데이터 분석으로 데이터의 활용처를 먼저 찾아보자는 식으로 접근하는 경우 데이터의 유용성을 탐색하고 찾아내면서 이를 위한 데이터 처리 및 가공 과정을 만드는데 많은 시간이 걸린다.

데이터 분석을 통해 유용한 비즈니스 통찰과 가치를 얻었다 해도 이를 실제 비즈니스에 적용, 반영하는데 다시 시간과 노력이 든다. 복잡한 현상에 대한 더 좋은 근사적 모델로서 머신러닝 알고리즘은 일반적인 결정론적 모델이나 통계 모델보다 해석이 복잡하고 그 효용을 입증하기가 어렵다는 단점이 있어 역시 비즈니스에의 효용을 체감하기 어렵다.

인공지능 기술을 데이터 처리, 가공 과정에서 사람의 인지 능력이 필요한 부분들을 자동화하여 전체 프로세스의 종단 간(end-to-end) 처리 속도를 높이고 이를 통해 비즈니스의 실행력을 높여 위험을 조기에 발견하고 대응하는 접근으로 시작한다면 인공지능 기술의 비즈니스 효과를 빨리 확인해볼 수 있을 것이다. 인공지능 기술을 자동화를 위한 도구로써 사용하는 것으로 관점을 바꿀 필요가 있다.

두 번째로 딥러닝과 같은 머신러닝 과정에서 빅데이터를 활용해 머신러닝 모델의 정확도와 성능을 높이는 부분은 두 가지 측면이 있다. 우선 머신러닝은 같은 모델을 따르는 데이터가 많으면 많을수록 학습된 모델이 더 정확해진다. 물론 데이터가 지나치게 많으면 학습 과정에서 오버피팅(overfitting)이 발생하여 잘못된 모델 파라미터를 학습할 수 있지만, 대개 데이터는 모델을 학습하기에 충분할 만큼 많이 있어야 한다. 빅데이터 수집 기술이 바로 이런 머신러닝을 위한 데이터를 모으는 데 많은 도움을 준다.

딥러닝의 경우는 일반적인 통계적 머신러닝보다 지수(exponential)배로 많은 데이터가 필요하다. 이는 학습해야 하는 신경망 모델의 웨이트 매트릭스의 파라미터 수가 노드 벡터(node vector), 또는 노드 텐서(node tensor) 차원(dimension)의 제곱에서 지수에 비례하여 일반적인 통계적 머신러닝보다 학습해야 하는 파라미터가 훨씬 더 많기 때문이다. 이런 이유로 딥러닝은 다른 종류의 머신러닝 알고리즘보다도 훨씬 더 많은 양의 데이터를 필요로 한다. 복잡한 딥러닝 모델을 쓸만하게 학습시키려면 기본적으로 빅데이터가 필요할 수밖에 없다.

이처럼 딥러닝을 빅데이터 분석에 활용할 수 있도록 학습시키기 위해 다시 빅데이터가 필요하게 되는 재미있는 현상이 벌어지게 된다. 이런 이유로 딥러닝을 자사의 서비스나 상품에 활용하여 성공하고 있는 기업들이 빅데이터를 쉽게 수집할 수 있는 검색 서비스나 소셜 네트워크 서비스를 하는 구글, 페이스북과 같은 인터넷 서비스 업체들이라는 것은 결코 우연이 아니다.

최근 딥러닝은 사람의 정보처리 과정 중 초반부의 인지 기능은 거의 완벽하게 모델링 할 수 있는 것으로 밝혀지고 있다. 이렇게 딥러닝을 영상 인식이나 음성 인식과 같은 인지 기능이 필요한 데이터 분류 및 처리 과정에 쓰면 효과적으로 빅데이터 처리, 가공 프로세스를 자동화할 수 있게 된다.

딥러닝의 경우 모델을 정확하게 학습시키기 위해서 우선 빅데이터를 활용해야 하면서, 일단 학습된 모델은 상당한 정확도로 사람이 하는 것과 같은 인지 기능을 발휘할 수 있어 다시 빅데이터 분류 및 처리 과정의 자동화에 활용할 수 있다는 점이 독특하다. 딥러닝의 이런 특성이 빅데이터를 가진 기업들만의 독특한 경쟁력이 되고 있고, 빅데이터를 이용해 학습한 딥러닝 모델을 활용하여 다시 지능적인 서비스를 만들어낼 수 있는 선순환을 만들어 냄으로써 다른 조직과의 비즈니스 역량의 격차를 더 벌려 놓고 있다.

인공지능을 갖춘 로봇이나 자율주행차가 비즈니스의 핵심으로 등장하기까지는 아직 많은 시간이 필요하다. 하지만, 빅데이터 처리 자동화를 위한 인공지능과 머신러닝 기술은 현재도 많이 성숙되어 있고, 앞으로도 많은 발전이 예상되어 더 풍부하고 재미있는 지능형 서비스나 상품을 만들 수 있게 할 것이다. 특이점이 오기 전까지는, 일반 기업들은 인공지능 기술 자체를 목적으로 삼기보다는 인공지능과 머신러닝 기술이 줄 수 있는 데이터 처리 자동화의 관점에서 인공지능과 머신러닝 기술을 활용하자. 빅데이터와 결합한 인공지능, 머신러닝 기술이 만들어내는 지능형 서비스와 상품은 조직의 비즈니스에 날개를 달아줄 뿐만 아니라, 우리 사회를 더 풍성하고 인간답게 살아가게 할 수 있게 만드는 데 크게 도움이 될 것이다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] New CMS results at Moriond (Electroweak) 2013, http://cms.web.cern.ch/news/new-cms-results-moriond-electroweak-2013 .
[3] V. Daniel Elvira, “Simulation in the 21st century,” Fermilab Today, Tuesday, Oct. 21, 2014. (http://www.fnal.gov/pub/today/archive/archive_2014/today14-10-21.html)
[4] Paul Raccuglia, Katherine C. Elbert, Philip D. F. Adler, Casey Falk, Malia B. Wenny, Aurelio Mollo, Matthias Zeller, Sorelle A. Friedler, Joshua Schrier, Alexander J. Norquist, Machine-learning-assisted materials discovery using failed experiments, Nature Vol. 533, Iss. 7601, p. 73–76 (05 May 2016.) doi:10.1038/nature17439
[5] Andre Esteva, Brett Kuprel, Roberto A. Novoa, Justin Ko, Susan M. Swetter, Helen M. Blau, Sebastian Thrun, Dermatologist-level classification of skin cancer with deep neural networks, Nature Vol. 542, Iss. 7639, p. 115–118 (02 February 2017.) doi:10.1038/nature21056

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr
 
2017.07.26

김진철의 How-to-Big Data | 빅데이터와 인공지능 (1)

김진철 | CIO KR
LHC 실험 데이터의 복잡성과 인공지능 기술
이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자.

LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다.

검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류인 패턴인식(pattern recognition) 기술을 활용하기로 한 것이다.

검출기 데이터에 패턴인식 기술을 활용해서 궁극적으로 하려고 했던 것은 메타데이터 생성 및 추가 작업을 자동화하려고 했다. 그러면 어떻게 메타데이터 생성, 추가 작업을 자동화할 수 있을까? 시뮬레이션을 통해 LHC 실험환경에서 고에너지 입자가 만들 수 있는 이벤트 패턴을 가능하면 많이 생성해서 다양한 이벤트 패턴을 미리 만들어 놓고, 이 시뮬레이션 된 고에너지 입자 이벤트를 실제 재구성된 검출기 이벤트 데이터와 비교해서 가장 유사하게 판단되는 이벤트 데이터에 시뮬레이션 된 이벤트의 메타데이터를 이용해 메타데이터를 생성하여 추가하는 것이다.

그림 1. CMS 검출기 이벤트 데이터 분석의 어려움을 보여주는 데이터. (위) CMS 검출기 원시 데이터를 이용해 재구성된 힉스 입자가 Z보존 한 쌍으로 변하는 이벤트 데이터. (아래) 


Geant4 고에너지 빔 및 방사 시뮬레이션 소프트웨어를 이용해 시뮬레이션한 이벤트 영상 데이터. (그림 출처: [1-3]).

시뮬레이션을 통해 얻은 이벤트 데이터는, 물리학자가 완전하게 통제할 수 있는 가상 실험을 컴퓨터에서 먼저 수행하여 연구하고자 하는 고에너지 물리 현상이 어떤 형태로 나타날 것인지를 최대한 다양한 관점에서 확인할 수 있게 한다. 시뮬레이션 데이터는 실제 실험에서 얻은 데이터는 아니지만, 과학자들이 완전한 통제권을 가지고 현상을 수치 모델을 통해 관찰해볼 수 있다는 측면에서 매우 유용한 도구이다. 시뮬레이션을 통해 얻은 이벤트 데이터와 실제 검출기에서 측정된 데이터를 대조하면 효과적으로 이벤트 데이터를 대조, 분석하는 과정을 자동화하는 소프트웨어를 만들 수 있다.

LHC 실험에서 패턴인식과 머신러닝 기법을 사용하는 것은 시뮬레이션 데이터와 검출기 이벤트 데이터를 물리학자들이 일일이 대조해가면서 분석하기에는 LHC 검출기 데이터가 너무 양이 많고 복잡하기 때문이다. 사람이 두 장의 영상 데이터를 눈으로 비교하고, 이미 알고 있는 지식과 이론적인 예측 결과를 이용해 대조, 분석하는 과정을 기계가 자동으로 하게끔 하기 위해 패턴인식과 머신러닝 기법을 활용하게 된 것이다.

연간 수십 페타바이트의 3차원 영상 데이터를 전세계의 수만 명에 불과한 고에너지 물리학자가 아무리 열심히 눈과 두뇌로 분석을 한다고 해도 우리의 우주가 그 수명이 다 되어 사라질 때까지도 분석을 끝낼 수 없을 정도의 시간이 걸리는 것으로 추정되고 있다. LHC 실험을 시작한지 불과 4년만인 2012년에 힉스 입자를 발견할 수 있었던 것은 LHC 연구자들의 인지 능력과 분석 능력을 보조할 수 있도록 3차원 영상 데이터 대조 및 분석 과정을 패턴인식 기술을 이용해 자동화했기 때문에 가능했다.


빅데이터 비즈니스에서 인공지능 기술이 필요한 이유 – 자동화
최근 빅데이터 활용과 인공지능과의 관계를 얘기할 때 가장 많이 언급되는 것은 다음과 같다. 첫번째로, 머신러닝 알고리즘을 활용하면 이전에 알아낼 수 없었던 새로운 통찰을 얻을 수 있다. 두번째로, 머신러닝 알고리즘, 특히 요즘 많은 인기를 끌고 있는 딥러닝 알고리즘을 학습시키기 위해서는 많은 데이터가 필요한데, 이렇게 딥러닝 기반의 인공지능 알고리즘을 학습시키기 위해서 빅데이터가 필요하다.

위 두 가지 얘기가 전혀 틀리는 말은 아니지만, 빅데이터 비즈니스에서 인공지능 기술이 필요한 이유에 대해서는 충분하게 설명하고 있지 못하다. 이에 더해 인공지능, 특히 머신러닝을 깊이 알지 못하는 대다수 기업과 조직의 IT 실무자들은 마치 딥러닝 등의 머신러닝 알고리즘에 데이터만 모아 넣어 주기만 하면 조직에 도움이 되는 새로운 통찰이 쏟아져 나올 것처럼 인식하는 듯하다.

첫번째 사실부터 다시 살펴보자. 머신러닝 알고리즘을 빅데이터 분석에 잘 활용하면 이전에 알아낼 수 없었던 새로운 통찰을 얻을 수 있는 것은 다음의 두 가지 경우에 대해서 사실이다. 첫번째는 머신러닝 알고리즘이 기존의 분석 모델보다 더 일반적인 모델이어서 새로운 파라미터 영역에서의 탐색적 데이터 분석(exploratory data analysis)에 효과적으로 쓰일 수 있는 경우이다. 실제로 이렇게 머신러닝 알고리즘, 특히 딥러닝이나 통계적 머신러닝을 잘 활용해서 기존에 찾아내지 못했던 새로운 신약 물질을 발견해내는 등의 성과를 내고는 있지만[4], 아직은 극히 제한적인 영역에 불과하고, 이런 유용한 결과를 내기까지 많은 노력과 시행착오가 필요하다는 사실은 잘 알려지지 않았다.

두번째로 머신러닝 알고리즘이 빅데이터 분석에 유용한 경우는 사람의 인지 능력을 활용해서 데이터나 현상을 관찰하고 분류해야 하는 분석 작업의 경우이다[5]. 바로 위에서 살펴본 LHC 데이터 분석의 경우가 바로 그렇다. 머신러닝 알고리즘과 컴퓨팅 기술이 발전하면서 특수한 목적을 위해 단순하게 반복되는 상황에서 필요한 사람의 인지 기능은 머신러닝 및 다양한 인공지능 기술들을 통해 어느 정도 자동화할 수 있게 되었다. 이렇게 자동화된 인지 기능을 이용하면 사람보다 훨씬 빠르게 데이터를 분류, 처리하고 메타데이터로 주석을 달 수 있어 대량의 데이터를 검사, 분류하고 이를 바탕으로 의사 결정을 하거나 비즈니스 가치에 직접 연결되는 후속 데이터 처리 과정에 유용하게 활용될 수 있다.

사실 대부분 조직에서 더 큰 비즈니스 효과를 볼 수 있는 빅데이터와 인공지능, 머신러닝의 활용 방법은 자동화된 인지 기능을 활용하여 빅데이터를 처리, 분류하는 작업이다. 분석 과정에서 필요한 데이터의 분류 및 가공 과정이 단순하고 반복적인 인지 작업일 경우, 인공지능과 머신러닝 기술을 사용하면 같은 일을 사람의 힘으로만 수행하는 경우에 필요한 많은 시간과 노력을 줄여준다. 이렇게 얻을 수 있는 비즈니스 전체 프로세스의 스피드 향상, 단순화, 효율화는 빅데이터 처리에서 그 효과가 더 두드러지게 나타나게 된다.

하지만, 많은 수의 기업이 빅데이터와 인공지능, 머신러닝 기술을 생각할 때, 데이터 처리, 분류 과정의 자동화보다는 우선 좀더 나은 근사 모델로서 머신러닝 모델을 이용한 데이터 분석부터 떠올리는 것이 현실인 것 같다. 이는 우리나라에서 빅데이터 활용 논의가 비즈니스 인텔리전스(business intelligence; BI)의 연장선상에서 시작되었기 때문인 것으로 필자는 생각한다.

데이터를 분석해서 얻은 결과를 비즈니스에 적용해서 그 효과를 보기까지는 많은 시간이 걸릴 수밖에 없다. 우선 데이터 분석을 위해 데이터를 수집, 가공하는 과정에서도 시간과 노력이 필요한데, 특별한 목적이 없이 탐색적 데이터 분석으로 데이터의 활용처를 먼저 찾아보자는 식으로 접근하는 경우 데이터의 유용성을 탐색하고 찾아내면서 이를 위한 데이터 처리 및 가공 과정을 만드는데 많은 시간이 걸린다.

데이터 분석을 통해 유용한 비즈니스 통찰과 가치를 얻었다 해도 이를 실제 비즈니스에 적용, 반영하는데 다시 시간과 노력이 든다. 복잡한 현상에 대한 더 좋은 근사적 모델로서 머신러닝 알고리즘은 일반적인 결정론적 모델이나 통계 모델보다 해석이 복잡하고 그 효용을 입증하기가 어렵다는 단점이 있어 역시 비즈니스에의 효용을 체감하기 어렵다.

인공지능 기술을 데이터 처리, 가공 과정에서 사람의 인지 능력이 필요한 부분들을 자동화하여 전체 프로세스의 종단 간(end-to-end) 처리 속도를 높이고 이를 통해 비즈니스의 실행력을 높여 위험을 조기에 발견하고 대응하는 접근으로 시작한다면 인공지능 기술의 비즈니스 효과를 빨리 확인해볼 수 있을 것이다. 인공지능 기술을 자동화를 위한 도구로써 사용하는 것으로 관점을 바꿀 필요가 있다.

두 번째로 딥러닝과 같은 머신러닝 과정에서 빅데이터를 활용해 머신러닝 모델의 정확도와 성능을 높이는 부분은 두 가지 측면이 있다. 우선 머신러닝은 같은 모델을 따르는 데이터가 많으면 많을수록 학습된 모델이 더 정확해진다. 물론 데이터가 지나치게 많으면 학습 과정에서 오버피팅(overfitting)이 발생하여 잘못된 모델 파라미터를 학습할 수 있지만, 대개 데이터는 모델을 학습하기에 충분할 만큼 많이 있어야 한다. 빅데이터 수집 기술이 바로 이런 머신러닝을 위한 데이터를 모으는 데 많은 도움을 준다.

딥러닝의 경우는 일반적인 통계적 머신러닝보다 지수(exponential)배로 많은 데이터가 필요하다. 이는 학습해야 하는 신경망 모델의 웨이트 매트릭스의 파라미터 수가 노드 벡터(node vector), 또는 노드 텐서(node tensor) 차원(dimension)의 제곱에서 지수에 비례하여 일반적인 통계적 머신러닝보다 학습해야 하는 파라미터가 훨씬 더 많기 때문이다. 이런 이유로 딥러닝은 다른 종류의 머신러닝 알고리즘보다도 훨씬 더 많은 양의 데이터를 필요로 한다. 복잡한 딥러닝 모델을 쓸만하게 학습시키려면 기본적으로 빅데이터가 필요할 수밖에 없다.

이처럼 딥러닝을 빅데이터 분석에 활용할 수 있도록 학습시키기 위해 다시 빅데이터가 필요하게 되는 재미있는 현상이 벌어지게 된다. 이런 이유로 딥러닝을 자사의 서비스나 상품에 활용하여 성공하고 있는 기업들이 빅데이터를 쉽게 수집할 수 있는 검색 서비스나 소셜 네트워크 서비스를 하는 구글, 페이스북과 같은 인터넷 서비스 업체들이라는 것은 결코 우연이 아니다.

최근 딥러닝은 사람의 정보처리 과정 중 초반부의 인지 기능은 거의 완벽하게 모델링 할 수 있는 것으로 밝혀지고 있다. 이렇게 딥러닝을 영상 인식이나 음성 인식과 같은 인지 기능이 필요한 데이터 분류 및 처리 과정에 쓰면 효과적으로 빅데이터 처리, 가공 프로세스를 자동화할 수 있게 된다.

딥러닝의 경우 모델을 정확하게 학습시키기 위해서 우선 빅데이터를 활용해야 하면서, 일단 학습된 모델은 상당한 정확도로 사람이 하는 것과 같은 인지 기능을 발휘할 수 있어 다시 빅데이터 분류 및 처리 과정의 자동화에 활용할 수 있다는 점이 독특하다. 딥러닝의 이런 특성이 빅데이터를 가진 기업들만의 독특한 경쟁력이 되고 있고, 빅데이터를 이용해 학습한 딥러닝 모델을 활용하여 다시 지능적인 서비스를 만들어낼 수 있는 선순환을 만들어 냄으로써 다른 조직과의 비즈니스 역량의 격차를 더 벌려 놓고 있다.

인공지능을 갖춘 로봇이나 자율주행차가 비즈니스의 핵심으로 등장하기까지는 아직 많은 시간이 필요하다. 하지만, 빅데이터 처리 자동화를 위한 인공지능과 머신러닝 기술은 현재도 많이 성숙되어 있고, 앞으로도 많은 발전이 예상되어 더 풍부하고 재미있는 지능형 서비스나 상품을 만들 수 있게 할 것이다. 특이점이 오기 전까지는, 일반 기업들은 인공지능 기술 자체를 목적으로 삼기보다는 인공지능과 머신러닝 기술이 줄 수 있는 데이터 처리 자동화의 관점에서 인공지능과 머신러닝 기술을 활용하자. 빅데이터와 결합한 인공지능, 머신러닝 기술이 만들어내는 지능형 서비스와 상품은 조직의 비즈니스에 날개를 달아줄 뿐만 아니라, 우리 사회를 더 풍성하고 인간답게 살아가게 할 수 있게 만드는 데 크게 도움이 될 것이다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] New CMS results at Moriond (Electroweak) 2013, http://cms.web.cern.ch/news/new-cms-results-moriond-electroweak-2013 .
[3] V. Daniel Elvira, “Simulation in the 21st century,” Fermilab Today, Tuesday, Oct. 21, 2014. (http://www.fnal.gov/pub/today/archive/archive_2014/today14-10-21.html)
[4] Paul Raccuglia, Katherine C. Elbert, Philip D. F. Adler, Casey Falk, Malia B. Wenny, Aurelio Mollo, Matthias Zeller, Sorelle A. Friedler, Joshua Schrier, Alexander J. Norquist, Machine-learning-assisted materials discovery using failed experiments, Nature Vol. 533, Iss. 7601, p. 73–76 (05 May 2016.) doi:10.1038/nature17439
[5] Andre Esteva, Brett Kuprel, Roberto A. Novoa, Justin Ko, Susan M. Swetter, Helen M. Blau, Sebastian Thrun, Dermatologist-level classification of skin cancer with deep neural networks, Nature Vol. 542, Iss. 7639, p. 115–118 (02 February 2017.) doi:10.1038/nature21056

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr
 
X