2020.10.30

김진철의 How-to-Big Data | 빅데이터의 미래 (12)

김진철 | CIO KR
빅데이터 비즈니스 트렌드의 미래로서 사이버 물리 시스템 기반의 지능형 서비스 비즈니스를 꽤 오랜 지면을 할애해서 지난 1년간 살펴보고 있다. 이번 글은 인공지능 기술과 사이버 물리 시스템 사이의 관계, 미래를 살펴보는 마지막 글로, 지난 6월 13일 자 “이코노미스트(The Economist)”지에 실린 “계간 기술(Technology Quarterly)” 특집 기사의 내용을 같이 살펴보면서 앞으로 인공지능 기술이 어떤 양상으로 발전하게 될지 같이 엿보려고 한다.

지난 6월 13일 자 “이코노미스트(The Economist)”지의 “계간 기술(Technology Quarterly)”은 아직도 그 열기가 가시지 않고 있는 인공지능 기술에 대한 특집 기사로 채워졌다. 권위 있는 경제 매체인 “이코노미스트(The Economist)”지는 매 분기별로 글로벌 경제에 영향을 미치는 기술 이슈들을 주제별로 선정해 심도 있게 조사, 분석하여 소개하는 “계간 기술(Technology Quarterly)” 특집 기사를 정기적으로 싣고 있다.
 
ⓒGetty Images

“이코노미스트(The Economist)”지는 “네이처(Nature)”나 “사이언스(Science)”와 같은 전문 과학기술 학술 저널, “MIT 기술 리뷰(MIT Technology Review)”나 “와이어드(Wired)”와 같은 전문 기술 매체가 아닌 경제 전문 매체임에도 불구하고, 정확하고 균형 있는 조사와 분석을 통해 최근 기술의 발전 동향이 경제에 미치는 영향과 효과를 현실적이고 정확하게 소개해왔다. 이번 6월 13일 자의 “계간 기술(Technology Quarterly)” 특집 기사는 지난 5년간 전 지구를 뜨겁게 달구어 왔던 인공지능 기술을 주제로 하였다.

이번 6월 13일 자 “계간 기술(Technology Quarterly)” 특집 기사의 핵심 주제는 “인공지능 기술의 가을이 오고 있다(AI’s autumn is coming)”라는 한 문장으로 요약될 수 있다. 지금까지 주목받고 많은 이슈를 몰고 온 인공지능 기술의 현재 위치가 어디인지, 현재 인공지능 기술의 발전 양상과 문제점은 무엇인지, 앞으로 경제 발전에 인공지능 기술이 어떻게 영향을 미칠 것인지에 관한 전문가들과 인터뷰와 여러 분석 자료들에 기초한 기술 분석이 소개됐다. 이 “이코노미스트(The Economist)”지의 인공지능 기술 특집 기사를 바탕으로 인공지능 기술의 미래를 같이 살펴보려고 한다.
 
그림 1. 2020년 인공지능 분야의 가트너(Gartner) “과장 선전 주기(hype cycle)” 곡선. 최근 인공지능 트렌드를 이끌었던 키워드들인 자율주행과 컴퓨터 비전, 챗봇등의 기술들이 “환멸의 계곡(Trough of disillusionment)”에 위치하는 점이 눈에 띈다. (그림 출처: Gartner)

“이코노미스트(The Economist)”지의 인공지능 특집 기사에서 현재 인공지능 기술은 한창 주목을 받고 시장이 크게 성장하던 시기를 지나, 가트너(Gartner)의 “과장 선전 주기(hype-cycle)”에서 기술에 대한 시장의 기대치가 급격하게 낮아지는 지점인 “환멸의 계곡(trough of disillusionment)”을 지나고 있으며, 곧 인공지능 기술의 가을이 올 것으로 전망하였다.

그 원인으로 든 다섯 가지를 이번 글에서 살펴보면서 앞으로 사이버 물리 시스템을 위한 인공지능이 어떤 양상으로 발전해갈지 같이 생각해보도록 하자.

인공지능 기술의 한계에 대한 시장의 각성
첫째로, 시장이 인공지능 기술의 한계에 대해서 점차 각성하고 있다는 것이다. 이런 인공지능 기술의 한계에 대한 각성은, “알파고(AlphaGo)”와 이세돌 9단의 대국 이후 인공지능 회사들과 전문가들이 인공지능 기술로 할 수 있는 것들에 대해 내어놓은 “큰 전망(grand claim)”의 상당수가 현재 실현되지 않고 있거나 철회되고 있는 현실에서 비롯된다.

일반 대중과 회사들이 인공지능 기술에 대해서 가지게 되는 관심은 인공지능 기술을 잘 알아서라기보다는 인공지능 기술을 활용하여 만든, 또는 그렇게 주장하는 상품이나 서비스가 시장에서 크게 성공하거나 실제 생활 속에서 자리 잡으면서 생활의 편리함을 더하고 우리의 생활을 조금씩 바꿀 수 있으리라는 기대와 함께 커져가게 된다. 

이렇게 된 계기가 “알파고(AlphaGo)”와 이세돌 9단의 대국, 그리고 엔비디아(Nvidia)와 같은 딥러닝 하드웨어 업체들과 주요 자율주행 회사들이 보여준 자율주행 시연, 그리고 구글과 마이크로소프트, 페이스북과 같은 인터넷 서비스 및 소프트웨어 회사들이 내어놓은 챗봇, 가상 비서와 같은 지능형 서비스와 인공지능 관련 상품들이다.

이렇게 최근 딥러닝 기술의 발전과 함께, 자연어 처리, 음성 인식, 영상 인식 기술과 같은 인공지능 기술을 활용한 상품이 “알파고(AlphaGo)” 사건 이후 쏟아져 나오고 언론의 주목을 받으면서 시장의 기대감도 크게 높아졌다. 이렇게 높아지는 기대감이 다시 인공지능이 할 수 있는 영역에 대한 막연한 기대감으로 번져가면서 많은 인공지능 관련 회사들과 스타트업들이 인공지능 기술에 대한 다양한 전망과 약속을 내어놓게 되었다.

대표적인 것 중 하나가 대표적인 자동차 제조사인 GM이 주목받던 자율주행 스타트업이었던 “크루즈(Cruise)”를 인수하고, 2019년 말까지 Level 4 자율주행차를 개발하여 로봇 택시 서비스를 대대적으로 시작하겠다고 발표한 2017년도다. 2016년도 당시 GM은 구글의 “웨이모(Waymo)”와 함께 자율주행 분야를 선도하고 있던 회사였던 “크루즈(Cruise)”를 10억 달러, 한화 약 1조 2천억 원에 인수하여 자율주행 기술을 이용한 로봇 택시 서비스를 2019년까지 상용화하겠다고 발표한 바 있다.

하지만, 2019년도부터 GM의 로봇 택시 서비스 상용화가 예정보다 지연될 것 같다는 발표가 나오기 시작했으며, 현재는 로봇 택시 서비스가 당분간 시작되기 어려울 것이라는 전망이 나오고 있다.

자율주행 분야뿐만 아니라, 의료 인공지능이나 공장 자동화와 같은 다른 분야도 이런 상황은 마찬가지이다. 이코노미스트지의 이번 기사에 따르면, 딥러닝 기술 발전에 가장 큰 기여를 한 컴퓨터 과학자 중 한 사람인 제프리 힌튼(Geoffrey Hinton) 교수가 2016년 “우리는 조만간 영상의학 전문의를 길러내는 것을 그만둬야 할지도 모른다(it’s quite obvious that we should stop training radiologists)”고 전망한 적이 있다.

실제로 인공지능 기술을 활용하는 의료 분야, 특히 딥러닝을 이용한 의료 영상 진단 분야와 같은 분야에서는 인공지능이 의사를 대체할 수 있다는 다소 과격한 전망이 알파고 붐이 인 2016년대 초반에 많이 소개된 바 있다. 

현재 상황을 살펴보면, 영상 진단 분야 전문의의 수요는 여전히 모자라다. 현장의 의사들은 인공지능 기술을 활용한 의료 영상 진단 기술들은 의사를 대체하기보다는 당분간 의사의 진단을 보조하거나 정확성을 높이는 보조 도구로써 활용될 가능성이 높고, 이렇게 활용될 수준으로 의료 영상 진단 기술이 상용화되기까지도 꽤 시간이 걸릴 것으로 전망하고 있다[2, 5].

자율주행 및 의료 영상뿐만 아니라, 일반 생활에 쓰이는 인공지능 기술들도 마찬가지다. 인공지능 챗봇, 대화 인터페이스 기술 수준 향상의 한계는 분명하게 드러나고 있다. 최근 언어 모델로 크게 주목받고 있는 구글의 BERT, OpenAI의 GPT-3와 같은 대형 언어 모델들은 사람과의 대화가 많이 자연스러워졌다고는 하나, 여전히 대화한다는 느낌을 충분하게 주지는 않는다. 내놓는 답변도 특정한 목적을 위한 짧은 대화에는 꽤 정확해졌으나, 다양한 맥락을 고려해 대답해야 하는 대화에서는 여전히 엉뚱한 답변을 하기 마련이다.

언어 모델의 발전에도 이런 한계가 드러나는 것은, 필자가 지난 요슈아 벤지오 교수의 NeurIPS’19 기조 강연을 소개하면서 언급한 것처럼, 우리가 아직 우리의 인지 과정에 대해 완전하게 이해하지 못하고 있고, 이런 인간의 인지 과정에 대한 모든 지식이 BERT, GPT-3와 같은 언어 모델을 포함한 인공지능 모델에 완전하게 반영되어 있지 않기 때문이다. 

이와 같이 우리가 가진 인간의 인지 과정에 대한 이해의 부족 때문에 생기는 필연적인 인공지능 기술의 근본적인 한계가 적나라하게 드러나기 시작하면서 현재 우리가 가진 인공지능 기술의 한계에 대해서 시장에서도 인지하기 시작하게 된 것이다.

이와 같이 알파고 대국으로 시작된 딥러닝 붐이 시작된 2016년 이후로 알려졌던 많은 전망이 지금까지 실현되거나, 이와 비슷하게 기술 발전이 이루어진 사례가 많지 않은 것을 시장에서 점점 인지해가면서 인공지능 기술에 대한 기대가 점점 사라져가고 있다. 이런 이유로 최근 인공지능 기술에 대한 열기가 조금씩 식어가고 있다는 것이다. 실제로 인공지능 기술 스타트업 투자와 관련해 최근 벤처 투자자들이 조금씩 보수적인 입장으로 돌아서고 있는 것으로 보인다[2-3].

투자에 비해 더딘 성과, 인공지능 활용 성공 사례의 부족
둘째로, 인공지능 기술에 대한 기대가 식어가는 첫 번째 이유인 인공지능 기술의 한계를 시장에서 점차 인식하고 있는 현실과 맞물려서, 일반 기업들이 인공지능 기술을 실제 비즈니스에 적용해서 활용하기가 쉽지 않고, 그 효과를 본 사례가 매우 적다는 것이다.

구글과 애플, 페이스북, 아마존과 같은 소위 GAFA로 불리는 인터넷 서비스 선두 기업들은 인공지능 기술을 활용할 수 있는 인공지능 분야 소프트웨어 엔지니어와 연구자들을 많이 보유하고 있다. 이렇게 인공지능 분야 전문가들을 쓸어 가다시피 한 이들 기업도 인공지능 기술을 이용한 서비스나 상품 중에서 눈에 띄는 수익을 내는 것은 그렇게 많지 않다. 

구글 같은 기업은 자사의 연구 성과를 구글 브레인 블로그(Google Brain Blog)와 같은 곳에 많이 홍보하고 공개하기도 하지만, 연구 성과를 공개하는 것과 실질적인 재무 성과를 내는 상품을 개발하고 시장에 선보이는 것은 또 다른 문제이다.

구글 같은 기업들도 위와 같은 상황인데, 이들 회사들과 같이 인공지능 전문가들과 소프트웨어 엔지니어를 많이 보유하지 못한 일반 회사들이 인공지능 기술로 눈에 띄는 성과를 낸다는 것은 더 어려운 일이다. 

“가상 비서(virtual assistant)”와 같은 인공지능 기술 자체를 상품화하는 것은 구글과 같이 자신들의 정체성을 인공지능 회사라고 정의하는 회사들의 몫이라고 생각하더라도, 일반 회사의 업에 맞는 프로세스 자동화와 응용 분야를 찾아서 이를 사업화할 수 있는 인공지능 전문가들과 데이터 과학자들을 찾아 회사에 영입하고, 또 이들이 실질적인 성과를 낼 때까지 뒷받침하고 지원하는 것이 어떻게 보면 인공지능 기술을 직접 상용화하는 구글과 같은 회사보다 더 어려운 일이 될 수 있다.

인공지능 기술을 회사의 업에 맞는 자동화와 응용 분야에 적용하여 실질적인 성과를 내기 위해서는, 이를 위해서 채용된 인공지능 전문가들이나 데이터 과학자들이 인공지능 기술에 대해서도 잘 알아야 하지만, 해당 기업의 업과 비즈니스 체계에 대해서도 잘 알아야 한다. 

이와 함께 인공지능 기술을 어떻게 활용해서 실질적인 수익으로 연결할 수 있을지 해결책을 찾기 위해 시행착오를 겪으면서 비즈니스 모델과 기술을 다듬어가는 과정을 거치게 된다. 이 과정을 인내하면서 견딜 수 있을 정도로 재무적으로 여유 있고 인공지능 기술의 활용이 절실한 기업은 필자의 경험으로는 실제로 많지 않다.

인공지능 기술이, 빅데이터 붐을 일으켰던 하둡(Hadoop)이나 스파크(Spark)와 같이 단일 소프트웨어나 솔루션 같은 기술이 아닌 것도 일반 기업이 인공지능 기술을 활용하는 것을 어렵게 하고 있다. 

텐서플로우(TensorFlow)나 파이토치(PyTorch)같은 소프트웨어들이 있지 않느냐, 또 최근 학술회의를 통해서 공개된 딥러닝 모델에 대한 소스코드들이 많지 않느냐고 반문하는 분들이 계실 수 있는데, 하둡(Hadoop)이나 스파크(Spark)와 같은 소프트웨어와, 텐서플로우(TensorFlow), 파이토치(PyTorch)와 같은 소프트웨어와 딥러닝 모델 소스 코드들은, 서로 그 성격이 완전히 다른 소프트웨어라는 것을 염두에 둘 필요가 있다.

하둡(Hadoop)이나 스파크(Spark) 같은 빅데이터 소프트웨어들은 작업 병렬화 및 분산화, 확장성 있는 데이터 조작에 초점을 맞춘 분산 컴퓨팅 소프트웨어이고, API의 용도와 기능이 분명한 편이다. 반면, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 프레임워크의 API를 이용해 딥러닝 모델을 만든다 해도, 딥러닝 모델을 어떤 문제와 응용 분야에 어떤 방식으로 활용하냐에 따라 다양한 시행착오와 별도의 모델 튜닝 과정을 겪을 수 있다. 

딥러닝과 같은 기계 학습 모델은 실제 업무에 적용할 때 학습에 활용한 데이터에 따라 정확도, 추론 성능이 달라질 수 있기 때문에 기계 학습 모델이 프로그램한 대로 동작하리라고 완전하게 기대할 수도 없다.

실제 인공지능 기술을 활용하려는 목적인 기계에 자율성과 지능을 부여하는 측면에서도, 텐서플로우(TensorFlow)와 파이토치(PyTorch)로 API에 따라 프로그래밍만 하면 되는 것도 아니다. 기계 학습 모델이 실제 컴퓨터와 기계에 자율성과 지능을 부여할 수 있도록 하려면 단순하게 소프트웨어적인 측면만 고려해서는 안 되는 경우도 많기 때문이다.

이는 인공지능 기술이 목표로 하는 기계에 자율성과 지능을 부여하여 업무의 자동화를 이루려는 목적을 이루기 위해, 인공지능 기술을 탑재한 (하드웨어적인 또는 소프트웨어적인) 자율 에이전트들이 센서나 소프트웨어 에이전트와 같은 것들을 통해서 주변 환경에 대한 정보를 얻고 상호작용해야 하는 것을 전제로 해야 하는 경우가 많기 때문이다.

기계에 자율성을 부여하는 이런 자율 에이전트들이 하게 되는 주변 환경 및 다른 자율 에이전트들과 상호 작용을 지능형 시스템으로 실현하기 위해서는 단순한 API를 이용한 프로그래밍 이상의 전문 지식과 경험이 필요하며, 이에 더해 경우에 따라서는 과학적, 공학적으로 어려운 난제를 인공지능 기술을 사용하는 연구자나 개발자가 자신만의 가정과 아이디어로 시험해 가면서 해결해야 할 수도 있다.

이런 이유로 일반 회사가 인공지능 기술을 사용해 인공지능 기술의 효과를 가시적으로 볼 수 있을 정도로 활용하기에는 불확실성도 크고, 기업의 일반 사무 업무처럼 표준화된 업무로 규격화하여 프로세스화 하기도 쉽지 않아, 일반 기업이 인공지능 기술을 이용해 만든 가시적인 성과를 아직까지 보기 어렵고, 인공지능 기술을 도입하기 어려운 것이다.

아무리 그 소스코드가 공개되어 있고, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 소프트웨어 프레임워크들이 발전한다고 해도, 딥러닝을 비롯한 기계 학습 모델과 이를 기반으로 하는 인지 컴퓨팅 소프트웨어 모듈을 프로그래밍하고 실제 업무 현장에 적용하는 것은 하둡(Hadoop)이나 스파크(Spark), 몽고DB(MongoDB)와 같은 빅데이터 기술을 사용하는 것과는 완전히 다른 난이도의 업무이다. 

하둡(Hadoop)이나 스파크(Spark), 몽고DB(MongoDB)와 같은 빅데이터 소프트웨어를 이용한 빅데이터 정보 시스템을 기업이 구축해 놨다고 해서 데이터 과학을 자동으로 하고 있다고 말할 수 없는 것과 비슷한 이유이다.

이 때문에 기계 학습 기술을 이용한 업무 자동화, 응용 소프트웨어 개발을 돕는 MLOps(Machine Learning DevOps)와 같은 기술과 트렌드가 주목받고 있지만, 기계 학습을 적용하는 과정 자체가 워낙 다양성이 많고 어려워 아직까지 일반 기업이 기계 학습과 같은 인공지능 기술을 통해 주요 비즈니스 문제를 해결한 눈에 띄는 사례는 찾아보기 어려운 상황이다.

이렇게 인공지능 기술, 특히 많이 사용되는 기계 학습 기술이 근본적으로 가지는 불확실성과 모호성, 그리고 인공지능 기술 자체의 미성숙성 때문에, 많은 수의 소프트웨어 엔지니어와 인공지능 전문가를 보유한 회사가 아닌 일반 회사가 인공지능 기술을 활용해서 상품이나 서비스를 기획하고 비즈니스로 만드는 것이 어려워 인공지능 기술을 도입했다고 주장하는 많은 회사들이 실질적인 성과를 낸 사례를 찾아보기 어려운 것이다.

인공지능 기술을 이용해 실질적인 비즈니스 성과를 내기 위해서는 회사의 조직 구성과 구성원들의 역량이 크게 변화되어야 하는데, 이런 경향은 요즘 “디지털 전환(Digital Transformation)”이라는 말로 상징되어 화두가 되고 있다.

빅데이터와 “디지털 전환(Digital Transformation)”, “디지털 전환(Digital Transformation)”의 맥락에서 사이버 물리 시스템과 인공지능 기술의 활용 문제는 앞으로 필자가 기고하게 될 빅데이터의 미래와 “디지털 전환(Digital Transformation)”에 관한 글에서 좀 더 자세하게 다루도록 한다.

양은 많지만 활용하기 어려워 인공지능에 사용하기에는 적은 빅데이터
셋째로, 현재 인공지능 붐을 일으킨 장본인인 딥러닝 기술을 기준으로 했을 때, 딥러닝 모델을 학습시키기 위해서는 막대한 데이터가 필요하지만, 자신의 비즈니스를 통해 축적하고 활용할 수 있는 구글, 페이스북과 같은 일부 회사들을 제외하고는 일반 회사들이 이런 데이터를 얻기 어렵다는 것이다. 현재 쌓여 있는 빅데이터들도 딥러닝 기반의 인공지능 기술의 학습에 활용하기에는 실제로 쓸 수 있는 데이터가 많지 않다.

이번 “이코노미스트(The Economist)”지의 특집 기사에서 진단한 인공지능 기술의 현황에 대한 의견 중에, 필자의 생각에, 예리한 지적으로 보이는 의견이 바로 이 데이터에 관한 의견이다. 소위 빅데이터 시대에 접어들어 딥러닝 기술을 비롯한 기계 학습에 쓸 수 있는 빅데이터가 넘쳐날 것 같지만, 실상 그 이면을 살펴보면 실제로 기계를 학습시킬 때 쓸 수 있는 데이터가 그렇게 많지 않다는 것이다. 

필자가 예전에도 여러 차례 언급한 바가 있듯이, 많은 기업이 빅데이터만 쌓아 놓으면 그게 바로 수익으로 연결될 것이라고 막연한 기대를 하고 있는 경우가 많은데, 사실 빅데이터 그 자체는 데이터 과학 입장에서는 골칫거리이자 해결해야 할 문제이다. 

데이터 활용의 목적에 맞게 수집되고 정제, 가공되지 않은 빅데이터는 불필요한 정보를 지나치게 많이 담고 있어 대부분의 경우 분석하려고 하는 문제의 본질을 보는 것을 방해하는 “소음(noise)”이 되는 경우가 많다.

이 특집 기사에서 든 사례는 영국의 안과 전문의인 피어스 키언(Pierce Keane)의 사례[5]와 미국의 “시나이산 병원(Mt. Sinai Hospital)”의 폐렴(pneumonia) 진단 인공지능 활용의 사례[4]다.

먼저 영국 런던에서 안과 병원을 운영하는 피어스 키언 박사는 구글의 딥마인드(DeepMind)와 함께 안과 질환을 진단할 수 있는 인공지능 기술 개발을 진행하고 있다. 안과는 영상 데이터가 풍부하여 인공지능 기술을 이용해 영상 진단 데이터 오류를 줄일 수 있을 것으로 기대되는 분야로, 최근 의료용 인공지능 기술 분야의 스타트업들이 많이 생겨나는 분야 중 하나다.

피어스 키언 박사는 현재 딥마인드(DeepMind)와 함께 개발하는 안과용 의료 영상 인공지능 기술의 상용화에 대해서는 아직 시간이 필요하다고 얘기한다. 기술적으로 진단의 정확도를 높이기 위해 좀 더 다양하고 많은 임상 데이터를 통해 딥러닝 모델을 개선하고 임상에서 활용할 수 있는 안전한 기술로 만들기 위해서도 시간이 필요하지만, 의료 분야의 많은 법률적, 제도적 규정과 절차에 따라 법적으로도 문제가 없는 의료 영상 진단 인공지능 기술로 상용화하는 데 많은 시간이 필요하기 때문이다.

피어스 키언 박사가 의료 인공지능 기술의 상용화에서 걸림돌이 되는 또 하나의 이유로 든 것은 의료 인공지능 기술에 사용할 수 있는 “일관적이고 활용가능한 데이터 형식(consistent, usable data format)”이 없는 것이다. 

피어스 키언 박사가 구글 딥마인드(DeepMind)와 함께 협력하면서, 의료 인공지능 기술 개발에 활용할 수 있다는 큰 데이터 셋을 보유하고 있다고 하는 의학자들의 연락을 자주 받지만, 이 의학자들에게 보유한 데이터가 어떤 데이터 형식으로 가공, 보관되어 있는지 물어보면 정작 연락이 되지 않고 데이터를 제공받을 수 없는 경우가 많다는 것이다.

필자의 경험으로는 이 데이터 형식의 문제는 매우 중요한 문제이지만, 종종 빅데이터 및 인공지능 기술을 활용하는 기업들이 자주 간과하는 문제이다. 이 데이터 형식의 문제는 최근 우리나라 정부에서 4차산업혁명 관련 사업으로 적극적으로 추진하고 있는 “데이터 댐” 사업에서도 데이터를 축적하기 전에 반드시 검토되어야 할 중요한 문제라고 필자는 생각하지만, 사업 추진 자체에 속도를 내는 형국이 되면서 진지하게 논의되고 있지 못한 것 같아 다소 걱정되는 이슈이다.

데이터 형식이 중요한 이유는 딥러닝 기술을 비롯한 기계 학습 기술의 성숙도와 큰 연관이 있다. 딥러닝 기술을 비롯한 기계 학습 기반의 인공지능 기술들은 사람과 같은 독립적인 자율성을 가진 기술로서 아직 충분히 성숙되지 않았고, 특정한 작업만 잘하는 모델로서 개발되는 경우가 많다. 

이 작업들에 대해서 국내의 다양한 이해 관계자들, 그리고 국제적으로도 다양한 이해 관계자들 사이의 이해 관계와 인공지능 기술을 사용하는 과정에서의 효과성을 고려한 데이터 형식에 대한 합의가 이루어지지 않은 분야가 많다.

그나마 영상 의학 의료 분야는 전 세계적으로 의료 장비의 표준화나 의사, 의료 기관 간 데이터 교환을 위해 국제 표준, 산업 표준이 많이 합의에 이르고 있는 분야 중의 하나지만, 대부분 병원에서 실제 적용되는 진료 프로세스의 변화 속도가 첨단 기술 발전 속도에는 크게 못 미치기 때문에 아직도 데이터 형식에 대한 합의가 이루어지지 않은 경우가 많은 것으로 보인다. 대부분 미국과 같은 의학 선진국에서 만든 표준 형식들이 많이 사용되기 때문에 우선적으로 이런 형식들을 사용할 수는 있을 것이다. 

그렇지만, 의료 분야는 국가별로 정부의 법률적 규제와 진료 과정 규정의 차이가 많은 분야이다 보니 의료 영상 진단용 인공지능 기술 개발에 필요한 주요 영상 데이터 형식에 대해서 인공지능 기술 연구자들과 의학자, 의료계 종사자들 사이에 합의되어 실제 인공지능 기술 개발에 잘 활용되기까지는 아직도 많은 시간이 필요할 것으로 생각된다.

영상 의학 분야와 같이 사회적으로 기반이 되는 산업 분야에 대한 인공지능 기술과 산업의 발전을 촉진하기 위해 정부와 산업별 협의체를 통해서 인공지능 기술 도입을 위한 표준 협의 단체를 만들어 사회적으로 표준에 대한 합의에 이른다면 가장 좋을 것이다. 

실제로, 영상 의학 분야에서 가장 많이 쓰이고 있는 데이터 형식 중 하나인 “DICOM(Digital Imaging and Communications in Medicine)” 형식은, 미국에서 영상 의학 기기를 만드는 의료기기 산업 분야에 종사하는 엔지니어들의 협의체인 “미국전기공업회(NEMA)”와 영상 의학자 및 의사들의 협의체인 “미국방사선의학회(ACR)”에서 공동으로 협의하여 매년 5번의 개정판을 발표하고 있다.

영상 의학처럼 인공지능 기술의 발전이 의료 진단 오류와 진단 오류로 인한 의료 사고의 감소로 이어지는 것과 같이 사람의 생명에 직접적으로 관련되거나 사회적인 영향력이 큰 산업 분야에서는 이렇게 인공지능 기술용 표준 데이터 형식에 대한 논의와 합의를 상대적으로 쉽게 시작할 수 있을 것이다.

그렇지만 반대로, 사람의 생명에 직결되거나 사회적인 영향력이 큰 이유로 인공지능 기술의 도입이 현 산업 구조에 미치는 영향이 크기 때문에, 현재의 산업 구조에서 사업을 영위하고 있는 다양한 이해관계자와 기업들이 인공지능 기술의 도입으로 인해 자신들의 이해 관계에 미치는 영향이 부정적이라면 오히려 데이터 형식에 대한 합의에 응하지 않거나 부정적인 영향을 미칠 가능성도 높다.

의료 분야처럼 산업과 국가 경제에 미치는 영향이 큰 분야를 중심으로 인공지능 기술 개발에 필요한 데이터 형식과 메타데이터 표준에 대한 논의를 시작하면 인공지능 기술 개발, 사업화에 필요한 다양한 데이터 형식에 대한 수요와 논의도 점차 확산시켜갈 수 있을 것이다. 

다만 데이터 형식에 담기는 정보와 관련해서 다양한 이해관계자들의, 특히 인공지능 기술로 새로운 사업을 시도하는 스타트업들과 기존 의료 기기 사업에서 비즈니스를 영위하고 있는 기업들, 의료 현장에서 일하는 의사들과 의료 전문가 간 이해 관계 조율과 합의 과정 때문에 시간이 오래 걸릴 수 있고, 이런 상황이 인공지능 기술 발전에 부정적인 영향을 미칠 수 있다는 것은 미리 염두에 두어야 할 것이다.

이런 측면에서, 국가적으로 인공지능 기술의 확산이 중심이 된 4차산업혁명을 통해서 국가 경제 중흥을 시도하는 정부는 “데이터 댐” 사업과 같은 사업을 시작하고 성과를 내는 것과 함께, “데이터 댐” 사업의 성과물과 산출물로 만들어진 인공지능 기술 개발용 학습, 테스트, 검증용 데이터들이 사장되지 않고 지속적으로 활용될 수 있는 쓸모 있는 데이터가 될 수 있도록, 사회 내 다양한 이해관계자들 간의 이해 관계 조율과 데이터 형식 합의에 이르는 과정을 중재할 수 있어야 할 것이다.

위 피어스 키언 박사의 안과 질환 진단용 인공지능 기술 개발 사례에서 언급된 의료 인공지능 개발용 데이터의 이슈와 함께, 인공지능 관련 데이터 문제로 또 하나 언급된 것은 인공지능 모델을 학습할 때 썼던 데이터를 수집한 기관이 아닌, 다른 기관이나 조직에서 수집한 데이터를 사용했을 때 인공지능 모델의 성능과 정확도가 차이가 날 수 있다는 점이다.

실제로 뉴욕의 유명한 병원인 “시나이산 병원(Mt. Sinai Hospital)”의 의료진들이 사용한 가슴 X-ray 영상을 판독하여 폐렴 진단을 돕는 인공지능 시스템이, 인공지능이 학습했던 가슴 X-ray 영상을 제공한 기관이 아닌 다른 의료 기관의 영상 데이터에 해당 인공지능 시스템을 이용해 진단했을 경우 진단의 정확도가 크게 떨어지는 것으로 나타났다[4].

이렇게 인공지능의 학습 과정에 필요한 데이터에 어떤 데이터를 포함시키고 포함시키지 않을지 결정하는 것도 매우 중요한 문제일 수 있다. 폐렴 같은 질병 진단을 위한 학습용 데이터 셋을 구축하는 경우, 해당 인공지능 진단 시스템을 사용하는 병원과 의료 기관에서 수집한 데이터들을 가능하면 모두 사용해서 위와 같은 문제점이 생기는 것을 막으려 시도할 수도 있을 것이다. 

하지만 기계 학습을 이용한 인공지능 시스템은 학습시킬 때 사용하는 데이터의 양이나 다양성이 너무 많으면 인공지능 모델의 일반화(generalization) 능력이 오히려 떨어지는 “과잉 적응(overfitting)” 문제가 나타난다. 학습 데이터의 양이 많다고 해서 꼭 좋은 것은 아니다.

이와 같이 인공지능 모델의 학습에 사용하는 데이터 셋에 어느 기관, 조직의 데이터 셋을 사용했느냐 하는 문제도 중요할 수 있지만, 영상 데이터를 다루는 관행이나 방식, 정책에서 오는 차이, 진단 기준의 차이 때문에도 기관별 데이터의 품질과 수준이 천차만별이기 때문에 인공지능 모델의 학습과 일반화 능력에 큰 차이를 가져오게 된다.

예를 들면, 앞서 설명한 폐렴 진단을 위한 가슴 X-ray 사진에서 촬영 위치를 식별하기 위해 놓는 작은 금속 토큰의 위치나 놓는 방식이 병원마다 다른 것에서, 이 토큰의 위치나 놓인 방식으로 해당 X-ray 영상이 어느 병원에서 왔는지 판단할 수 있을 정도이다. 

이렇게 병원마다 진단 기준에 사용하는 암묵적인 지식과 영상 데이터를 다루는 다양한 방식과 정책이 영상 진단을 위한 인공지능 모델의 성능에도 큰 영향을 미칠 수 있다는 점이 영상 진단 인공지능 모델을 개발할 때 고려가 되어야 한다.

이렇게 인공지능 모델을 학습할 때 사용하는 데이터의 품질과 다양성이 인공지능 모델의 학습과 성능에 크게 영향을 미치기 때문에, 이런 학습 데이터 자체의 특성을 고려해 인공지능 모델을 보정할 수 있는 방법도 인공지능 모델 학습을 위한 데이터 형식에 반영되어야 한다. 

대개의 경우, 데이터를 수집, 가공하는 과정에서 해당 데이터를 수집하고 가공한 조직은 적지 않은 비용과 인력을 투입했을 것이고, 해당 조직만의 암묵적인 노하우나 숨겨진 지식이 적용되었을 가능성이 높다. 이런 데이터 수집, 가공 과정에서의 차이와 관행이, 인공지능 산업의 성장을 위해 사회적으로 합의하고 사용하는 데이터 형식과 메타데이터, 표준 데이터 셋의 합의 과정에서 민감한 이해관계 요소로 작용할 수 있다.

위와 같이 현재 인공지능 모델과 기술의 근본적인 한계, 그리고, 학습에 활용할 수 있는 데이터를 생산하고 만들어내는 각 조직만의 이해 관계와 데이터 생산, 가공에 들인 적지 않은 자원 때문에, 인공지능 기술의 발전을 위해 필요한 일관성 있고 사용 가능한 데이터 형식에 대해 사회적인 합의를 이루는 과정이 생각보다 쉽지 않을 수 있다. 

이런 미묘한 이슈가 있을 수 있음을 “데이터 댐” 사업을 비롯한 인공지능 기술 관련 사업, 정책을 기획하고 실행하는 우리 정부의 정부 부처와 관계자들도 꼭 기억해 주셨으면 한다.

마지막으로, 인공지능 기술 개발, 발전에 필요한 데이터를 확보하는 과정을 일회성 문제로 생각할 것이 아니라, 인공지능을 갖춘 기계가, 그 자신을 향상하고 개선하는 과정에서도 자율성을 가질 정도로 기술이 고도로 발전하기 전까지는, 끊임없이 변화, 진화하는 지속적인 과정으로서 학습 데이터 형식과 학습 데이터를 가공하는 과정을 이해해야 한다는 것이다.

딥러닝 기술 붐이 일으킨 정보기술 분야에서 또 하나의 독특한 양상은, 기계에게 사람이 하는 일을 가르치기 위해 필요한 데이터 수집, 가공 작업을 수작업으로 대신해 주거나, 기계 학습용 데이터를 수집, 가공, 생성하는 작업을 보조하거나 도와줄 수 있는 인공지능 기술을 개발하고 이를 서비스나 솔루션 형태의 상품으로 제공하는 회사들이 점점 많아지고 있다는 사실이다.

인공지능에 관한 컨설팅을 제공하는 회사인 “코그닐리티카(Cognilytica)”의 최근 보고서에 따르면, “제 3자 데이터 제공(the third-party data preparation)” 사업의 경우 2019년엔 15억 달러, 한화로 약 1조 8,750억 원 규모였으나, 2024년까지 약 35억 달러, 한화로 약 4조 3,750억 원 규모로 성장할 것으로 예상된다. 

최근 딥러닝 기술 개발 붐과 함께 많이 등장하고 있는 데이터 레이블링 사업의 경우, 2019년에는 17억 달러, 한화로 2조 1,250억 원 규모였으나, 2024년까지 41억 달러, 5조 1,250억 원 규모로 성장할 것으로 예상된다[4].

사람이 할 수 있는 일을 인공지능 모델에 가르치기 위해 필요한 일은 극히 일부분을 제외하고는 아직까지 사람이 직접 가공해서 만들어야 하는 경우가 대부분이라, 대부분 매우 노동집약적이고 수작업이 많이 필요한 경우가 많다. 

이 때문에 최근 아마존의 대리 작업 의뢰 서비스인 “아마존 체스 기계(Mechanical Turk)” 서비스를 이용해 데이터 레이블링 작업을 의뢰받아 수입을 올리는 사람들이 전 세계적으로 늘어나고, 이를 이용해 극빈국의 국민들이 이를 통해 돈을 벌 수 있는 사례가 만들어진 것도 독특한 양상 중 하나이다.

“아마존 체스 기계(Mechanical Turk)” 서비스뿐만 아니라, 독일의 자동차용 인공지능 데이터 가공 서비스와 솔루션을 제공하는 “언더스탠드 닷 에이아이(Understand.AI)”와 같은 스타트업들이 자신들만의 데이터 레이블링 자동화 솔루션과 노하우를 가지고 기업의 인공지능 학습 데이터를 대신 가공, 준비해주는 제3자 데이터 가공 서비스 시장에 진출하는 사례가 늘어나고 있다.

우리나라의 “데이터 댐” 사업의 하나로 진행되고 있는 AI 학습용 데이터 구축 사업과 AI 데이터 가공 바우처 사업도 인공지능 학습 및 평가를 위한 데이터 레이블링과 제3자 데이터 가공, 준비 사업 시장이 커지는 전 세계적인 추세를 고려해서 진행되었으면 한다. 

“데이터 댐” 사업이 일시적이고 불안정한 일자리를 잠깐 양산해내는 실효성 없는 사업으로 전락하지 않도록, 앞으로 우리나라 기업의 “디지털 전환(Digital Transformation)”과 인공지능 도입 과정에 필요한 데이터 가공 서비스를 제공하는 스타트업들이 지속가능한 비즈니스 모델을 조기에 탐색, 확보하도록 지원하는 마중물로서 역할을 할 수 있었으면 바람이다.

이 것뿐만 아니라, 데이터 레이블링 및 가공 기술과 인공지능 기술은, 데이터 레이블링 및 가공 과정이 자동화율이 높아지고 지능화되면 될수록 인공지능 기술의 발전이 더 가속되게 되며, 인공지능 기술의 발전은 다시 데이터 레이블링 및 가공 과정의 자동화, 지능화 수준을 높여 인공지능에 필요한 데이터 생산과 가공을 가속하기 때문에 다시 인공지능 기술의 발전을 가속화하는 식으로 서로 선순환 관계에 있다.

데이터 레이블링 및 가공 과정에 활용되는 인공지능 기술의 수준이 실제 사이버 물리 시스템과 다른 응용 분야에서 사용되는 인공지능 기술에 비해 수준이 전혀 낮지 않고, 오히려 서로 같이 사용할 수 있다. 데이터 레이블링 및 가공 과정 자체가 일종의 빅데이터 처리, 분석 과정이기 때문에, 이를 위한 기술 개발로 얻은 인공지능 기술들은 빅데이터 처리, 분석을 이용한 빅데이터 비즈니스에도 긍정적인 영향을 끼칠 수 있다. 

AI 학습용 데이터 구축 사업과 AI 데이터 가공 바우처 사업을 일시적으로 좋지 않은 조건의 단순 노동 일자리만 양산하는 실적 위주의 사업으로 만들기보다는, 이를 계기로 인공지능 및 빅데이터 기술 분야의 첨단 스타트업을 양성해내는 계기로 만들 수 있어야 앞으로 우리나라 기업들의 인공지능 기술 도입과 “디지털 전환(Digital Transformation)”이 지속가능한 선순환을 이루게 되고 정부에서 기대했던 실질적인 4차산업혁명 관련 산업의 융성으로 열매 맺게 될 것이다.
 
 



2020.10.30

김진철의 How-to-Big Data | 빅데이터의 미래 (12)

김진철 | CIO KR
빅데이터 비즈니스 트렌드의 미래로서 사이버 물리 시스템 기반의 지능형 서비스 비즈니스를 꽤 오랜 지면을 할애해서 지난 1년간 살펴보고 있다. 이번 글은 인공지능 기술과 사이버 물리 시스템 사이의 관계, 미래를 살펴보는 마지막 글로, 지난 6월 13일 자 “이코노미스트(The Economist)”지에 실린 “계간 기술(Technology Quarterly)” 특집 기사의 내용을 같이 살펴보면서 앞으로 인공지능 기술이 어떤 양상으로 발전하게 될지 같이 엿보려고 한다.

지난 6월 13일 자 “이코노미스트(The Economist)”지의 “계간 기술(Technology Quarterly)”은 아직도 그 열기가 가시지 않고 있는 인공지능 기술에 대한 특집 기사로 채워졌다. 권위 있는 경제 매체인 “이코노미스트(The Economist)”지는 매 분기별로 글로벌 경제에 영향을 미치는 기술 이슈들을 주제별로 선정해 심도 있게 조사, 분석하여 소개하는 “계간 기술(Technology Quarterly)” 특집 기사를 정기적으로 싣고 있다.
 
ⓒGetty Images

“이코노미스트(The Economist)”지는 “네이처(Nature)”나 “사이언스(Science)”와 같은 전문 과학기술 학술 저널, “MIT 기술 리뷰(MIT Technology Review)”나 “와이어드(Wired)”와 같은 전문 기술 매체가 아닌 경제 전문 매체임에도 불구하고, 정확하고 균형 있는 조사와 분석을 통해 최근 기술의 발전 동향이 경제에 미치는 영향과 효과를 현실적이고 정확하게 소개해왔다. 이번 6월 13일 자의 “계간 기술(Technology Quarterly)” 특집 기사는 지난 5년간 전 지구를 뜨겁게 달구어 왔던 인공지능 기술을 주제로 하였다.

이번 6월 13일 자 “계간 기술(Technology Quarterly)” 특집 기사의 핵심 주제는 “인공지능 기술의 가을이 오고 있다(AI’s autumn is coming)”라는 한 문장으로 요약될 수 있다. 지금까지 주목받고 많은 이슈를 몰고 온 인공지능 기술의 현재 위치가 어디인지, 현재 인공지능 기술의 발전 양상과 문제점은 무엇인지, 앞으로 경제 발전에 인공지능 기술이 어떻게 영향을 미칠 것인지에 관한 전문가들과 인터뷰와 여러 분석 자료들에 기초한 기술 분석이 소개됐다. 이 “이코노미스트(The Economist)”지의 인공지능 기술 특집 기사를 바탕으로 인공지능 기술의 미래를 같이 살펴보려고 한다.
 
그림 1. 2020년 인공지능 분야의 가트너(Gartner) “과장 선전 주기(hype cycle)” 곡선. 최근 인공지능 트렌드를 이끌었던 키워드들인 자율주행과 컴퓨터 비전, 챗봇등의 기술들이 “환멸의 계곡(Trough of disillusionment)”에 위치하는 점이 눈에 띈다. (그림 출처: Gartner)

“이코노미스트(The Economist)”지의 인공지능 특집 기사에서 현재 인공지능 기술은 한창 주목을 받고 시장이 크게 성장하던 시기를 지나, 가트너(Gartner)의 “과장 선전 주기(hype-cycle)”에서 기술에 대한 시장의 기대치가 급격하게 낮아지는 지점인 “환멸의 계곡(trough of disillusionment)”을 지나고 있으며, 곧 인공지능 기술의 가을이 올 것으로 전망하였다.

그 원인으로 든 다섯 가지를 이번 글에서 살펴보면서 앞으로 사이버 물리 시스템을 위한 인공지능이 어떤 양상으로 발전해갈지 같이 생각해보도록 하자.

인공지능 기술의 한계에 대한 시장의 각성
첫째로, 시장이 인공지능 기술의 한계에 대해서 점차 각성하고 있다는 것이다. 이런 인공지능 기술의 한계에 대한 각성은, “알파고(AlphaGo)”와 이세돌 9단의 대국 이후 인공지능 회사들과 전문가들이 인공지능 기술로 할 수 있는 것들에 대해 내어놓은 “큰 전망(grand claim)”의 상당수가 현재 실현되지 않고 있거나 철회되고 있는 현실에서 비롯된다.

일반 대중과 회사들이 인공지능 기술에 대해서 가지게 되는 관심은 인공지능 기술을 잘 알아서라기보다는 인공지능 기술을 활용하여 만든, 또는 그렇게 주장하는 상품이나 서비스가 시장에서 크게 성공하거나 실제 생활 속에서 자리 잡으면서 생활의 편리함을 더하고 우리의 생활을 조금씩 바꿀 수 있으리라는 기대와 함께 커져가게 된다. 

이렇게 된 계기가 “알파고(AlphaGo)”와 이세돌 9단의 대국, 그리고 엔비디아(Nvidia)와 같은 딥러닝 하드웨어 업체들과 주요 자율주행 회사들이 보여준 자율주행 시연, 그리고 구글과 마이크로소프트, 페이스북과 같은 인터넷 서비스 및 소프트웨어 회사들이 내어놓은 챗봇, 가상 비서와 같은 지능형 서비스와 인공지능 관련 상품들이다.

이렇게 최근 딥러닝 기술의 발전과 함께, 자연어 처리, 음성 인식, 영상 인식 기술과 같은 인공지능 기술을 활용한 상품이 “알파고(AlphaGo)” 사건 이후 쏟아져 나오고 언론의 주목을 받으면서 시장의 기대감도 크게 높아졌다. 이렇게 높아지는 기대감이 다시 인공지능이 할 수 있는 영역에 대한 막연한 기대감으로 번져가면서 많은 인공지능 관련 회사들과 스타트업들이 인공지능 기술에 대한 다양한 전망과 약속을 내어놓게 되었다.

대표적인 것 중 하나가 대표적인 자동차 제조사인 GM이 주목받던 자율주행 스타트업이었던 “크루즈(Cruise)”를 인수하고, 2019년 말까지 Level 4 자율주행차를 개발하여 로봇 택시 서비스를 대대적으로 시작하겠다고 발표한 2017년도다. 2016년도 당시 GM은 구글의 “웨이모(Waymo)”와 함께 자율주행 분야를 선도하고 있던 회사였던 “크루즈(Cruise)”를 10억 달러, 한화 약 1조 2천억 원에 인수하여 자율주행 기술을 이용한 로봇 택시 서비스를 2019년까지 상용화하겠다고 발표한 바 있다.

하지만, 2019년도부터 GM의 로봇 택시 서비스 상용화가 예정보다 지연될 것 같다는 발표가 나오기 시작했으며, 현재는 로봇 택시 서비스가 당분간 시작되기 어려울 것이라는 전망이 나오고 있다.

자율주행 분야뿐만 아니라, 의료 인공지능이나 공장 자동화와 같은 다른 분야도 이런 상황은 마찬가지이다. 이코노미스트지의 이번 기사에 따르면, 딥러닝 기술 발전에 가장 큰 기여를 한 컴퓨터 과학자 중 한 사람인 제프리 힌튼(Geoffrey Hinton) 교수가 2016년 “우리는 조만간 영상의학 전문의를 길러내는 것을 그만둬야 할지도 모른다(it’s quite obvious that we should stop training radiologists)”고 전망한 적이 있다.

실제로 인공지능 기술을 활용하는 의료 분야, 특히 딥러닝을 이용한 의료 영상 진단 분야와 같은 분야에서는 인공지능이 의사를 대체할 수 있다는 다소 과격한 전망이 알파고 붐이 인 2016년대 초반에 많이 소개된 바 있다. 

현재 상황을 살펴보면, 영상 진단 분야 전문의의 수요는 여전히 모자라다. 현장의 의사들은 인공지능 기술을 활용한 의료 영상 진단 기술들은 의사를 대체하기보다는 당분간 의사의 진단을 보조하거나 정확성을 높이는 보조 도구로써 활용될 가능성이 높고, 이렇게 활용될 수준으로 의료 영상 진단 기술이 상용화되기까지도 꽤 시간이 걸릴 것으로 전망하고 있다[2, 5].

자율주행 및 의료 영상뿐만 아니라, 일반 생활에 쓰이는 인공지능 기술들도 마찬가지다. 인공지능 챗봇, 대화 인터페이스 기술 수준 향상의 한계는 분명하게 드러나고 있다. 최근 언어 모델로 크게 주목받고 있는 구글의 BERT, OpenAI의 GPT-3와 같은 대형 언어 모델들은 사람과의 대화가 많이 자연스러워졌다고는 하나, 여전히 대화한다는 느낌을 충분하게 주지는 않는다. 내놓는 답변도 특정한 목적을 위한 짧은 대화에는 꽤 정확해졌으나, 다양한 맥락을 고려해 대답해야 하는 대화에서는 여전히 엉뚱한 답변을 하기 마련이다.

언어 모델의 발전에도 이런 한계가 드러나는 것은, 필자가 지난 요슈아 벤지오 교수의 NeurIPS’19 기조 강연을 소개하면서 언급한 것처럼, 우리가 아직 우리의 인지 과정에 대해 완전하게 이해하지 못하고 있고, 이런 인간의 인지 과정에 대한 모든 지식이 BERT, GPT-3와 같은 언어 모델을 포함한 인공지능 모델에 완전하게 반영되어 있지 않기 때문이다. 

이와 같이 우리가 가진 인간의 인지 과정에 대한 이해의 부족 때문에 생기는 필연적인 인공지능 기술의 근본적인 한계가 적나라하게 드러나기 시작하면서 현재 우리가 가진 인공지능 기술의 한계에 대해서 시장에서도 인지하기 시작하게 된 것이다.

이와 같이 알파고 대국으로 시작된 딥러닝 붐이 시작된 2016년 이후로 알려졌던 많은 전망이 지금까지 실현되거나, 이와 비슷하게 기술 발전이 이루어진 사례가 많지 않은 것을 시장에서 점점 인지해가면서 인공지능 기술에 대한 기대가 점점 사라져가고 있다. 이런 이유로 최근 인공지능 기술에 대한 열기가 조금씩 식어가고 있다는 것이다. 실제로 인공지능 기술 스타트업 투자와 관련해 최근 벤처 투자자들이 조금씩 보수적인 입장으로 돌아서고 있는 것으로 보인다[2-3].

투자에 비해 더딘 성과, 인공지능 활용 성공 사례의 부족
둘째로, 인공지능 기술에 대한 기대가 식어가는 첫 번째 이유인 인공지능 기술의 한계를 시장에서 점차 인식하고 있는 현실과 맞물려서, 일반 기업들이 인공지능 기술을 실제 비즈니스에 적용해서 활용하기가 쉽지 않고, 그 효과를 본 사례가 매우 적다는 것이다.

구글과 애플, 페이스북, 아마존과 같은 소위 GAFA로 불리는 인터넷 서비스 선두 기업들은 인공지능 기술을 활용할 수 있는 인공지능 분야 소프트웨어 엔지니어와 연구자들을 많이 보유하고 있다. 이렇게 인공지능 분야 전문가들을 쓸어 가다시피 한 이들 기업도 인공지능 기술을 이용한 서비스나 상품 중에서 눈에 띄는 수익을 내는 것은 그렇게 많지 않다. 

구글 같은 기업은 자사의 연구 성과를 구글 브레인 블로그(Google Brain Blog)와 같은 곳에 많이 홍보하고 공개하기도 하지만, 연구 성과를 공개하는 것과 실질적인 재무 성과를 내는 상품을 개발하고 시장에 선보이는 것은 또 다른 문제이다.

구글 같은 기업들도 위와 같은 상황인데, 이들 회사들과 같이 인공지능 전문가들과 소프트웨어 엔지니어를 많이 보유하지 못한 일반 회사들이 인공지능 기술로 눈에 띄는 성과를 낸다는 것은 더 어려운 일이다. 

“가상 비서(virtual assistant)”와 같은 인공지능 기술 자체를 상품화하는 것은 구글과 같이 자신들의 정체성을 인공지능 회사라고 정의하는 회사들의 몫이라고 생각하더라도, 일반 회사의 업에 맞는 프로세스 자동화와 응용 분야를 찾아서 이를 사업화할 수 있는 인공지능 전문가들과 데이터 과학자들을 찾아 회사에 영입하고, 또 이들이 실질적인 성과를 낼 때까지 뒷받침하고 지원하는 것이 어떻게 보면 인공지능 기술을 직접 상용화하는 구글과 같은 회사보다 더 어려운 일이 될 수 있다.

인공지능 기술을 회사의 업에 맞는 자동화와 응용 분야에 적용하여 실질적인 성과를 내기 위해서는, 이를 위해서 채용된 인공지능 전문가들이나 데이터 과학자들이 인공지능 기술에 대해서도 잘 알아야 하지만, 해당 기업의 업과 비즈니스 체계에 대해서도 잘 알아야 한다. 

이와 함께 인공지능 기술을 어떻게 활용해서 실질적인 수익으로 연결할 수 있을지 해결책을 찾기 위해 시행착오를 겪으면서 비즈니스 모델과 기술을 다듬어가는 과정을 거치게 된다. 이 과정을 인내하면서 견딜 수 있을 정도로 재무적으로 여유 있고 인공지능 기술의 활용이 절실한 기업은 필자의 경험으로는 실제로 많지 않다.

인공지능 기술이, 빅데이터 붐을 일으켰던 하둡(Hadoop)이나 스파크(Spark)와 같이 단일 소프트웨어나 솔루션 같은 기술이 아닌 것도 일반 기업이 인공지능 기술을 활용하는 것을 어렵게 하고 있다. 

텐서플로우(TensorFlow)나 파이토치(PyTorch)같은 소프트웨어들이 있지 않느냐, 또 최근 학술회의를 통해서 공개된 딥러닝 모델에 대한 소스코드들이 많지 않느냐고 반문하는 분들이 계실 수 있는데, 하둡(Hadoop)이나 스파크(Spark)와 같은 소프트웨어와, 텐서플로우(TensorFlow), 파이토치(PyTorch)와 같은 소프트웨어와 딥러닝 모델 소스 코드들은, 서로 그 성격이 완전히 다른 소프트웨어라는 것을 염두에 둘 필요가 있다.

하둡(Hadoop)이나 스파크(Spark) 같은 빅데이터 소프트웨어들은 작업 병렬화 및 분산화, 확장성 있는 데이터 조작에 초점을 맞춘 분산 컴퓨팅 소프트웨어이고, API의 용도와 기능이 분명한 편이다. 반면, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 프레임워크의 API를 이용해 딥러닝 모델을 만든다 해도, 딥러닝 모델을 어떤 문제와 응용 분야에 어떤 방식으로 활용하냐에 따라 다양한 시행착오와 별도의 모델 튜닝 과정을 겪을 수 있다. 

딥러닝과 같은 기계 학습 모델은 실제 업무에 적용할 때 학습에 활용한 데이터에 따라 정확도, 추론 성능이 달라질 수 있기 때문에 기계 학습 모델이 프로그램한 대로 동작하리라고 완전하게 기대할 수도 없다.

실제 인공지능 기술을 활용하려는 목적인 기계에 자율성과 지능을 부여하는 측면에서도, 텐서플로우(TensorFlow)와 파이토치(PyTorch)로 API에 따라 프로그래밍만 하면 되는 것도 아니다. 기계 학습 모델이 실제 컴퓨터와 기계에 자율성과 지능을 부여할 수 있도록 하려면 단순하게 소프트웨어적인 측면만 고려해서는 안 되는 경우도 많기 때문이다.

이는 인공지능 기술이 목표로 하는 기계에 자율성과 지능을 부여하여 업무의 자동화를 이루려는 목적을 이루기 위해, 인공지능 기술을 탑재한 (하드웨어적인 또는 소프트웨어적인) 자율 에이전트들이 센서나 소프트웨어 에이전트와 같은 것들을 통해서 주변 환경에 대한 정보를 얻고 상호작용해야 하는 것을 전제로 해야 하는 경우가 많기 때문이다.

기계에 자율성을 부여하는 이런 자율 에이전트들이 하게 되는 주변 환경 및 다른 자율 에이전트들과 상호 작용을 지능형 시스템으로 실현하기 위해서는 단순한 API를 이용한 프로그래밍 이상의 전문 지식과 경험이 필요하며, 이에 더해 경우에 따라서는 과학적, 공학적으로 어려운 난제를 인공지능 기술을 사용하는 연구자나 개발자가 자신만의 가정과 아이디어로 시험해 가면서 해결해야 할 수도 있다.

이런 이유로 일반 회사가 인공지능 기술을 사용해 인공지능 기술의 효과를 가시적으로 볼 수 있을 정도로 활용하기에는 불확실성도 크고, 기업의 일반 사무 업무처럼 표준화된 업무로 규격화하여 프로세스화 하기도 쉽지 않아, 일반 기업이 인공지능 기술을 이용해 만든 가시적인 성과를 아직까지 보기 어렵고, 인공지능 기술을 도입하기 어려운 것이다.

아무리 그 소스코드가 공개되어 있고, 텐서플로우(TensorFlow)와 파이토치(PyTorch)와 같은 딥러닝 소프트웨어 프레임워크들이 발전한다고 해도, 딥러닝을 비롯한 기계 학습 모델과 이를 기반으로 하는 인지 컴퓨팅 소프트웨어 모듈을 프로그래밍하고 실제 업무 현장에 적용하는 것은 하둡(Hadoop)이나 스파크(Spark), 몽고DB(MongoDB)와 같은 빅데이터 기술을 사용하는 것과는 완전히 다른 난이도의 업무이다. 

하둡(Hadoop)이나 스파크(Spark), 몽고DB(MongoDB)와 같은 빅데이터 소프트웨어를 이용한 빅데이터 정보 시스템을 기업이 구축해 놨다고 해서 데이터 과학을 자동으로 하고 있다고 말할 수 없는 것과 비슷한 이유이다.

이 때문에 기계 학습 기술을 이용한 업무 자동화, 응용 소프트웨어 개발을 돕는 MLOps(Machine Learning DevOps)와 같은 기술과 트렌드가 주목받고 있지만, 기계 학습을 적용하는 과정 자체가 워낙 다양성이 많고 어려워 아직까지 일반 기업이 기계 학습과 같은 인공지능 기술을 통해 주요 비즈니스 문제를 해결한 눈에 띄는 사례는 찾아보기 어려운 상황이다.

이렇게 인공지능 기술, 특히 많이 사용되는 기계 학습 기술이 근본적으로 가지는 불확실성과 모호성, 그리고 인공지능 기술 자체의 미성숙성 때문에, 많은 수의 소프트웨어 엔지니어와 인공지능 전문가를 보유한 회사가 아닌 일반 회사가 인공지능 기술을 활용해서 상품이나 서비스를 기획하고 비즈니스로 만드는 것이 어려워 인공지능 기술을 도입했다고 주장하는 많은 회사들이 실질적인 성과를 낸 사례를 찾아보기 어려운 것이다.

인공지능 기술을 이용해 실질적인 비즈니스 성과를 내기 위해서는 회사의 조직 구성과 구성원들의 역량이 크게 변화되어야 하는데, 이런 경향은 요즘 “디지털 전환(Digital Transformation)”이라는 말로 상징되어 화두가 되고 있다.

빅데이터와 “디지털 전환(Digital Transformation)”, “디지털 전환(Digital Transformation)”의 맥락에서 사이버 물리 시스템과 인공지능 기술의 활용 문제는 앞으로 필자가 기고하게 될 빅데이터의 미래와 “디지털 전환(Digital Transformation)”에 관한 글에서 좀 더 자세하게 다루도록 한다.

양은 많지만 활용하기 어려워 인공지능에 사용하기에는 적은 빅데이터
셋째로, 현재 인공지능 붐을 일으킨 장본인인 딥러닝 기술을 기준으로 했을 때, 딥러닝 모델을 학습시키기 위해서는 막대한 데이터가 필요하지만, 자신의 비즈니스를 통해 축적하고 활용할 수 있는 구글, 페이스북과 같은 일부 회사들을 제외하고는 일반 회사들이 이런 데이터를 얻기 어렵다는 것이다. 현재 쌓여 있는 빅데이터들도 딥러닝 기반의 인공지능 기술의 학습에 활용하기에는 실제로 쓸 수 있는 데이터가 많지 않다.

이번 “이코노미스트(The Economist)”지의 특집 기사에서 진단한 인공지능 기술의 현황에 대한 의견 중에, 필자의 생각에, 예리한 지적으로 보이는 의견이 바로 이 데이터에 관한 의견이다. 소위 빅데이터 시대에 접어들어 딥러닝 기술을 비롯한 기계 학습에 쓸 수 있는 빅데이터가 넘쳐날 것 같지만, 실상 그 이면을 살펴보면 실제로 기계를 학습시킬 때 쓸 수 있는 데이터가 그렇게 많지 않다는 것이다. 

필자가 예전에도 여러 차례 언급한 바가 있듯이, 많은 기업이 빅데이터만 쌓아 놓으면 그게 바로 수익으로 연결될 것이라고 막연한 기대를 하고 있는 경우가 많은데, 사실 빅데이터 그 자체는 데이터 과학 입장에서는 골칫거리이자 해결해야 할 문제이다. 

데이터 활용의 목적에 맞게 수집되고 정제, 가공되지 않은 빅데이터는 불필요한 정보를 지나치게 많이 담고 있어 대부분의 경우 분석하려고 하는 문제의 본질을 보는 것을 방해하는 “소음(noise)”이 되는 경우가 많다.

이 특집 기사에서 든 사례는 영국의 안과 전문의인 피어스 키언(Pierce Keane)의 사례[5]와 미국의 “시나이산 병원(Mt. Sinai Hospital)”의 폐렴(pneumonia) 진단 인공지능 활용의 사례[4]다.

먼저 영국 런던에서 안과 병원을 운영하는 피어스 키언 박사는 구글의 딥마인드(DeepMind)와 함께 안과 질환을 진단할 수 있는 인공지능 기술 개발을 진행하고 있다. 안과는 영상 데이터가 풍부하여 인공지능 기술을 이용해 영상 진단 데이터 오류를 줄일 수 있을 것으로 기대되는 분야로, 최근 의료용 인공지능 기술 분야의 스타트업들이 많이 생겨나는 분야 중 하나다.

피어스 키언 박사는 현재 딥마인드(DeepMind)와 함께 개발하는 안과용 의료 영상 인공지능 기술의 상용화에 대해서는 아직 시간이 필요하다고 얘기한다. 기술적으로 진단의 정확도를 높이기 위해 좀 더 다양하고 많은 임상 데이터를 통해 딥러닝 모델을 개선하고 임상에서 활용할 수 있는 안전한 기술로 만들기 위해서도 시간이 필요하지만, 의료 분야의 많은 법률적, 제도적 규정과 절차에 따라 법적으로도 문제가 없는 의료 영상 진단 인공지능 기술로 상용화하는 데 많은 시간이 필요하기 때문이다.

피어스 키언 박사가 의료 인공지능 기술의 상용화에서 걸림돌이 되는 또 하나의 이유로 든 것은 의료 인공지능 기술에 사용할 수 있는 “일관적이고 활용가능한 데이터 형식(consistent, usable data format)”이 없는 것이다. 

피어스 키언 박사가 구글 딥마인드(DeepMind)와 함께 협력하면서, 의료 인공지능 기술 개발에 활용할 수 있다는 큰 데이터 셋을 보유하고 있다고 하는 의학자들의 연락을 자주 받지만, 이 의학자들에게 보유한 데이터가 어떤 데이터 형식으로 가공, 보관되어 있는지 물어보면 정작 연락이 되지 않고 데이터를 제공받을 수 없는 경우가 많다는 것이다.

필자의 경험으로는 이 데이터 형식의 문제는 매우 중요한 문제이지만, 종종 빅데이터 및 인공지능 기술을 활용하는 기업들이 자주 간과하는 문제이다. 이 데이터 형식의 문제는 최근 우리나라 정부에서 4차산업혁명 관련 사업으로 적극적으로 추진하고 있는 “데이터 댐” 사업에서도 데이터를 축적하기 전에 반드시 검토되어야 할 중요한 문제라고 필자는 생각하지만, 사업 추진 자체에 속도를 내는 형국이 되면서 진지하게 논의되고 있지 못한 것 같아 다소 걱정되는 이슈이다.

데이터 형식이 중요한 이유는 딥러닝 기술을 비롯한 기계 학습 기술의 성숙도와 큰 연관이 있다. 딥러닝 기술을 비롯한 기계 학습 기반의 인공지능 기술들은 사람과 같은 독립적인 자율성을 가진 기술로서 아직 충분히 성숙되지 않았고, 특정한 작업만 잘하는 모델로서 개발되는 경우가 많다. 

이 작업들에 대해서 국내의 다양한 이해 관계자들, 그리고 국제적으로도 다양한 이해 관계자들 사이의 이해 관계와 인공지능 기술을 사용하는 과정에서의 효과성을 고려한 데이터 형식에 대한 합의가 이루어지지 않은 분야가 많다.

그나마 영상 의학 의료 분야는 전 세계적으로 의료 장비의 표준화나 의사, 의료 기관 간 데이터 교환을 위해 국제 표준, 산업 표준이 많이 합의에 이르고 있는 분야 중의 하나지만, 대부분 병원에서 실제 적용되는 진료 프로세스의 변화 속도가 첨단 기술 발전 속도에는 크게 못 미치기 때문에 아직도 데이터 형식에 대한 합의가 이루어지지 않은 경우가 많은 것으로 보인다. 대부분 미국과 같은 의학 선진국에서 만든 표준 형식들이 많이 사용되기 때문에 우선적으로 이런 형식들을 사용할 수는 있을 것이다. 

그렇지만, 의료 분야는 국가별로 정부의 법률적 규제와 진료 과정 규정의 차이가 많은 분야이다 보니 의료 영상 진단용 인공지능 기술 개발에 필요한 주요 영상 데이터 형식에 대해서 인공지능 기술 연구자들과 의학자, 의료계 종사자들 사이에 합의되어 실제 인공지능 기술 개발에 잘 활용되기까지는 아직도 많은 시간이 필요할 것으로 생각된다.

영상 의학 분야와 같이 사회적으로 기반이 되는 산업 분야에 대한 인공지능 기술과 산업의 발전을 촉진하기 위해 정부와 산업별 협의체를 통해서 인공지능 기술 도입을 위한 표준 협의 단체를 만들어 사회적으로 표준에 대한 합의에 이른다면 가장 좋을 것이다. 

실제로, 영상 의학 분야에서 가장 많이 쓰이고 있는 데이터 형식 중 하나인 “DICOM(Digital Imaging and Communications in Medicine)” 형식은, 미국에서 영상 의학 기기를 만드는 의료기기 산업 분야에 종사하는 엔지니어들의 협의체인 “미국전기공업회(NEMA)”와 영상 의학자 및 의사들의 협의체인 “미국방사선의학회(ACR)”에서 공동으로 협의하여 매년 5번의 개정판을 발표하고 있다.

영상 의학처럼 인공지능 기술의 발전이 의료 진단 오류와 진단 오류로 인한 의료 사고의 감소로 이어지는 것과 같이 사람의 생명에 직접적으로 관련되거나 사회적인 영향력이 큰 산업 분야에서는 이렇게 인공지능 기술용 표준 데이터 형식에 대한 논의와 합의를 상대적으로 쉽게 시작할 수 있을 것이다.

그렇지만 반대로, 사람의 생명에 직결되거나 사회적인 영향력이 큰 이유로 인공지능 기술의 도입이 현 산업 구조에 미치는 영향이 크기 때문에, 현재의 산업 구조에서 사업을 영위하고 있는 다양한 이해관계자와 기업들이 인공지능 기술의 도입으로 인해 자신들의 이해 관계에 미치는 영향이 부정적이라면 오히려 데이터 형식에 대한 합의에 응하지 않거나 부정적인 영향을 미칠 가능성도 높다.

의료 분야처럼 산업과 국가 경제에 미치는 영향이 큰 분야를 중심으로 인공지능 기술 개발에 필요한 데이터 형식과 메타데이터 표준에 대한 논의를 시작하면 인공지능 기술 개발, 사업화에 필요한 다양한 데이터 형식에 대한 수요와 논의도 점차 확산시켜갈 수 있을 것이다. 

다만 데이터 형식에 담기는 정보와 관련해서 다양한 이해관계자들의, 특히 인공지능 기술로 새로운 사업을 시도하는 스타트업들과 기존 의료 기기 사업에서 비즈니스를 영위하고 있는 기업들, 의료 현장에서 일하는 의사들과 의료 전문가 간 이해 관계 조율과 합의 과정 때문에 시간이 오래 걸릴 수 있고, 이런 상황이 인공지능 기술 발전에 부정적인 영향을 미칠 수 있다는 것은 미리 염두에 두어야 할 것이다.

이런 측면에서, 국가적으로 인공지능 기술의 확산이 중심이 된 4차산업혁명을 통해서 국가 경제 중흥을 시도하는 정부는 “데이터 댐” 사업과 같은 사업을 시작하고 성과를 내는 것과 함께, “데이터 댐” 사업의 성과물과 산출물로 만들어진 인공지능 기술 개발용 학습, 테스트, 검증용 데이터들이 사장되지 않고 지속적으로 활용될 수 있는 쓸모 있는 데이터가 될 수 있도록, 사회 내 다양한 이해관계자들 간의 이해 관계 조율과 데이터 형식 합의에 이르는 과정을 중재할 수 있어야 할 것이다.

위 피어스 키언 박사의 안과 질환 진단용 인공지능 기술 개발 사례에서 언급된 의료 인공지능 개발용 데이터의 이슈와 함께, 인공지능 관련 데이터 문제로 또 하나 언급된 것은 인공지능 모델을 학습할 때 썼던 데이터를 수집한 기관이 아닌, 다른 기관이나 조직에서 수집한 데이터를 사용했을 때 인공지능 모델의 성능과 정확도가 차이가 날 수 있다는 점이다.

실제로 뉴욕의 유명한 병원인 “시나이산 병원(Mt. Sinai Hospital)”의 의료진들이 사용한 가슴 X-ray 영상을 판독하여 폐렴 진단을 돕는 인공지능 시스템이, 인공지능이 학습했던 가슴 X-ray 영상을 제공한 기관이 아닌 다른 의료 기관의 영상 데이터에 해당 인공지능 시스템을 이용해 진단했을 경우 진단의 정확도가 크게 떨어지는 것으로 나타났다[4].

이렇게 인공지능의 학습 과정에 필요한 데이터에 어떤 데이터를 포함시키고 포함시키지 않을지 결정하는 것도 매우 중요한 문제일 수 있다. 폐렴 같은 질병 진단을 위한 학습용 데이터 셋을 구축하는 경우, 해당 인공지능 진단 시스템을 사용하는 병원과 의료 기관에서 수집한 데이터들을 가능하면 모두 사용해서 위와 같은 문제점이 생기는 것을 막으려 시도할 수도 있을 것이다. 

하지만 기계 학습을 이용한 인공지능 시스템은 학습시킬 때 사용하는 데이터의 양이나 다양성이 너무 많으면 인공지능 모델의 일반화(generalization) 능력이 오히려 떨어지는 “과잉 적응(overfitting)” 문제가 나타난다. 학습 데이터의 양이 많다고 해서 꼭 좋은 것은 아니다.

이와 같이 인공지능 모델의 학습에 사용하는 데이터 셋에 어느 기관, 조직의 데이터 셋을 사용했느냐 하는 문제도 중요할 수 있지만, 영상 데이터를 다루는 관행이나 방식, 정책에서 오는 차이, 진단 기준의 차이 때문에도 기관별 데이터의 품질과 수준이 천차만별이기 때문에 인공지능 모델의 학습과 일반화 능력에 큰 차이를 가져오게 된다.

예를 들면, 앞서 설명한 폐렴 진단을 위한 가슴 X-ray 사진에서 촬영 위치를 식별하기 위해 놓는 작은 금속 토큰의 위치나 놓는 방식이 병원마다 다른 것에서, 이 토큰의 위치나 놓인 방식으로 해당 X-ray 영상이 어느 병원에서 왔는지 판단할 수 있을 정도이다. 

이렇게 병원마다 진단 기준에 사용하는 암묵적인 지식과 영상 데이터를 다루는 다양한 방식과 정책이 영상 진단을 위한 인공지능 모델의 성능에도 큰 영향을 미칠 수 있다는 점이 영상 진단 인공지능 모델을 개발할 때 고려가 되어야 한다.

이렇게 인공지능 모델을 학습할 때 사용하는 데이터의 품질과 다양성이 인공지능 모델의 학습과 성능에 크게 영향을 미치기 때문에, 이런 학습 데이터 자체의 특성을 고려해 인공지능 모델을 보정할 수 있는 방법도 인공지능 모델 학습을 위한 데이터 형식에 반영되어야 한다. 

대개의 경우, 데이터를 수집, 가공하는 과정에서 해당 데이터를 수집하고 가공한 조직은 적지 않은 비용과 인력을 투입했을 것이고, 해당 조직만의 암묵적인 노하우나 숨겨진 지식이 적용되었을 가능성이 높다. 이런 데이터 수집, 가공 과정에서의 차이와 관행이, 인공지능 산업의 성장을 위해 사회적으로 합의하고 사용하는 데이터 형식과 메타데이터, 표준 데이터 셋의 합의 과정에서 민감한 이해관계 요소로 작용할 수 있다.

위와 같이 현재 인공지능 모델과 기술의 근본적인 한계, 그리고, 학습에 활용할 수 있는 데이터를 생산하고 만들어내는 각 조직만의 이해 관계와 데이터 생산, 가공에 들인 적지 않은 자원 때문에, 인공지능 기술의 발전을 위해 필요한 일관성 있고 사용 가능한 데이터 형식에 대해 사회적인 합의를 이루는 과정이 생각보다 쉽지 않을 수 있다. 

이런 미묘한 이슈가 있을 수 있음을 “데이터 댐” 사업을 비롯한 인공지능 기술 관련 사업, 정책을 기획하고 실행하는 우리 정부의 정부 부처와 관계자들도 꼭 기억해 주셨으면 한다.

마지막으로, 인공지능 기술 개발, 발전에 필요한 데이터를 확보하는 과정을 일회성 문제로 생각할 것이 아니라, 인공지능을 갖춘 기계가, 그 자신을 향상하고 개선하는 과정에서도 자율성을 가질 정도로 기술이 고도로 발전하기 전까지는, 끊임없이 변화, 진화하는 지속적인 과정으로서 학습 데이터 형식과 학습 데이터를 가공하는 과정을 이해해야 한다는 것이다.

딥러닝 기술 붐이 일으킨 정보기술 분야에서 또 하나의 독특한 양상은, 기계에게 사람이 하는 일을 가르치기 위해 필요한 데이터 수집, 가공 작업을 수작업으로 대신해 주거나, 기계 학습용 데이터를 수집, 가공, 생성하는 작업을 보조하거나 도와줄 수 있는 인공지능 기술을 개발하고 이를 서비스나 솔루션 형태의 상품으로 제공하는 회사들이 점점 많아지고 있다는 사실이다.

인공지능에 관한 컨설팅을 제공하는 회사인 “코그닐리티카(Cognilytica)”의 최근 보고서에 따르면, “제 3자 데이터 제공(the third-party data preparation)” 사업의 경우 2019년엔 15억 달러, 한화로 약 1조 8,750억 원 규모였으나, 2024년까지 약 35억 달러, 한화로 약 4조 3,750억 원 규모로 성장할 것으로 예상된다. 

최근 딥러닝 기술 개발 붐과 함께 많이 등장하고 있는 데이터 레이블링 사업의 경우, 2019년에는 17억 달러, 한화로 2조 1,250억 원 규모였으나, 2024년까지 41억 달러, 5조 1,250억 원 규모로 성장할 것으로 예상된다[4].

사람이 할 수 있는 일을 인공지능 모델에 가르치기 위해 필요한 일은 극히 일부분을 제외하고는 아직까지 사람이 직접 가공해서 만들어야 하는 경우가 대부분이라, 대부분 매우 노동집약적이고 수작업이 많이 필요한 경우가 많다. 

이 때문에 최근 아마존의 대리 작업 의뢰 서비스인 “아마존 체스 기계(Mechanical Turk)” 서비스를 이용해 데이터 레이블링 작업을 의뢰받아 수입을 올리는 사람들이 전 세계적으로 늘어나고, 이를 이용해 극빈국의 국민들이 이를 통해 돈을 벌 수 있는 사례가 만들어진 것도 독특한 양상 중 하나이다.

“아마존 체스 기계(Mechanical Turk)” 서비스뿐만 아니라, 독일의 자동차용 인공지능 데이터 가공 서비스와 솔루션을 제공하는 “언더스탠드 닷 에이아이(Understand.AI)”와 같은 스타트업들이 자신들만의 데이터 레이블링 자동화 솔루션과 노하우를 가지고 기업의 인공지능 학습 데이터를 대신 가공, 준비해주는 제3자 데이터 가공 서비스 시장에 진출하는 사례가 늘어나고 있다.

우리나라의 “데이터 댐” 사업의 하나로 진행되고 있는 AI 학습용 데이터 구축 사업과 AI 데이터 가공 바우처 사업도 인공지능 학습 및 평가를 위한 데이터 레이블링과 제3자 데이터 가공, 준비 사업 시장이 커지는 전 세계적인 추세를 고려해서 진행되었으면 한다. 

“데이터 댐” 사업이 일시적이고 불안정한 일자리를 잠깐 양산해내는 실효성 없는 사업으로 전락하지 않도록, 앞으로 우리나라 기업의 “디지털 전환(Digital Transformation)”과 인공지능 도입 과정에 필요한 데이터 가공 서비스를 제공하는 스타트업들이 지속가능한 비즈니스 모델을 조기에 탐색, 확보하도록 지원하는 마중물로서 역할을 할 수 있었으면 바람이다.

이 것뿐만 아니라, 데이터 레이블링 및 가공 기술과 인공지능 기술은, 데이터 레이블링 및 가공 과정이 자동화율이 높아지고 지능화되면 될수록 인공지능 기술의 발전이 더 가속되게 되며, 인공지능 기술의 발전은 다시 데이터 레이블링 및 가공 과정의 자동화, 지능화 수준을 높여 인공지능에 필요한 데이터 생산과 가공을 가속하기 때문에 다시 인공지능 기술의 발전을 가속화하는 식으로 서로 선순환 관계에 있다.

데이터 레이블링 및 가공 과정에 활용되는 인공지능 기술의 수준이 실제 사이버 물리 시스템과 다른 응용 분야에서 사용되는 인공지능 기술에 비해 수준이 전혀 낮지 않고, 오히려 서로 같이 사용할 수 있다. 데이터 레이블링 및 가공 과정 자체가 일종의 빅데이터 처리, 분석 과정이기 때문에, 이를 위한 기술 개발로 얻은 인공지능 기술들은 빅데이터 처리, 분석을 이용한 빅데이터 비즈니스에도 긍정적인 영향을 끼칠 수 있다. 

AI 학습용 데이터 구축 사업과 AI 데이터 가공 바우처 사업을 일시적으로 좋지 않은 조건의 단순 노동 일자리만 양산하는 실적 위주의 사업으로 만들기보다는, 이를 계기로 인공지능 및 빅데이터 기술 분야의 첨단 스타트업을 양성해내는 계기로 만들 수 있어야 앞으로 우리나라 기업들의 인공지능 기술 도입과 “디지털 전환(Digital Transformation)”이 지속가능한 선순환을 이루게 되고 정부에서 기대했던 실질적인 4차산업혁명 관련 산업의 융성으로 열매 맺게 될 것이다.
 
 

X