Offcanvas

AI / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 신기술|미래 / 클라우드

김진철의 How-to-Big Data | 빅데이터의 미래 (13)

2020.11.27 김진철  |  CIO KR


클라우드 네이티브 프로그래밍의 확산
앞서 함수형 프로그래밍에 대해 언급하면서, 빅데이터 컴퓨팅을 위한 자원 확장성 프로그래밍 모델로서 클라우드 네이티브 프로그래밍의 확산에 대해서도 언급한 바 있다. 이번 절에서는 클라우드 네이티브 프로그래밍의 확산이 빅데이터 소프트웨어 기술의 발전에 어떤 영향을 미칠지 같이 생각해보자.

지난 서른일곱 번째에서 서른아홉 번째 글에서 언급했던 것과 같이[6-8], 클라우드 컴퓨팅의 본질은 서비스 지향 컴퓨팅(service-oriented computing)을 이용해 IT 자원에 대한 접근성을 확보하고, 분산 컴퓨팅 환경의 이질성(heterogeneity)과 자원 확장성(scalability)을 극복하여 IT 자원에 대한 프로그래머빌리티(programmability)를 높이는 것이다. 

IT 자원을 모두 프로그램이 가능한 자원으로 만들어 빅데이터를 활용한 서비스와 같이 자원 확장성(scalability)이 꼭 필요한 워크로드에 대해 유연한 확장성을 제공하려는 것이 클라우드 컴퓨팅의 본질이다.

아마존 웹 서비스(Amazon Web Services; AWS), 마이크로소프트 애저(Azure), 구글 클라우드 플랫폼(Google Cloud Platform; GCP)과 같은 공용 클라우드(public cloud) 서비스가 안정화되자, 이들 공용 클라우드(public cloud) 서비스를 아예 인프라로 두고 응용 프로그램이나 서비스를 개발하는 클라우드 네이티브 프로그래밍(cloud-native programming)이 최근 확산되고 있다. 

이렇게 클라우드 네이티브 프로그래밍의 확산이 의미하는 바는, 클라우드 컴퓨팅 기술로 통합된 IT 인프라가 서비스 플랫폼과 응용 소프트웨어에 소프트웨어적 요소로서 본격적으로 통합되는 최근의 클라우드 네이티브 애플리케이션(cloud-native application) 개발 경향을 보여주는 것으로 생각할 수 있다.

최근 리눅스 재단에서 새로이 설립한 클라우드 네이티브 컴퓨팅 재단(Cloud Native Computing Foundation; CNCF)에서 정의한 클라우드 네이티브 컴퓨팅은 조금 더 좁은 의미로서, 응용 소프트웨어와 서비스를 개발할 때 공용 클라우드(public cloud) 서비스 사용을 기본으로 하고, 컨테이너 기술을 활용한 응용 소프트웨어 배포와 스케줄링, 관리를 이용하며, 마이크로서비스 아키텍처(microservice architecture; MSA)를 이용해 소프트웨어 컴포넌트들을 통합하는 방식을 말한다.

어떤 정의이든 간에, 클라우드 네이티브 애플리케이션 개발과 클라우드 네이티브 프로그래밍에는 비즈니스 문제 해결을 위한 IT 시스템 개발에 클라우드 컴퓨팅 자원을 이용하는 것을 기본 전제로 하고, 클라우드 컴퓨팅 서비스 API를 이용해 클라우드 컴퓨팅 자원을 제어, 통합하여 문제를 해결하는 것을 근본으로 한다. 

빅데이터 비즈니스에서 클라우드 네이티브 프로그래밍은, 빅데이터를 이용한 문제 해결을 위해 클라우드 컴퓨팅 자원의 제어, 통합을 빅데이터 문제 해결을 위한 IT 자원의 확보 및 활용에 적극적으로 이용하고, 클라우드 컴퓨팅 서비스를 통해 빅데이터 문제 해결을 위한 IT 자원 제어를 추상화하여 제공받아 빅데이터 시스템과 통합한다는 것을 의미한다.

클라우드 네이티브 프로그래밍을 위해서는 REST API를 이용한 공용 클라우드(public cloud) 자원 제어, 쿠버네티스(Kubernetes)와 같은 컨테이너 관리 소프트웨어를 이용한 응용 소프트웨어와 소프트웨어 컴포넌트의 배포, 마이크로서비스의 호출을 통한 소프트웨어 컴포넌트의 통합이 기본 전제가 되어야 한다. 따라서, 기존의 C/C++과 같은 프로그래밍 언어보다는 고(Go), 자바(Java), 자바스크립트(JavaScript), 파이썬(Python), 코틀린(Kotlin)과 같은 웹 프로그래밍에 적합한 언어를 사용하여야 한다.

클라우드 네이티브 프로그래밍에서는 빅데이터 인프라로서 클라우드 컴퓨팅 서비스가 더 이상 고정된 인프라 요소로서 빅데이터 시스템을 구성하는 것이 아닌 빅데이터 가공, 처리, 분석을 위한 IT 자원을 공급하는 소프트웨어 모듈로서 빅데이터 비즈니스 시스템에 통합되도록 프로그래밍한다. 또한, 빅데이터 비즈니스 소프트웨어 시스템의 종단간(end-to-end) 배포(deployment), 제어가 쿠버네티스(Kubernetes) 및 도커(Docker)를 이용한 컨테이너 제어를 통해 일어나도록 한다.

클라우드 네이티브 프로그래밍을 통해 빅데이터 소프트웨어 엔지니어와 데이터 과학자가 빅데이터 가공, 처리, 분석을 위한 IT 자원을 소프트웨어적으로 바라볼 수 있게 되면서, 빅데이터를 다루기 위한 하드웨어, 인프라 측면에서의 디테일에서 해방되어 빅데이터를 이용한 문제 해결에 집중할 수 있도록 해주는 자원 관리 프로그래밍 모델로서 클라우드 네이티브 프로그래밍이 발전하고 있다.

프로그래밍 모델로서 클라우드 네이티브 프로그래밍이 중요한 이유는 앞서 소개했던 엣지 컴퓨팅과 모바일 엣지 컴퓨팅, 그리고, 최근 부상하고 있는 멀티-클라우드 컴퓨팅과 같이 분산 클라우드 컴퓨팅의 수요가 높아지고 있는 상황과도 관련이 있다. 

서른아홉 번째부터 마흔한 번째[8-10] 글에서 소개한 것과 같이, 앞으로 올 사이버 물리 시스템 기반의 지능형 서비스 인프라들은, 데이터센터 한 곳에 모든 IT 자원이 모여 있는 것이 아니라, 지리적으로 넓은 지역에 분산되어 있는 IT 자원들을, 사이버 물리 시스템의 필요에 따라 스케줄링하여 받아쓰거나 여러 형태의 IT 자원을 연합(federation), 연동(interoperation)하여 사용하게 될 가능성이 높다.

이렇게 여러 지역에 분산돼 있는 IT 자원들과 멀티 클라우드 자원들을 목적에 맞게 통합, 연합하고 조율하여 빅데이터 자원 관리를 위해 사용하기 위한 방법으로도 클라우드 네이티브 프로그래밍이 중요하다.

최근에는 아예 클라우드 네이티브 모델을 기본으로 하는 데이터베이스나 빅데이터 소프트웨어 기술도 다수 등장하고 있다. 영국의 스타트업인 지오스포크(GeoSpock)는 모빌리티 서비스와 스마트 시티와 같이 지리적으로 광범위한 지역에 걸친 데이터를 저장, 관리, 색인하고 질의할 수 있는 클라우드 네이티브 공간 데이터베이스인 지오스포크(GeoSpock) 데이터베이스, 지오스포크(GeoSpock) 빅데이터 플랫폼을 아마존 웹 서비스를 기본 인프라로 하여 제공하고 있다[21]. 클라우드 네이티브 프로그래밍 모델이 빅데이터 기술의 자원 제공, 제어 프로그래밍 모델로서 활용되고 있는 좋은 예이다.

멀티 클라우드, 분산 클라우드 수요가 높아지는 추세뿐만 아니라, 딥러닝 기반 인공지능 기술과 서비스의 수요가 높아지는 것도 클라우드 네이티브 프로그래밍의 중요성이 높아지는 원인이다. 앞서 마흔세 번째에서 마흔다섯 번째[11-13] 글에서 소개한 것과 같이, 현대의 기계 학습 기반 인공지능 기술들, 특히 딥러닝을 활용하는 인공지능 기술들은 막대한 컴퓨팅 파워와 데이터를 사용해야 한다. 

인공지능 기술을 활용하는 지능형 서비스를 제공하는 회사들이 필요한 컴퓨팅 자원과 모든 인공지능 기술을 갖추어 서비스를 개발할 수 없기 때문에, 할 수 없이 공용 클라우드(public cloud) 컴퓨팅 자원을 활용하거나, 구글 컴퓨터 비전 API와 같이 REST API로 서비스화된 인공지능 기술을 활용할 수밖에 없는 상황이다.

이런 상황에서 자금과 시간적인 여유가 충분하지 않은 스타트업과 일반 기업들은 클라우드 컴퓨팅 자원과 클라우드 서비스화된 인공지능 기술들을 클라우드 네이티브 프로그래밍 방식으로 자사의 사이버 물리 시스템과 지능형 서비스에 통합하여 고객에게 제공할 수밖에 없는 상황이 자주 나타날 것이다. 

적절한 비용과 시간 제약 안에 지능형 서비스 상품을 개발하고 시장에 선보이기 위해서는 클라우드 컴퓨팅 자원과 클라우드 컴퓨팅 서비스로 제공되는 인공지능 기능을 서비스-지향 컴퓨팅 방식, 또는 마이크로서비스 방식으로 통합하여 원하는 서비스 상품을 만들지 않으면 다른 회사의 경쟁과 비용, 시간 압박을 이겨 내기 쉽지 않을 것이다.

이와 같이 클라우드 네이티브 프로그래밍은 빅데이터 처리, 분석에 필요한 자원 제어 프로그래밍 모델로서 다수의 클라우드 컴퓨팅 서비스와 모바일 에지 컴퓨팅, 에지 컴퓨팅과 같이 계층을 이루어 지리적으로 넓은 지역에 분산된 IT 자원을 필요에 따라 통합(integration), 연합(federation)하여 사이버 물리 시스템의 동작에 필요한 지능을 공급하는 프로그래밍 모델로서 중요한 역할을 하게 될 것이다. 

이와 함께 클라우드 네이티브 프로그래밍 기법과 기술의 발전이 멀티-클라우드, 분산 클라우드 컴퓨팅 자원의 활용을 높이고 빅데이터, 사이버 물리 시스템과의 소프트웨어적 통합을 용이하게 하여 지리적으로 광범위한 영역에 걸쳐 동작하는 사이버 물리 시스템의 통합과 신뢰성 확보에 중요한 역할을 하는 선순환 과정을 일으킬 것이다.

이렇게 클라우드 네이티브 프로그래밍과 빅데이터 소프트웨어 기술, 인공지능 기술의 선순환되는 맞물림이 사이버 물리 시스템 기술의 발전을 가속화하여 기계 지능의 향상과 빅데이터 처리 기술의 발전을 가속하게 될 것이다. 

이런 측면에서 앞으로 올 사이버 물리 시스템 시대를 대비하기 위해, 빅데이터 소프트웨어 엔지니어와 데이터 과학자들은 자신들의 업무 역량과 영역을 넓히고 향상하기 위해 클라우드 네이티브 프로그래밍에 익숙해지고, 자신들의 업무 영역에 자신만의 관점과 노하우를 가지고 접목시켜 기술 자산화 해놓는 것을 필자는 권한다.

양자 컴퓨터의 발전
빅데이터 소프트웨어 기술의 미래에 영향을 끼칠 중요한 기술 동향의 하나로서 양자 컴퓨팅의 발전이 주는 의미에 대해서 좀 더 생각해보자. 양자 컴퓨터가 무엇이고, 빅데이터에 어떻게 쓰일 수 있는지 모두 다루기 위해서는 다소 많은 지면이 필요하기 때문에 이 글에서 이런 내용은 생략하고, 양자 컴퓨터 기술이 빅데이터 소프트웨어 기술의 미래에 어떤 영향을 줄 것인지에 대해서만 간략하게 정리하려고 한다.

앞서 메모리 기술의 발전에 따른 메모리 계층 파괴가 메모리 자원 확장성을 높여 빅데이터 소프트웨어 기술의 내부 아키텍처 및 발전 방향에 큰 영향을 미칠 수 있다고 말한 바 있다. 앞서 마흔네 번째[12] 글에서 소개했던 프로세서-인-메모리(Processor-In-Memory; PIM) 방식의 딥러닝 전용 프로세서의 경우에도, 컴퓨터 아키텍처와 하드웨어 기반 기술의 발전이 어떻게 새로운 인공지능 기술의 발전에 영향을 줄 수 있는지 살펴볼 수 있는 사례였다.

이와 같은 맥락에서 양자 컴퓨터의 발전도 현재 소프트웨어 기술로 근본적인 해결이 어려운 빅데이터 문제들에 대해 새로운 영역 확장과 해결의 도구를 제공하는 기술로서 볼 수 있다. 양자 컴퓨터가 특히 강점을 발휘할 것으로 기대되는 영역은 기존의 계산 복잡성(computational complexity) 이론에서 NP 난제(NP-hard problem) 영역에 해당하는 알고리즘 문제들이다.

양자 컴퓨터가 효과적일 것으로 기대되는 NP 난제(NP-hard problem) 문제들은 광범위한 상태 공간(configuration space)에서의 탐색(search)과 최적화(optimization) 문제들이 될 것으로 보인다. 양자 컴퓨팅과 알고리즘의 근간이 되는 큐빗(qubit)은, 중첩성(superposition)이라는 양자 상태(quantum state)의 독특한 특성 때문에 얽힘(entanglement)과 양자 병렬성(quantum parallelism)이라는 독특한 현상이 나타나게 된다. 이 얽힘(entanglement)이 일어난 양자 상태를 이용하면, 짧은 시간에 다양한 양자 상태에서 함수의 값을 비트 수준에서 병렬 계산하는 효과를 볼 수 있다.

사실 양자 병렬성(quantum parallelism)만 가지고는 의미 있는 연산을 할 수 없다. 큐빗(qubit) 시스템이 실제 연산을 하기 위해서는 큐빗의 상태를 알아내기 위한 측정이 일어나야 하는데, 측정이 아직 수행되지 않은 양자 얽힘(quantum entanglement)을 이용해 만들어진 양자 상태는 계산하지 않은 것과 같아 쓸모가 없기 때문이다. 

그렇지만 양자 상태를 알아내는 측정 과정은 일반 컴퓨터보다 매우 빠른 속도로 진행할 수 있기 때문에 일반 컴퓨터에 비해서 짧은 시간에 많은 측정을 진행할 수 있고, 이렇게 측정된 양자 상태 측정 결과를 모으면 기존 컴퓨터에 비해서 비트 수준에서 병렬로 함수값을 계산한 것과 같은 효과가 일어나 짧은 시간에 넓은 상태 공간 영역의 함수값을 계산하여 비교할 수 있다. 

위와 같은 계산은 특정한 비용 함수(cost function)가 탐색 대상 상태 영역에서 가지는 값을 모두 계산해서 비용 함수가 최고, 최저가 되는 상태를 찾아내는 최적화 계산이나, 특정한 조건을 만족하는 상태를 모두 찾아내는 탐색 연산에서 그 위력을 발휘할 수 있다.

이 최적화나 탐색 연산 모두 고전적인 컴퓨터에서는 계산 시간과 자원이 비다항식(non-polynomial), 기하급수적으로 증가하는 NP 난제(NP-hard problem)이기 때문에 양자 컴퓨터를 이용하면 현재의 컴퓨터 기술로는 쉽게 계산할 수 없었던 다양한 문제의 솔루션을 찾아낼 수 있을 것으로 기대하고 있다.

최적화와 탐색 문제는 인공지능 기술에서 기계 학습(machine learning) 문제와 관련이 깊다. 현재까지 인공지능 학자들이 기계 학습을 학습하는 시스템이 상태 공간에서 최적화를 목적으로 하는 목적함수를 최적화하는 상태를 추정(estimate)하는 문제로 정의해 놓았기 때문에 양자 컴퓨터는 그 태생부터 기계 학습(machine learning) 기술과 아주 밀접한 관련을 가지고 발전할 수밖에 없는 기술이 되었다. 

이런 점을 간파한 구글은 양자 컴퓨터의 가능성을 파악하기 위해 연구를 수행해왔으며, 딥러닝 기반 인공지능 기술을 도약시키기 위한 기술로서 양자 컴퓨터 기술을 상용화하여 활용하기 위해 일찍부터 많은 노력을 기울였다.

최적화와 탐색 문제는 빅데이터 문제에서도 중요하다. 일단 인공지능 기술이 빅데이터 가공, 처리, 분석을 위한 자동화에 많이 쓰이기 때문이기도 하지만, 최근의 많은 빅데이터들은 그래프 형태로 표현되는 연결 데이터(linked data)가 많기 때문이기도 하다. 그래프 형태로 표현된 빅데이터에서 의미 있는 정보들은 대부분 특정한 목적 함수의 값을 최대, 최소화하는 그래프상의 한 노드(node)나 서브-그래프(subgraph), 패턴(pattern)을 탐색하고 찾아내는 문제를 해결하는 것으로 얻어진다. 

결국 최적화와 탐색 문제는 인공지능뿐만 아니라 빅데이터의 탐색과 가공에서도 중요한 역할을 하고 있기 때문에 양자 컴퓨터는 빅데이터 가공, 처리, 분석을 위한 소프트웨어 기술에서도 중요한 인프라로서 역할을 하게 될 것이다.

최근 기계 학습과 인공지능 문제에 양자 컴퓨터를 응용하기 위해 노력하고 있는 연구자들은 현재 잘 알려진 큐빗을 사용하는 양자 컴퓨터뿐만 아니라, 양자 물리학적 특성을 아날로그적으로 그대로 이용하여 문제를 해결하는 아날로그 양자 컴퓨팅이 해결할 수 있는 문제의 영역을 탐색하는 데에도 적극적이다.

양자 컴퓨터 연구자들이 대체적으로 동의하고 있는 것은 양자 컴퓨터가 고전 컴퓨터를 완전히 대체하기보다는 고전 컴퓨터가 쉽게 풀지 못하는 영역의 문제를 더 잘 풀 수 있는 컴퓨터가 될 것으로 생각하고 있다. 

양자 컴퓨터가 풀 수 있는 계산의 영역이 고전 컴퓨터가 해결할 수 있는 연산의 영역보다 더 넓은지 아직 수학적으로 증명되지는 않았지만, 양자 컴퓨터가 다룰 수 있는 계산의 영역이 더 넓고 풍성할 수 있는 가능성은 여전히 열려 있기 때문에 이렇게 양자 컴퓨터가 풀 수 있는 계산 영역을 탐색하고 찾아내는 것도 중요한 문제의 하나로 보고 있다.

양자 컴퓨터 기술은 우리가 다룰 수 있는 빅데이터의 한계를 넘게 해주는 또 하나의 중요한 인프라 기술이 될 수 있을 것으로 기대되며, 이 때문에 빅데이터 소프트웨어 기술을 도약시키게끔 하는 또 하나의 중요한 기술 트렌드로 볼 수 있다. 아직 양자 컴퓨터가 어떤 문제를 더 잘 해결할 수 있을지도 완전하게 밝혀지지 않았기 때문에 양자 컴퓨터가 빅데이터 소프트웨어 기술에 미칠 수 있는 영향에 대해서는 열린 문제로 남아 있다.

빅데이터 소프트웨어 엔지니어들과 데이터 과학자들은 양자 컴퓨터 기술의 발전을 주의 깊게 지켜보면서, 양자 컴퓨터 기술이 빅데이터 비즈니스 문제 해결에 어떻게 활용될 수 있을지 탐색하고 이를 비즈니스 차별화로 어떻게 연결시킬 수 있을지 고민하면서 양자 컴퓨터 상용화에 대비하는 것이 좋겠다.

빅데이터가 인공지능보다 더 중요하다 – 데이터 과학이 사라질 수 없는 이유
지금까지 빅데이터 소프트웨어 기술의 미래에 크게 영향을 줄 네 가지 기술 동향에 대해서 살펴보았다.

먼저, 인텔 옵테인TM(OptaneTM) 메모리 기술로 상징되는 차세대 비휘발성 메모리 기술의 발전으로 메모리 계층의 단순화가 시작되고, 이로 인한 컴퓨터 아키텍처의 변화는 빅데이터 소프트웨어 기술의 필요성을 줄이거나 빅데이터 소프트웨어 기술의 발전 양상을 크게 변화시킬 수 있다고 설명하였다. 

두 번째로, 함수형 프로그래밍의 확산으로 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)로 대표되는 빅데이터 소프트웨어 기술의 프로그래밍 모델이 함수형 프로그래밍 모델로 포용 되어 발전하게 될 것이라고 설명하였다.

세 번째로, 클라우드 네이티브 프로그래밍의 확산은 빅데이터 비즈니스 시스템 개발을 위해 빅데이터 처리, 분석에 필요한 IT 자원의 확보와 제어를 소프트웨어적 통합으로 변화시켜 사이버 물리 시스템의 지능을 높이는데 필요한 IT 자원의 확장성을 손쉽게 얻게 해줄 것이라고 설명하였다.

마지막으로 양자 컴퓨터로 상징되는 차세대 컴퓨팅 기술은 우리가 해결할 수 있는 빅데이터 문제의 영역을 넓혀 빅데이터 소프트웨어 기술이 새로운 단계로 도약하고, 이로 인해 빅데이터 비즈니스가 새로운 양상으로 발전할 수 있는 계기가 될 것이라고 설명하였다.

인공지능 기술의 발전으로 데이터 과학자가 사라질 것이라는 자극적인 제목의 기사가 최근 이 글이 실리고 있는 CIO Korea에 지난 11월 21일 게재된 적이 있다[22]. 이 글의 결론은 글의 자극적인 제목과는 달리 앞으로 10년 후에 데이터 과학자가 사라진다기보다는 현재 심층신경망 아키텍처의 탐색과 최적화에 많이 쓰이고 있는 AutoML 기술이 데이터 과학자들이 데이터 분석에 집중할 수 있도록 기계 학습 모델을 만드는 작업의 상당 부분을 자동화하여 편리하게 할 것이기 때문에 앞으로 10년 후 데이터 과학자들이 AutoML을 다루는 것에 익숙해져야 한다는 것이었다.

결국 인공지능 기술이 데이터 과학자들의 직장을 없애기보다는 데이터 과학자 본연의 역할에 충실할 수 있도록 기계 학습 기반의 분석 모델을 만드는 작업의 상당수를 자동화하고 편리하게 할 AutoML기술을 데이터 과학의 좋은 도구로 삼으라는 것이다.

이 글에서 말하고 싶은 필자의 결론도 그와 크게 다르지 않다. 흔히 앞서 소개한 글과 같이 인공지능 기술의 발전이 데이터 과학자가 할 일을 없애 데이터 과학자를 인공지능이 대체한다는 식의 자극적인 제목의 글을 꽤 접하게 된다. 이는 데이터 과학자와 데이터 과학의 역할을, 이들이 사용하는 일부 소프트웨어 기술과 도구로 국한해서 잘못 이해한 것 때문에 생기는 오해에 불과하다.

데이터 과학은 인간의 편견과 생각의 오류 때문에 생겼던 기업과 비즈니스 의사 결정 과정의 문제를 데이터를 기반으로 한 과학적 문제 해결 과정으로 변화시키는 여정을 안내해주는 길잡이이다. 예전에 필자가 데이터 과학에서 중요한 것은 “데이터”가 아니라 “과학”이라고 얘기한 바 있다. “데이터”는 “과학”을 하기 위해 필요한 정보를 다루기 쉽도록 만든 것에 불과하기 때문이고, 데이터 과학이 궁극적으로 지향하는 것은 과학적인 문제 해결이기 때문이다.

빅데이터 소프트웨어 기술은 데이터 과학자들이 빅데이터로부터 필요한 정보를 적절하게 추출해내는 작업을 돕고, 데이터 과학의 본질인 과학적 문제 해결에 집중할 수 있도록 돕는 도구의 하나다. 이 데이터 과학자들의 도구는 앞으로 빅데이터를 처리하는데 사용되는 컴퓨터 아키텍처와 소프트웨어 기술의 발전과 함께 또 다른 양상으로 발전해갈 것이고, 빅데이터 소프트웨어 엔지니어들과 데이터 과학자들은 이렇게 새롭게 발전해가는 빅데이터 소프트웨어 기술을 이용해 데이터 과학의 본질을 더 낫고 효과적인 방식으로 추구하게 될 것이다.

지난 마흔여섯 번째 글에서 인공지능 기술의 가을이 오고 있다고 얘기하였다[14]. 인공지능 기술에 대한 기대와 현실의 차이 때문에 인공지능 기술의 가을이 잠깐 찾아오고 있지만, 데이터 과학의 필요성은 오히려 더 높아지고 있는 상황이다. 

필자의 지인이 전해준 바에 따르면, 실리콘 밸리에서도 이미 많이 배출된 데이터 과학자들 간 경쟁이 심해져 예전보다 데이터 과학자로서 직장을 구하기가 쉽지 않아졌다고 한다. 그렇지만 실리콘 밸리 기업들이 데이터 과학 자체를 하지 않겠다는 얘기는 들리지 않는다. 

오히려 데이터 과학과 빅데이터를 이용한 비즈니스 모델 혁신 시도는 점점 더 늘어나고 있고, 새로운 비즈니스 표준이 되어가고 있는 상황이다. COVID-19때문에 생긴 글로벌 시장의 불확실성이 데이터를 기반으로 한 합리적이고 과학적인 의사 결정과 문제 해결의 중요성을 더 높여가고 있으며, 모든 기업들이 이 불확실성을 조금이라도 해소하기 위해 데이터 기반의 문제 해결과 의사 결정에 더 매달려가는 모습이다.

빅데이터 소프트웨어 기술은 비즈니스에 유용한 정보를 찾아내기 점점 더 힘들어지는 복잡다단한 시장에서 폭발적으로 늘어나는 넘쳐나는 데이터로부터 기업들이 금괴를 찾아낼 수 있도록 돕는 유용한 도구이다. 좋은 도구를 갖추는 것은 데이터 과학을 잘하기 위해서 필요하지만, 반대로 좋은 도구를 갖추었다고 해서 데이터 과학이 저절로 되는 것은 아니다. 

앞으로 발전하는 컴퓨터 하드웨어, 소프트웨어 기술은 빅데이터 소프트웨어 기술도 발전시킬 것이고, 이렇게 더 나아진 빅데이터 소프트웨어 기술을 이용하면 데이터 과학을 좀 더 잘 할 수 있게 되는 것이다. 이를 통해 우리의 비즈니스도 더 나아지고 수익성이 높은 비즈니스로 변화해갈 수 있을 것이다.

앞서 언급한 네 가지 기술 트렌드 때문에 새로운 양상으로 발전해갈 빅데이터 소프트웨어 기술을 잘 활용하고 우리가 가진 데이터 과학 기술(art)을 더욱 날카롭게 갈고 닦도록 하자. 앞으로 달라질 빅데이터 소프트웨어 기술을 이용하면 우리가 해결할 수 있는 문제 영역도 지금은 상상할 수 없는 수준으로 넓어져 있을 것이다. 현재의 인공지능 기술은 결코 데이터 과학을 없앨 수 없고, 인공지능 기술도 데이터 과학을 위한 도구에 불과하다.

인간의 창의력과 과학적, 합리적 정신으로 무장한 문제 해결 능력은 이 세상 그 어떤 기계도 아직 넘볼 수 없는 인간만의 영역이다. 필자는 독자들이 데이터 과학의 가치를 믿고, 기업의 비즈니스를 기하급수적으로 성장시킬 수 있는 해답을 발견해내는 창조적인 일을 하는 전문가로서 자부심을 가지고 세상을 변화시켜 가는 데이터 과학자로 성장하길 기대한다.

새로운 양상으로 발전하게 될 빅데이터 소프트웨어 기술이, 5G로 상징되는 차세대 통신 기술을 통해 전례 없는 스케일로 통합되는 사이버 물리 시스템을 현실로 실현해 나가는 광경도 기대를 가지고 바라보도록 하자. 

새로운 빅데이터 소프트웨어 기술을 가지고, 사이버 물리 시스템을 이용해 발전하는 지능형 서비스와 인프라를 개발하게 될 빅데이터 소프트웨어 엔지니어들은 미래 사회 인프라의 변화를 이끌어가는 첨병들이다. 이 글의 독자들이 영화에서나 볼 법한 새로운 사회 인프라를 만들고 이를 통해 세상을 바꾼다는 자부심으로 일하는 빅데이터 전문가들이 되길 필자는 다시 한번 기대한다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Billy Tallis, “Intel Shares New Optane And 3D NAND Roadmap - Barlow Pass DIMMs & 144L QLC NAND in 2020,” AnandTech, September 25, 2019. (https://www.anandtech.com/show/14903/intel-shares-new-optane-and-3d-nand-roadmap
[3] 김진철, “김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (1)”, CIO Korea, 2017년 9월 25일자. (http://www.ciokorea.com/column/35688)
[4] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (1)”, CIO Korea, 2019년 11월 27일자.
[5] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (2)”, CIO Korea, 2019년 12월 30일자.
[6] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (3)”, CIO Korea, 2020년 1월 28일자.
[7] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (4)”, CIO Korea, 2020년 2월 27일자.
[8] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (5)”, CIO Korea, 2020년 3월 26일자.
[9] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (6)”, CIO Korea, 2020년 4월 27일자.
[10] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (7)”, CIO Korea, 2020년 5월 27일자.
[11] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (9)”, CIO Korea, 2020년 7월 27일자.
[12] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (10)”, CIO Korea, 2020년 8월 26일자.
[13] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (11)”, CIO Korea, 2020년 9월 28일자.
[14] 김진철, “김진철의 How-to-Big Data | 빅데이터의 미래 (12)”, CIO Korea, 2020년 10월 30일자.
[15] “함수형 프로그래밍”, (https://ko.wikipedia.org/wiki/%ED%95%A8%EC%88%98%ED%98%95_%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D, https://en.wikipedia.org/wiki/Functional_programming)
[16] 하스켈 프로그래밍 언어, (https://ko.wikipedia.org/wiki/%ED%95%98%EC%8A%A4%EC%BC%88)
[17] OCaml, (https://ko.wikipedia.org/wiki/OCaml)
[18] 존 매카시, (https://ko.wikipedia.org/wiki/%EC%A1%B4_%EB%A7%A4%EC%B9%B4%EC%8B%9C_(%EC%BB%B4%ED%93%A8%ED%84%B0_%EA%B3%BC%ED%95%99%EC%9E%90)
[19] 로빈 밀너, (https://en.wikipedia.org/wiki/Robin_Milner)
[20] A Brief History of Functional Programming, (http://www.cse.psu.edu/~gxt29//historyOfFP/historyOfFP.html)
[21] GeoSpock, Ltd., “GeoSpock DB: The world’s most advanced analytics database - Simplify real-world complexity and enable contextual understanding for the everything-connected world”. (https://geospock.com/en/)
[22] Eric Miller, “10년 후, 데이터 과학자 사라진다? - ‘오토ML’로 싹 달라진다!”, CIO Korea, 2020년 11월 21일. (https://www.ciokorea.com/news/172879)



* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr
 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.