Offcanvas

AI / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 신기술|미래

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (3)

2021.06.29 김진철  |  CIO KR
이번 글은 지난 쉰세 번째 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용의 핵심들을 다시 정리해보는 마지막 글이다. 지난 쉰세 번째 글에서는 필자가 독자들로부터 가장 많은 문의를 받았던 내용인 빅데이터 비즈니스 조직의 조직 및 운영에 관한 22회부터 34회까지의 글을 요약 정리했다. How-to-Big Data의 주요 내용을 요약 정리하는 글의 마지막 편인 이번 글에서 빅데이터 비즈니스의 미래를 다루었던 35회부터 51회까지 글의 핵심 내용을 다시 짚어보려고 한다.
 
ⓒGetty Images
 
 
35회: 빅데이터의 미래 (1) (2019년 11월 27일 게재)
34회까지 CERN의 LHC 빅데이터 사례를 통해 배운 빅데이터 비즈니스의 교훈을 앞으로 어떻게 적용하는 것이 좋을지 생각해보기 위해 빅데이터 비즈니스의 미래를 살펴보는 글의 첫 번째 글이었다. 빅데이터 기술과 비즈니스가 앞으로 어떻게 변화해갈지 생각해보는 데 도움이 될 수 있도록 빅데이터 현상이 왜 일어나는지 그 근본 배경에 대해서 같이 생각해보았다.

빅데이터 현상은 컴퓨터 기술이 그 시대에 필요로 하는 데이터 처리의 요구사항을 극복하지 못할 때 나타나는 필연적인 현상이며, 현재 우리가 경험하는 빅데이터 현상 전에도 다른 양상으로 여러 번 나타났다. 

이런 맥락에서 빅데이터 기술의 역사는 컴퓨터 기술 발전의 역사와 맥을 같이 한다. 다만 현재 우리가 겪는 빅데이터 현상이 이전과 다른 것은 베오울프 클러스터 기술로 시작된 분산 컴퓨팅 기술의 발전과 수평적 확장성의 발전, 이런 분산 컴퓨팅과 수평적 확장성을 지원하는 기술로 처리가능한 데이터의 양이 폭증하는 것과 함께 중요해진 데이터 수집, 처리, 가공, 분석 자동화에 필수적인 인공지능 기술의 발전, 전 지구적인 스케일의 확장성을 가지는 정보와 데이터의 조직을 가능케 한 웹 기술의 발전 때문이다.

앞으로 나타날 빅데이터 비즈니스와 기술 발전의 여섯 가지 동인으로서 5G/6G로 대표되는 이동통신 기술과 WiFi6로 대표되는 무선 통신 기술, 테라비피에스(Tbps)급 대역폭을 지원하는 이더넷 기술로 대표되는 유선 통신의 발전을 첫 번째로 들었다.

딥러닝 기술의 발전과 함께 급 가속된 인공지능 기술의 발전을 두 번째 동인으로 들었으며, 사물 인터넷(Internet of Things; IoT)과 에지 컴퓨팅(edge computing)의 발전으로 수요가 폭증하게 될 지능형 센서 때문에 급격하게 늘어나게 될 데이터를 세 번째 동인으로 들었다.

네 번째로 클라우드 컴퓨팅 기술의 발전으로 빅데이터 인프라를 설계, 구축하는데 드는 어려움이 크게 감소하면서 빅데이터 인프라를 활용하는 능력보다 이런 인프라 위에서 빅데이터를 효과적으로 활용할 수 있게 하는 분산 컴퓨팅 소프트웨어를 활용하는 능력의 중요성이 더 높아지리라는 것이다. 

다섯 번째로 상전이 메모리(Phase-change RAM; P-RAM)와 같은 차세대 메모리 기술, 엔비디아의 NVLink와 같은 차세대 버스 기술의 발전이 네트워크 기술의 발전과 맞물려 생기는 데이터센터 자원 계층의 파괴와 단순화이다. 마지막 여섯 번째로, 양자컴퓨팅 기술의 발전으로 고전적인 컴퓨터가 해결할 수 없었던 문제들을 좀 더 쉽게 해결할 수 있게 되면서, 인공지능 기술과 빅데이터 기술이 또 다른 양상으로 발전하면서 빅데이터 비즈니스의 새로운 돌파구가 나타나게 될 것이다.

36회: 빅데이터의 미래 (2) (2019년 12월 30일 게재)
현재 나타나는 빅데이터 비즈니스와 기술 트렌드의 미래 지향점으로서 사이버 물리 시스템(Cyber-Physical System; CPS)이 무엇인지 살펴봤다. 사이버 물리 시스템이란 물리적인 컴포넌트를 동작시키기 위한 계산과 논리를 구현한 계산 컴포넌트와, 계산 컴포넌트에 의해 외부와 상호 작용을 하고 시스템을 동작시키는 물리적인 컴포넌트로 구성되며, 이들 계산 컴포넌트와 물리적인 컴포넌트로 이루어진 지능형 컴포넌트들이 네트워크를 통해 다시 연결되어 복잡한 지능형 상호작용과 기능을 수행하는 시스템을 말한다.

이러한 사이버 물리 시스템의 대표적인 예로서 5G V2X 통신으로 연결된 자율 에이전트 시스템을 들었고, 이런 자율 에이전트 시스템의 대표적인 예가 커넥티드 자율주행차이다. V2X 통신으로 연결된 자율주행차가 사이버 물리 시스템으로서 가지는 중요성과, 이런 사이버 물리 시스템이 빅데이터와 가지는 관련성, 중요성을 설명하였다.

사이버 물리 시스템 자체가 빅데이터 수집을 위한 중요한 수단이 될 뿐만 아니라, 사이버 물리 시스템 내부에서 만들어지는 데이터도 빅데이터가 되기 때문에 사이버 물리 시스템은 빅데이터와 뗄 수 없는 관계에 있다. 사이버 물리 시스템의 가장 큰 특징의 하나인 “자율성(autonomy)”을 만드는 과정에서 지속적인 제어 피드백 루프 회로가 막대한 양의 데이터 스트림을 만들어 내기 때문에 빅데이터 기술이 중요하다. 

사이버 물리 시스템 특유의 계층 구조와 네트워크를 통한 연결성으로 나타나는 상호 작용 때문에 빅데이터 처리의 중요성이 더 높아진다. 사용자 친화적인 지능형 사용자 경험과 상호 작용을 만들기 위해 인공지능 기술과 대용량 데이터 처리가 필요한 고급 미디어 기술의 활용으로 인지 사이버 물리 시스템이 발전하면서, 요구되는 빅데이터 처리, 분석의 복잡도와 성능이 더 높아진다.

37회: 빅데이터의 미래 (3) (2020년 1월 28일 게재)
빅데이터 트렌드의 미래 지향점으로서 사이버 물리 시스템에서, 발전하는 클라우드 컴퓨팅 기술은 사이버 물리 시스템의 지능이 높아지면서 요구되는 컴퓨팅 자원과 네트워크 자원을 적시에 공급해주는 주요 자원 관리 시스템으로서 동작하게 된다. 이런 측면에서 클라우드 컴퓨팅 소프트웨어 기술은 사이버 물리 시스템에서 주요 시스템 소프트웨어 및 운영 체제의 역할을 한다고 비유할 수 있다.

클라우드 컴퓨팅 기술은 5G/6G 이동통신 기술을 비롯한 고대역폭, 저지연 네트워크 기술을 바탕으로 지능형 서비스를 위한 사이버 물리 시스템이 필요로 하는 계산 자원과 네트워크 자원을 공간적 제약을 넘어 공급해주는 역할을 하게 된다.

이런 경향은 5G 이동통신에서 연산 자원이 필요한 고객에 근접한 지역에서 클라우드 컴퓨팅 자원을 공급해주는 모바일 에지 컴퓨팅(Mobile Edge Computing; MEC) 기술에서 좀 더 분명하게 드러난다. 모바일 에지 컴퓨팅(MEC) 기술은 자율주행 V2X 서비스와 같이 저지연 요구사항이 필요한 곳에 쓰여 미션 크리티컬한 지능형 자율 에이전트의 안전과 실시간성을 보장하는데 중요하게 활용된다.

모바일 에지 컴퓨팅과 함께 공용 클라우드 사업자(public cloud service provide)간 서비스 차이와 모바일 에지 컴퓨팅과 같은 분산된 클라우드 컴퓨팅 자원을 활용하는 문제 때문에 멀티 클라우드 컴퓨팅 시스템 관리 및 활용의 이슈가 점점 더 중요해지고 있다.

이런 멀티 클라우드 컴퓨팅 자원을 사이버 물리 시스템에 흠 없이 통합, 운영하는 이슈는 지리적으로 넓은 영역에 걸친 지능형 서비스를 제공하는 기업에서 점점 더 중요한 이슈로 부각될 것이다. 멀티 클라우드 환경에서 사이버 물리 시스템과 고객별 보안과 독립성, 멀티테넌시를 제공하는 기술로서 5G 이동 통신의 “네트워크 슬라이스(network slice)” 기술에 대해 간단하게 살펴보았다.

사이버 물리 시스템과 클라우드 컴퓨팅, 인공지능 기술의 결합은 “자율 컴퓨팅(autonomous computing)”의 실현을 앞당기게 될 것이다. 데브옵스(DevOps) 기술과 운영 지능(Operation Intelligence; IO) 기술로 축적된 IT 인프라 운영 자동화 기술과 인공지능 기술이 결합하여 “자율 컴퓨팅(autonomous computing)”을 실현하게 될 것이다.

이렇게 사이버 물리 시스템, 클라우드 컴퓨팅과 인공지능, 빅데이터 기술이 결합하여 “자율 인프라(autonomous infrastructure)”로서 변모해가는 5G 이동통신 기술의 면모를 보여주는 기술로서 5G 이동통신 표준에서 제안된 “네트워크 데이터 분석 기능(Network Data Analytics Function; NWDAF)”을 소개했다.

38회: 빅데이터의 미래 (4) (2020년 2월 27일 게재)
사이버 물리 시스템의 발전과 함께 기업 클라우드 컴퓨팅에서도 멀티 클라우드 자원 관리 문제가 중요하게 부각되면서 새롭게 관심을 모으고 있는 클라우드 컴퓨팅 서비스, 자원간 상호운용성(interoperability) 문제에 대해서 살펴보았다. 사실 클라우드 컴퓨팅과 같은 이종 컴퓨팅 자원 관리 기술에서 상호운용성 문제는 이번이 처음이 아니며, 앞서 소개했던 CERN의 LHC 컴퓨팅 그리드 기술 발전 시절부터 연구되던 문제였다.

이렇게 멀티 클라우드 서비스, 자원간 상호운용성 문제가 오픈소스 클라우드 컴퓨팅 소프트웨어인 “오픈스택(OpenStack)”과 주요 3대 클라우드 컴퓨팅 서비스인 아마존 웹 서비스, 마이크로소프트 애저, 구글 클라우드 플랫폼의 주요 서비스에 의해서 산업 표준화된 형태로 일부 해결되고 있다. 기업의 필요에 의해 멀티 클라우드 환경이 도입되면서 서로 다른 클라우드 컴퓨팅 서비스 사이의 상호운용성을 제공하는 기술과 서비스가 새로운 틈새 시장으로 발전하고 있다.

이와 함께 가상화 기술의 발전으로 빅데이터 기술과 대규모 스케일의 사이버 물리 시스템의 발전에 또 다른 변화가 오고 있다. 기존 하이퍼바이저의 단점을 보완하고 실시간 임베디드 시스템과 같은 미션 크리티컬한 시스템에도 쓰일 수 있는 하이퍼바이저 기술 상용화가 이루어지고 있으며, 모바일 에지 컴퓨팅에서 가벼운 서비스 배치가 가능하도록 컨테이너 기술을 이용한 이동통신 네트워크 인프라 기술 개발도 이루어지고 있다.

오픈 컨테이너 이니셔티브의 “카타(Kata)” 컨테이너와 같이 하이퍼바이저의 장점과 컨테이너의 장점을 모두 취한 가상화 기술도 등장하고 있어 사이버 물리 시스템에서 쓰일 수 있는 자동화 기술의 발전이 빠르게 이루어지고 있다.

사이버 물리 시스템의 고성능 연산을 지원하기 위해 베어-메탈(bare-metal) 컴퓨팅과 고성능 컴퓨팅 기술의 클라우드 컴퓨팅 서비스도 발전하고 있다. 이들 베어-메탈 클라우드와 고성능 컴퓨팅 클라우드 컴퓨팅 기술들은 복잡하고 큰 계산이 필요한 인공지능 기반의 지능형 서비스용 사이버 물리 시스템 발전을 가속하고 있다.

39회: 빅데이터의 미래 (5) (2020년 3월 26일 게재)
사이버 물리 시스템의 자원 관리, 제어를 위한 운영 체제의 역할을 하는 클라우드 컴퓨팅 인프라와 서비스로 클라우드 네이티브 개발 기술도 같이 발전하고 있다. 클라우드 네이티브 서비스의 개발에 유용하게 쓰일 수 있으면서 기존 프로그래밍 언어의 단점을 보완하고, 클라우드 네이티브 서비스와 응용 프로그램을 개발하는 소프트웨어 엔지니어들의 생산성을 높이는 개발 환경의 발전을 살펴보았다. 

클라우드 네이티브 프로그래밍에 많이 쓰이면서 큰 인기를 얻고 있는 고(Go) 언어의 특징과 장점을 알아보았다. 고(Go) 언어와 함께 한동안 웹 기반 인터넷 서비스 프로그래밍 분야를 독식하고 있던 자바(Java)의 단점을 보완하고 생산성을 위한 편의 기능을 더한 코틀린(Kotlin) 프로그래밍 언어의 특징과 장점을 같이 알아보았다. 

이와 함께 사이버 물리 시스템에 필수적인 실시간 임베디드 시스템 개발에 필요하며, C 및 C++와 같이 전통적으로 임베디드 시스템 프로그래밍에 많이 활용되던 프로그래밍 언어의 메모리 유수(memory leak) 문제와 같은 단점을 프로그래밍 언어 수준에서 보완하면서 시스템 프로그래밍의 생산성을 높일 수 있도록 지원하는 러스트(Rust) 언어의 특징과 장점에 대해서도 살펴보았다.

마지막으로 사이버 물리 시스템의 효과적인 개발을 가능하게 하는 인프라 자동화 체계 구성을 돕는 프로그래머블(programmable) 하드웨어 기술의 사례로서 인텔(Intel)의 랙-스케일 디자인(Rack-scale Design; RSD)을 살펴보았다. RSD를 통해 구축된 클라우드 컴퓨팅 인프라는 광범위한 지역에 걸쳐 통합되는 사이버 물리 시스템의 소프트웨어적 통합을 용이하게 하여 지능형 사이버 물리 시스템의 신속한 구축과 서비스 상용화에 중요한 역할을 할 것이다.

40회: 빅데이터의 미래 (6) (2020년 4월 27일 게재)
사이버 물리 시스템의 실현과 발전에 신경계와 같은 중요한 역할을 하게 될 5G 이동통신 기술의 특성과 주요 기능에 대해서 알아보았다.

5G 이동통신은 초광대역 서비스(eMBB: enhanced Mobile Broadband), 초고신뢰/초저지연 통신(URLLC: Ultra Reliable & Low Latency Communications), 대량연결(mMTC: massive Machine-Type Communications)을 지원하도록 정의된 이동통신 표준이며, 이동통신 역사상 최초로 사물과 사물 간 연결과 데이터 통신을 주요한 사용처로 지원할 수 있도록 합의된 이동통신 표준이다. 5G 이동통신 기술은 또 이동통신 기술 역사상 최초로 통신-IT 융합 인프라로 발전하고 있다.

5G 이동통신 기술과 서비스를 통해 사물 사이의 연결과 통신이 확산되면서 사물인터넷 기술이 발전하여 광범위한 지리적 지역에 걸쳐 지능형 서비스를 제공하는 V2X 자율주행 서비스와 같은 사이버 물리 시스템 발전이 가속될 것이다. 5G 이동통신 인프라 그 자체로 대규모 사이버 물리 시스템으로 발전하고 있으며, 이런 경향은 5G 이동통신 기술의 지능 제어를 가능하게 하는 “네트워크 데이터 분석 기능(NetWork Data Analytics Function; NWDAF)”과 같은 새로운 기술의 도입을 통해서 확인할 수 있다.

초고신뢰/초저지연 통신(URLLC: Ultra Reliable & Low Latency Communications)과 멀티 클라우드 자원 활용의 대표적인 사례로서 등장하게 될 5G 이동통신의 특징인 “모바일 에지 컴퓨팅(Mobile Edge Computing; MEC)”에 대해서 같이 살펴보았다.

모바일 에지 컴퓨팅에서는 코어 네트워크보다 사용자에 더 가까이 위치하고 있는 기지국에 서비스를 위한 컴퓨팅 인프라를 클라우드 컴퓨팅 기술을 바탕으로 가상화 하여 배치함으로써 초고신뢰/초저지연 통신(URLLC: Ultra Reliable & Low Latency Communications)을 지원할 수 있도록 한 5G 이동통신 표준의 주요 기술이다. 모바일 에지 컴퓨팅을 통해서 멀티 클라우드 컴퓨팅 자원 활용 문제도 더 중요하게 부각될 것으로 보인다.

41회: 빅데이터의 미래 (7) (2020년 5월 27일 게재)
사물인터넷의 확장된 개념으로서 사이버 물리 시스템을 조명해보았다. 5G 이동통신과 WiFi6와 같은 향상된 무선 통신 기술의 발달로 사물인터넷에 연결되는 사물과 디바이스의 수가 급증하여 사물로부터 수집되는 데이터의 양도 폭증하면서 빅데이터 기술의 중요성이 높아질 것이다.

이들 사물 인터넷에 연결되는 사물과 디바이스들은 사이버 물리 시스템의 감각 기관 또는 운동 기관에 해당하는 액추에이터의 역할을 하게 된다. 사이버 물리 시스템이 주변 환경을 인지하는데 필요한 데이터를 수집하고, 이렇게 수집된 데이터를 통해 앞으로의 반응과 행동을 계획하여 실행하면서 사람과 다른 사물들과 지능적인 상호작용을 하는데 사물인터넷이 사용될 것이다.

사물인터넷에 연결되어 사이버 물리 시스템의 운동 기관, 즉 액추에이터의 역할을 할 최신 기술로서 3차원 볼륨 디스플레이 기술을 소개하였다. 3차원 볼륨 디스플레이는 홀로그램을 이용한 3차원 영상뿐만 아니라 최근에는 촉각도 느낄 수 있도록 작은 비드를 이용해 가시화하는 대상을 직접 만들어 보여주는 방식의 디스플레이 기술도 개발되고 있다. 이렇게 촉각도 느낄 수 있는 3차원 볼륨 디스플레이 기술이 개발된다면 사이버 물리 시스템의 지능형 서비스에서 제공할 수 있는 사용자 경험의 폭과 질이 대폭 향상될 것으로 보인다.

사물인터넷의 최외곽 에지(edge)에 위치한 사물에서 직접 지능형 빅데이터 처리가 가능하도록 하는 에지 컴퓨팅 기술의 현황에 대해서도 같이 살펴보았다. 작은 에지 컴퓨팅 디바이스 하나의 성능이 과거 PC나 Cray-1급 슈퍼컴퓨터보다 더 좋아지고 있는 추세에서 에지 컴퓨팅 디바이스에서 처리할 수 있는 빅데이터의 양과 복잡도는 앞으로 훨씬 더 향상될 것으로 보인다.

42회: 빅데이터의 미래 (8) (2020년 6월 30일 게재)
사물인터넷에 연결되어 사이버 물리 시스템의 감각 기관으로서 역할을 할 스마트 센서 중 스마트 영상 센서 기술의 최근 동향에 대해서 간단히 살펴보았다.

스마트 영상 센서에는 고성능 임베디드 컴퓨터가 내장되어 영상 인식과 같은 인공지능 소프트웨어 모듈이 사이버 컴포넌트로서 내장된다. 스마트 영상 센서는 사이버 물리 시스템의 목적에 맞는 이벤트만 선별적으로 찾아내어 사이버 물리 시스템의 상위 인공지능 시스템에 전송하고, 이를 통해 상위 인공지능 시스템의 센서 데이터 처리의 부하 및 데이터양을 대폭 줄여 사이버 물리 시스템이 원하는 정보만 신속하게 인지할 수 있도록 돕는 역할을 한다.

빅데이터를 생산하는 장치로서 에지 컴퓨팅의 역할이 중요해질 사물인터넷 장비의 하나로서 DNA 시퀀서를 소개하였다. 남자 한 명에 대해 약 770MB, 여자 한 명에 대해 약 756MB의 빅데이터가 생산되는 DNA 시퀀서는 최근 시퀀싱 정확도가 크게 향상되고, 그 크기도 손바닥에 얹을 수 있을 정도로 크게 소형화되었다.

앞으로 발전된 에지 컴퓨팅의 도움을 받아 사람들의 건강에 대한 가장 중요한 정보를 수집, 분석하게 될 DNA 시퀀서와 같은 생물정보 데이터 수집 장치들은 지능형 헬스케어 서비스 비즈니스의 발전에 큰 기여를 할 것으로 기대된다.

사물인터넷 디바이스와 이를 위한 에지 컴퓨팅 기술은 스타트업들이 인터넷 플랫폼 비즈니스 거인들의 어깨에 올라타 기민하게 성장을 노려볼 수 있는 분야로서 앞으로 많은 성장이 기대된다.

43회: 빅데이터의 미래 (9) (2020년 7월 27일 게재)
사이버 물리 시스템의 지능을 높이고 빅데이터 처리, 분석 자동화에 중요한 역할을 담당하게 될 인공지능의 미래를 예측하는 것이 어려운 이유를 같이 생각해보았다. 무엇보다 현재 “인공지능(Artificial Intelligence)”라는 말이 주는 잘못된 이미지와 정확한 맥락을 고려하지 않은 오용 때문에 많은 오해를 낳고 있다. 

현재 시점에서 인공지능 기술에 대해 지나치게 과도한 기대와 낙관론이 시장을 지배하고 있으며, 많은 사람들이 인공지능 본연의 기술과 인공지능 기술을 만들기 위한 도구를 혼동하고 딥러닝과 같은 인공지능 기술의 특별한 한 요소와 도구를 지나치게 맹신함으로써 인공지능 기술에 대한 오해와 오용을 키워가고 있다.

아직 단독으로 상품이 될 수 없을 정도로 성숙하지 않은 기술이 인공지능이기 때문에, 특정한 아키텍처, 특정한 기술에 초점을 맞추어 인공지능 문제를 모두 해결하려는 솔루션이나 상품을 만들려고 하는 것은 실패할 가능성이 높다.

최근 대한민국 정부의 인공지능 국가 전략이 이런 측면에서 아쉽다. PIM 아키텍처를 가지는 신경망 연산 가속기라는 특정한 프로세서 아키텍처가 인공지능 문제를 모두 해결할 수 있는 궁극의 반도체 아키텍처가 될지는 아직 확실하지 않은데, 특정한 아키텍처의 프로세서 개발에 지나치게 많은 국가 예산을 쏟아붓는 것 같은 우려를 감출 수 없다.

이보다는 이번 투자를 통해 다양한 아키텍처의 뉴로모픽 프로세서와 신경망 연산 가속 반도체 제품들을 실험하고, 인공지능 기술의 발전에 발맞춰 새로운 아키텍처의 인공지능 반도체 상품을 신속하게 프로토타입부터 양산까지 할 수 있는 산업 생태계를 조성하는 것이 장기적으로 더 바람직할 수 있다.

이와 함께 인공지능 기술의 특성상 학문의 다양성과 학제적 연구개발이 필요한데, 이를 위한 생태계와 인프라를 구축하는 것이 우리나라의 미래를 위한 인공지능 기술과 산업에 국가 예산을 투자하는 좀 더 나은 방법이 될 것이다.

인공지능 기술의 가을이 다시 오고 있으나, 이번에 다가올 인공지능 기술의 겨울은 예전만큼 혹독하지는 않을 전망이다. 그렇지만 일부 인공지능 전문가들이 걱정하는 것과 같이 성숙되지 못한 인공지능 기술을 오용하여 생길 수 있는 인공지능 킬러 머신에 의한 무차별적 인명 살상, 자동화된 의사 결정 과정에서 불완전한 인공지능에 의해 생길 수 있는 차별과 이로 인한 사회 생활에서의 피해, 인공지능 기계의 결함과 오류로 생길 수 있는 대규모 재해와 같은 문제를 대비하고 해결할 필요가 있다.

44회: 빅데이터의 미래 (10) (2020년 8월 26일 게재)
인공지능 관련 기술 중에 단일 품목으로 가장 많은 수요와 큰 시장이 창출될 것으로 예상되는 인공지능 연산 가속 프로세서와 뉴로모픽 프로세서의 최근 동향에 대해서 살펴보았다. 최근 우리나라 정부에서 10년간 1조 94억을 투자하여 개발하겠다고 한 PIM(Processor-In-Memory) 아키텍처의 신경망 연산 가속 프로세서 분야에서 가장 주목받고 있는 두 제품인 영국 그래프코어(GraphCore)사의 IPU(Intelligence Processing Unit) 프로세서와 미국 세리브라즈 시스템즈(Cerebras Systems, Inc.)사의 웨이퍼 스케일 엔진(Wafer Scale Engine) 신경망 연산 가속 프로세서에 대해서 살펴보았다.

그래프코어(GraphCore)의 IPU는 메모리 소자 위에 연산 수행하는 프로세서 코어를 고성능 패브릭으로 격자형태로 연결하여, 연산을 수행하는 프로세서 코어와 메모리 사이의 데이터 통신 지연을 최소화하여 신경망 연산 성능을 극대화한 대표적인 PIM 아키텍처 프로세서이다. 현재 딥러닝에서 많이 쓰이는 GPU보다 멀티 노드 모델 병렬 연산에서 더 나은 확장성을 보여준다.

세리브라즈 시스템즈(Cerebras Systems, Inc.)사의 웨이퍼 스케일 엔진(Wafer Scale Engine)은 웨이퍼 하나를 통째로 사용하여 무려 400,000코어의 계산 코어와 통신 패브릭을 집적하여 강력한 병렬 연산 프로세서를 만들었다.

이렇게 만든 웨이퍼 스케일 엔진(Wafer Scale Engine)은 GPU에 비해 78배의 연산 코어를 더 집적하였으며, 3,000배 더 많은 내부 메모리 용량, 내부 메모리 버스 대역폭, 내부 패브릭 대역폭 각각 10,000배, 33,000배 향상하여 BERT 및 GPT-3와 같은 대형 딥러닝 모델의 빠른 학습과 추론에 활용하기에 적합하다.

이와 같이 인공지능 연산 가속 프로세서와 뉴로모픽 프로세서 기술의 발전은 사이버 물리 시스템에 필요한 지능형 연산의 성능과 확장성을 높여 사이버 물리 시스템의 지능과 빅데이터 처리, 분석 자동화율을 크게 높이는 데 기여하고 있다.

45회: 빅데이터의 미래 (11) (2020년 9월 28일 게재)
인공지능 기술 중에 가장 많은 관심을 얻고 있는 딥러닝 기술의 최신 동향 중에서 인간의 고등 인지 기능 모델링과 관련된 최근의 연구 성과를 살펴보면서 딥러닝 기술의 발전 방향을 같이 가늠해보았다.

딥러닝의 개척자로 유명한 연구자 중 하나인 캐나다 몬트리얼 대학의 교수이자 인공지능 연구소 MILA의 연구책임자인 요슈아 벤지오 교수가 최근 3대 인공지능 학술회의 중 하나인 NeurIPS의 기조 연설에서 인공지능과 심리학 분야에서 가장 오래된 문제인 “의식(consciousness)”의 컴퓨터 모델링을 시도한 결과를 발표했다.

노벨 경제학상을 수상한 대니얼 카네만 교수가 정의한 인간 인지 과정의 두 가지 종류인 시스템 1 인지 과정과 시스템 2 인지 과정에서 현재 딥러닝이 가장 잘 흉내 내고 있는 것은 시스템 1 인지 과정이다. 인간의 문명과 지적인 성과물들은 시스템 2 인지 과정을 통해 이루어지는데, 시스템 2 인지 과정에 해당하는 고급 인지 과정들은 아직 딥러닝으로도 잘 모델링 되지 않으며, 심리학에서도 아직 잘 밝혀지지 않았다.

요슈아 벤지오 교수는 고급 인지 과정을 컴퓨터 모델로 만드는 데 필요하지만 아직까지 많이 연구가 되어 있지 않은 인과성(causality), 합성성(compositionality), 체계적 일반화(systematic generalization) 또는 확률 분포 없는 일반화(out-of-distribution generalization) 문제를 해결하면서 고급 인지 모델 구현이 가능한 딥러닝 모델에 대해 연구한 성과를 공개했다.

심리학에서 널리 알려진 의식에 대한 이론 중 하나인 전역 작업 공간 이론(Global Workspace Theory)과 최근의 심리학에서의 성과를 기초로 하여 의식 선험 분포(Consciousness Prior)라는 확률 분포를 가정하였고 이를 이용한 희박 인자 그래프(Sparse Factor Graph) 형식의 시스템 2 인지 과정 모델을 제안하였다.

이를 이용해 고급 인지 모델을 만들 때 사용할 수 있는 동적으로 재조합된 인지 모듈(dynamically recombined modules; DRM)을 구현하는 방법으로서 재귀 독립 메커니즘(Recurrent Independent Mechanism)을 제안하였다. 이를 통해 딥러닝으로 학습하는 신경망의 인지 회로를 조합하는 형식으로 고급 인지 과정을 모델링할 수 있다고 주장하였다.

딥러닝의 개척자중 한 사람이며 캐나다 토론토대학 교수이자 구글 연구소에서 근무 중인 제프리 힌튼 교수가 인간이 가진 독특한 인지 기능인 부분-전체 계층 인지를 모델링하기 위해 최근 제안한 GLOM모델과 같이 인간의 고급 인지 기능을 컴퓨터 모델로 만들려는 인공지능 연구가 활발하게 진행되고 있다. 이런 인공지능 기술의 발전은 인간의 고급 인지 기능에 좀 더 가까운 지능형 서비스와 자율 에이전트 기계의 실현을 가속할 것이다.

46회: 빅데이터의 미래 (12) (2020년 10월 30일 게재)
영국의 유력 경제 주간지인 이코노미스트지의 2020년 6월 13일자 “계간 기술(Technology Quarterly)” 특집 기사에 실린 내용을 살펴보면서 인공지능 기술의 현재를 돌아보았다. 이코노미스트지의 심층 취재에 따르면 현재 시장에서 인공지능 기술의 한계에 대해서 점차 각성하기 시작하면서 인공지능 기술 기업에 대한 평가가 다소 절하되고 있는 상황이다. 실제로 인공지능 기술 분야에서 가장 많은 주목을 받았던 자율주행 기술 관련 기업들이 자율주행 기술 상용화에 대한 약속을 지키지 못하는 경우가 늘어나면서 이런 경향은 더 심화되고 있다.

인공지능 기술에 대해서 사람들이 가지는 기대와는 달리 실제 비즈니스에서 투자에 비해 성과가 없거나 더딘 경우가 많아서 인공지능 기술에 대한 사람들의 관심이 다시 식어가고 있는 것도 현재 상황이다.

이와 함께 최근 빅데이터의 양은 매우 많아졌지만, 딥러닝과 같은 기계 학습 모델의 학습에 사용할 수 있는 양질의 데이터는 매우 적어 인공지능 기술의 발전이 생각보다 빠르지 않다. 상용 서비스에 쓰일 수 있을 정도의 고품질의 안정성과 정확성을 보여주는 딥러닝 모델의 학습에 쓸 수 있는 데이터를 만들기 위해 아직까지는 사람이 수작업으로 데이터 레이블링과 편집 작업을 해야 하는 경우가 많아 시간, 비용 측면에서 많은 기업들에게 부담이 되고 있다.

일반 통계적 기계 학습에 비해 딥러닝 모델에 필요한 연산량과 데이터가 훨씬 더 많기 때문에 딥러닝 모델을 학습시키기 위해 필요한 고성능 컴퓨팅 시스템을 갖추고 학습시키는데 드는 인프라 구축, 운영 비용과 전기에너지 비용도 인공지능 기술을 상업화하려는 기업들에게 큰 부담이 되는 것으로 나타났다.

또한 딥러닝 모델 해석의 어려움과 편향된 데이터로 잘못 학습된 인공지능 모델이 일으키는 윤리적, 사회적 문제를 해결할 수 있는 근본적인 기술적 해결책이 부족한 것 때문에 인공지능 기술의 상용화가 생각보다 많이 늦어지고 있다.

위와 같은 다섯 가지 문제점 때문에 최근 인공지능 기술에 대한 관심이 식어가면서 인공지능의 가을이 오고 있다고 진단하였으나, 곧 다가올 인공지능 기술의 겨울은 예전에 있었던 두 번의 인공지능 겨울에 비해서는 그렇게 혹독하지 않으리라고 이코노미스트지는 전망하였다. 인공지능 기술이 자동화와 빅데이터 처리, 분석 등에 다양하고 광범위하게 활용되고 있어 예전과 같이 투자가 심각하게 줄거나 정체되는 현상은 없을 것으로 전망하였다.

47회: 빅데이터의 미래 (13) (2020년 11월 27일 게재)
최근 소프트웨어 기술 발전과 관련해서 빅데이터 기술의 미래 발전 방향을 생각해보았다. 아파치 하둡(Hadoop)과 스파크(Spark)로 대표되는 빅데이터 기술의 시대는 다소 저물고, 앞으로 다양한 형태의 빅데이터 기술들이 등장하여 빅데이터 시장이 더 풍성해질 것으로 예상된다.

빅데이터 기술 트렌드에서 주목해야 할 부분의 첫 번째로 인텔의 차세대 비휘발성 메모리 제품인 “옵테인(Optane)” 메모리와 IBM에서 개발하고 있는 상변화 메모리(Phase-Change RAM; P-RAM), 그리고 그래핀 소자 기술을 이용한 차세대 메모리 기술로 향상되는 메모리 I/O 성능이 기업의 비즈니스에 활용되는 빅데이터의 양과 속도가 점차 증가시켜 비즈니스의 양상에 많은 영향을 줄 것으로 보인다.

최근 유행하고 있는 함수형 프로그래밍 패러다임의 확산으로 빅데이터 처리를 위한 분산 컴퓨팅 소프트웨어 개발의 생산성이 개선되고 빅데이터 분산 컴퓨팅 시스템의 성능과 복잡도가 대폭 향상되어 새로운 종류의 빅데이터 응용 분야가 등장할 것으로 보인다. 함수형 프로그래밍 언어를 통해 빅데이터 분산 컴퓨팅의 복잡성을 크게 단순화하고, 처리 성능을 대폭 향상시킬 수 있게 되어 현재 빅데이터 컴퓨팅 시스템이 다룰 수 있는 빅데이터의 양과 속도의 한계가 넓어지면서 새로운 빅데이터 응용 분야와 비즈니스가 나타날 것으로 기대된다.

클라우드 컴퓨팅의 보편화와 대중화로 클라우드 네이티브 프로그래밍이 확산되면서, 빅데이터를 활용하는데 필요한 컴퓨팅 자원의 제약과 한계를 극복하기 쉬워지면서 빅데이터 활용이 대중화되어 빅데이터 비즈니스가 성장하는데 또 하나의 중요한 역할을 할 것으로 기대된다.

최근 구글과 IBM을 중심으로 급격하게 상용화 속도가 빨라지고 있는 양자 컴퓨터 분야는 리게티(Righetti), 캠브리지 퀀텀 컴퓨팅(Cambridge Quantum Computing)과 같은 새로운 스타트업들이 양자 컴퓨팅 경쟁에 뛰어들면서 점점 더 상용화 속도가 가속화될 전망이다. 이와 함께 미국, 유럽 연합, 중국이 양자 컴퓨팅 기술의 패권을 쥐기 위한 투자에 경쟁적으로 나서면서 양자 컴퓨터 기술의 발전이 가속될 것으로 보인다.

양자 컴퓨터의 응용 분야와 가능성이 충분히 밝혀지지 않아 아직 알려지지 않은 잠재적인 응용 분야까지 생각하면 양자 컴퓨터 때문에 해결될 수 있는 빅데이터 문제의 영역이 확장되면서 새로운 비즈니스가 나타나고 성장할 가능성도 무궁무진할 것으로 기대된다. 무엇보다 양자 컴퓨터는 인공지능 기술의 발전을 가속화하여 사이버 물리 시스템의 지능과 빅데이터 처리 자동화 속도를 높이는 데 큰 역할을 할 것으로 보인다.

인공지능 기술의 성숙성을 고려하면 빅데이터와 데이터 과학이 시장에 주는 영향력과 파급 효과가 훨씬 더 크다. 최근 스탠포드 대학 교수이자 인공지능 전문가인 앤드류 응(Andrew Ng) 교수가 언급한 것과 같이 인공지능을 먼저 고려할 것이 아니라 데이터를 먼저 고려하는 것이 인공지능 경쟁에서도 유리하다. 또 다른 인공지능의 겨울이 오더라도 지능형 서비스 비즈니스 시장에서 데이터 과학과 빅데이터의 중요성이 전혀 낮아지지 않는 이유이다.

48회: CPS와 Digital Transformation (1) (2020년 12월 28일 게재)
빅데이터, 데이터 과학 활용의 정점으로서 최근 많은 기업들이 관심을 가지고 있는 디지털 전환과 빅데이터, 데이터 과학과의 관계에 대해서 두 사례를 통해 살펴보았다. 일반 소매업의 대표적인 기업으로서 버버리가 디지털 전환에 성공했던 사례를 통해 구글, 페이스북과 같은 인터넷 서비스 플랫폼 기업들 만이 아니라 전통적인 산업 영역에서 비즈니스를 하던 기업들도 디지털 전환이 가능함을 보았다. 

버버리는 고객 데이터를 이용해 고객 취향에 맞는 제품 추천과 경험을 제공하는 다양한 시도를 하였으며, 소셜 미디어, 모바일, 데이터 분석 조직을 적극적으로 고객 경험 향상과 소통, 마케팅에 활용하였다. 다른 기업들과는 다르게 온라인 사용자 경험을 오프라인 매장으로 일관되게 확대하려 노력하여 성공하였으며, 자동화된 물류, 주문 관리와 디지털 채널 관리를 통해 새로운 제품을 패션쇼에서 선보인 후 고객이 받아보는 데까지 6개월이 걸리던 것을 6~8주로 줄여 고객 만족을 향상시켰다.

디지털 전환의 또 다른 사례인 제너럴 일렉트릭(GE)의 디지털 전환은 많은 제조업 기업에 시사점을 주는 중요한 사례였다. 전통적인 제조업 비즈니스 모델을 가지고 있던 GE는 제프리 이멜트 CEO가 “2020년 전 세계 10대 소프트웨어 기업으로의 등극”이라는 이색적인 비전을 내세우며 빅데이터와 소프트웨어를 통한 비즈니스 모델 혁신에 적극적으로 나서면서 독특한 디지털 전환 사례를 남겼다.

GE는 인터넷 서비스 기업에서나 가능할 법한 구독형 서비스 비즈니스 모델을 사업화하는 데 성공하였다. 자사의 항공기 엔진 및 산업용 장비 제품의 데이터 수집을 위한 “산업용 인터넷(Industrial Internet)”을 이용해 제품을 통신으로 연결하고, 이를 분석해 예지 정비(predictive maintenance) 서비스를 구독형으로 제공하는 “프레딕스(Predix)” 플랫폼을 상업화하는 데 성공하였다. 제조업이 자신들의 제품과 제조 시설을 통신으로 연결하고, 이를 소프트웨어를 이용해 플랫폼으로 만들었을 때 얼마나 강력한 플랫폼 비즈니스가 가능한지 직접 보여준 중요한 사례이다.

디지털 전환을 통해 제조 인프라와 제품, 제품 지원 프로세스를 소프트웨어 플랫폼으로 통합하였을 때 제조기업도 강력한 소프트웨어 플랫폼 사업자가 될 수 있다. 오히려 기존의 인터넷 서비스 기업이 쉽게 흉내 낼 수 없는 제조 인프라, 프로세스 통합 경험과 유통망 관리 경험을 소프트웨어 플랫폼으로 자동화하고 통합하면서 새로운 형태의 제조업 중흥 시대가 올 것으로 기대된다. 이런 이유로 전통적인 산업에서 활약하던 기업들의 디지털 전환은 앞으로 기업의 생존과 직결되어 디지털 전환의 확산세가 가속될 것이다.

49회: CPS와 Digital Transformation (2) (2021년 1월 26일 게재)
일반 기업이 빅데이터를 이용한 비즈니스 모델 혁신과 성장 가능성을 높이고, 디지털 전환을 성공적이고 효과적으로 수행하기 위해 고려해야 할 요소로서 예측 분석과 미래 연구를 살펴보았다.

전사적 수준에서의 비즈니스 예측 분석도 중요하지만, 개별 자원과 인프라 요소별 예측 분석도 프로세스 효율화와 기민함을 높이기 위해 중요하다. 사이버 물리 시스템이 데이터 수집 도구로 활용되어 기업 인프라와 프로세스 전반에 대한 정교한 데이터가 수집될 경우 전사적인 예측 분석의 정밀도와 속도를 크게 높일 수 있어 비즈니스 의사 결정을 뒷받침하는 데 중요하다. 

이뿐만 아니라 전사 비즈니스 프로세스 요소들의 데이터도 사이버 물리 시스템을 통해 정밀하게 수집할 수 있게 되면서 각 프로세스 단위, 요소 단위 최적화와 효율화를 통해 비용 절감, 프로세스 시간 단축과 같은 작은 단위의 혁신도 가능해진다.

예측 분석과 미래 연구는 새로운 비즈니스 모델 설계뿐만 아니라, 이미 수행하고 있는 비즈니스의 개선과 확장을 위한 전략 수립을 위해서도 중요하다. 데이터와 정밀한 수치 모델을 기초로 한 예측 분석, 그리고 이를 이용한 비즈니스 시나리오 분석과 전략 수립은 비즈니스의 불확실성과 위험을 줄이는 데 중요한 역할을 한다.

예측 분석에 쓰이는 정밀한 수치 모델의 응용 사례로서 GE의 “디지털 트윈(Digital Twin)” 사례를 소개하였다. “디지털 트윈(Digital Twin)”은 제품이나 서비스, 프로세스를 지배하는 메커니즘을 수치 모델을 통해 정밀하게 모델링하고, 제품의 상태나 반응을 모델링된 환경에서 다양한 변수와 상황에서 계산하여 확인해 볼 수 있게 해준다.

이로써 실제 제품을 제조했을 때 일어날 수 있는 문제를 제품 생산 전에 파악하고 분석하여 제품을 대량 생산하면서 일어날 수 있는 결함과 문제를 사전에 대비할 수 있게 해준다. 이를 통해 시장에서 신제품 성공 여부가 비즈니스 성장에 큰 영향을 미치는 제조기업들이 비즈니스 위험을 줄이고 제품과 비즈니스 모델의 성공 확률을 높일 수 있다.

디지털 전환의 중요한 요소의 하나로 미래 예측 역량이 중요한 것은 디지털 전환에 꽤 긴 시간이 필요하기 때문이다. 버버리나 GE의 사례에서도 디지털 전환이 기업에 실질적인 효과로 나타나기까지 10~15년의 긴 시간이 필요했다. 이렇게 긴 시간 동안 일관성 있게 디지털 전환을 수행하고 시장에서의 실패를 최소화하기 위해서는 다양한 시장 시나리오를 가정하고 시나리오마다 시행착오를 최소화할 수 있도록 체계적인 미래 연구를 통한 실행 전략 수립이 필요하다.

중장기로 꽤 많은 시간과 비용, 전사 자원을 들여 디지털 전환을 수행하더라도 수행하려는 디지털 전략이 시장에서 어느 정도 성공할 가능성이 있는지 가늠해볼 수 있을 정도의 청사진으로 실행 전략을 판단해보고 경영진이 확신을 가질 수 있기 위해서도 미래 연구를 체계적으로 수행할 수 있는 역량을 갖추는 것은 중요하다. 디지털 전환의 성공률을 높이기 위한 체계적인 미래 연구에서 디지털 트윈과 예측 분석도 전략의 부분부분으로 같이 활용되어 구체적인 미래 시나리오와 대응 전략을 마련하는데 활용할 수 있다.

50회: CPS와 ESG 경영 (2021년 2월 26일 게재)
최근 지구 온난화와 같은 전 지구적인 환경 이슈로 생기는 글로벌 기업들의 비즈니스 위험이 커지고 있다. 환경 문제뿐만 아니라 미국과 중국을 중심으로 벌어지는 지정학적, 경제적 영향, 기술과 부의 편중에 따른 빈부 격차의 심화 때문에 생기는 소비자들의 구매력 감소와 다양한 사회 문제들, 예측하지 못했던 코로나 바이러스 사태로 인한 경제 침체와 같은 다양한 사회 이슈 때문에 생기는 새로운 위험들도 증가하고 있다. 리만 브러더스와 엔론의 회계 부정, 폭스바겐의 디젤 엔진 연비 데이터 조작과 같은 기업 내부의 묻혀 있던 부정부패 때문에 생기는 새로운 위험들도 기업의 새로운 위협으로 떠오르고 있다.

이런 환경, 사회, 거버넌스(Energy, Society, Governance; ESG) 이슈가 기업 경영에서 중요한 이슈로 부각되면서 ESG 이슈를 새로운 비즈니스 모델 창출과 브랜드 이미지 개선, 투자 확대와 같은 기업 경영 개선의 방향으로 삼고자 하는 움직임이 최근 일어나고 있다.

많은 기업들이 주주 자본주의를 추구하면서 단기 성과, 실적 추구 위주의 경영, 사회 구성원으로서 기업의 책임에 소홀한 경영, 투명하고 공정한 거버넌스를 확립하지 못하는 문제가 생겼으며, 투자자들도 자신들의 투자 위험을 줄이기 위해 ESG 경영을 표방하는 기업들에 투자하려는 경향도 커지고 있다. ESG 경영을 통한 기업 브랜드 가치 향상과 투자 확대, 비즈니스 위험 감소에 사이버 물리 시스템 기술과 빅데이터가 활용될 수 있다.

첫 번째로, 빅데이터와 데이터 과학, 사이버 물리 시스템은 사회적 가치를 가진 문제와 문제 해결 방법을 발견하는 관찰과 문제 해결의 도구로서 활용되어 수익성도 있으면서 사회적인 가치를 가질 수 있는 비즈니스 모델을 고안하고 구현, 실행하는 데에 활용될 수 있다.

두 번째로, 사회적 가치를 가진 서비스를 비용 효율적이고 자율적으로 동작하게 하는 비즈니스 시스템 인프라로서 사이버 물리 시스템이 활용된다. 세 번째로, 사회적 가치를 추구하는 비즈니스 모델이 수익성을 가질 수 있게 하는 중요한 요소가 정보 비대칭 문제 해결인데, 이 정보 비대칭 문제를 해결할 수 있는 방법으로 빅데이터를 활용하는 다자 플랫폼 비즈니스 모델, 다자 플랫폼 비즈니스 모델을 구현하는 인프라로서 사이버 물리 시스템이 활용된다.

이렇게 ESG 경영이 기업 경영에 중요한 문제로 부각되는 이유는 교통, 통신의 발달로 전 세계가 더 가까워지고 지리적으로 먼 지역에서 생기는 일이 전 지구적인 영향을 주는 일이 많아지면서 기업 경영이 결코 기업만의 문제가 아닌 전 지구적인 문제로 발전할 수 있는 가능성이 높아지기 때문이다. 이렇게 지리적으로 광범위한 지역에서 예측하지 못한 일로 생길 수 있는 비즈니스 위험을 조기에 인지하고 대처할 수 있도록 하여 사이버 물리 시스템과 빅데이터, 데이터 과학을 이용한 비즈니스 인프라가 기업의 기민성을 높이게 된다. 

“해석가능한 인공지능 기술(Explainable AI; XAI)”, 스마트센서와 사물인터넷, 드론과 같은 자율 에이전트를 이용한 능동 환경 감시와 같이 ESG 경영을 뒷받침해줄 수 있는 기술의 발전도 기업의 ESG 경영 도입을 용이하게 하고 있다.

ESG 경영의 확대는 데이터 과학자들의 새로운 경력 기회가 되고 있다. ESG 경영을 체계적으로 하기 위해 빅데이터를 활용하는 비즈니스 인프라와 데이터 분석이 더 중요하게 부각되고 있기 때문이다. 데이터 과학자들은 ESG 경영 확대 트렌드를 새로운 경력 확장의 기회로 생각하고 준비할 필요가 있다.

51회: 빅데이터 괴담 (2021년 3월 29일 게재)
기업들이 빅데이터와 데이터 과학을 활용하면서 겪는 시행 착오 중 자주 볼 수 있는 두 가지를 가상 사례 연구 형태로 같이 생각해보았다. 이 가상 사례를 통해 얻을 수 있는 교훈은 다음과 같다.

교훈 1. 빅데이터 프로젝트의 목적과 기대 효과, 해결하려는 문제를 명확하게 정의하는 기획 프로젝트를 통해 빅데이터 프로젝트의 위험과 타당성을 먼저 검증하는 과정을 가지자. 기획 프로젝트 수행 과정에서 파일럿 분석을 해보는 단계를 거쳐보면 빅데이터를 쌓지 않고 기존에 가지고 있던 데이터를 분석하는 것만으로도 해결할 수 있는 문제가 많다는 것을 알게 된다. 

교훈 2. 데이터 과학팀이 자기 조직적인(self-organized) 문제 해결 역량을 발휘할 수 있도록 데이터 과학팀 리더 자신의 역량보다 나은 전문가들을 영입하는 것을 주저하지 않도록 하여야 한다. 데이터 과학팀이 자기 조직적인(self-organized) 문제 해결 역량을 갖추지 못하면 그 부작용은 결국 빅데이터 프로젝트를 이끄는 리더의 부담으로 언젠가 돌아오게 된다.

교훈 3. 빅데이터 시스템을 효과적으로 구축하는 것이 중요하지만, 데이터 과학 프로젝트가 빅데이터 시스템 구축 프로젝트로 변질되지 않아야 한다. 데이터 과학 자산을 꾸준히 쌓아가지 않고 당장 눈에 보이는 성과로서 빅데이터 시스템을 구축해서 보여주는 데에 힘을 쏟다 보면 언젠가는 좌초되게 된다. 데이터 과학은 결국 데이터 과학자, 데이터 엔지니어들, 즉 사람들이 하는 것이다.

교훈 4. 기존 데이터를 한 곳으로 무조건 모아 분석하여 뭔가를 찾으려는 식의 막연한 데이터 수집, 중앙 집중화는 데이터 과학 프로젝트의 실패 확률을 높인다. 모으려는 데이터 자산이 가지고 있는 정보의 한계와 효용에 대한 적절한 평가 없이 무작정 데이터 레이크로 데이터를 모으는 것은 데이터 과학자들이 분석해야 할 문제에 집중하기 어렵게 하고 불필요한 쓰레기 정보만 많아져 의미 있는 성과를 내기 어렵게 한다. 데이터 과학 프로젝트의 필요에 따라 데이터를 발견하고 사용하기 편하도록 데이터 접근을 위한 마이크로서비스와 데이터 카탈로그 중심의 빅데이터 인프라를 갖추는데 집중하는 것이 더 좋다.

교훈 5. 전사 규모의 데이터 과학 프로젝트는 조직 사이의 이해관계와 다뤄야 하는 데이터의 양에 비례하여 높아지는 잡음(noise)과 불필요한 정보 때문에 실패 가능성이 높다. 데이터 과학으로 해결하려는 문제를 먼저 잘 정의하고, 사업의 필요와 잘 맞는지, 데이터 과학 프로젝트의 목적이 전사 전략과 잘 정렬되어 있는지 데이터 과학자들이 새로운 조직에 합류하기 전에 잘 살필 필요가 있다.

교훈 6. 데이터 과학팀의 리더로 이직을 하게 될 시니어 데이터 과학자들은 이직 후 팀 조직 초반에 자신이 이끌 데이터 과학팀과 협력이 예상되는 주요 조직, 부서와의 협력 관계를 잘 구축하는 것에 노력을 들여 데이터 과학팀이 조직 내에 잘 연착륙하는 것에 중점을 두는 것이 좋다. 팀 조직 초반에 데이터 과학팀 조직 배경과 데이터 과학 프로젝트 수행 과정에서 겪을 수 있는 조직 측면의 위험을 잘 분석하는 것이 바람직하다.

교훈 7. 데이터 과학팀을 조직하여 빅데이터와 데이터 과학을 통해 기업의 체질과 비즈니스 모델을 개선하고자 하는 CEO, CIO, 경영 임원들은 데이터 과학팀만이 처할 수 있는 독특한 조직 내 역학 관계로 데이터 과학팀이 역량을 발휘하기 어려운 상황이 생길 수 있음을 인지하고, 이런 상황이 데이터 과학 프로젝트의 걸림돌이 되지 않도록 잘 지원해줄 필요가 있다.

데이터 과학은 비즈니스 문제 해결의 여정이다
지난 4년 3개월간 CERN의 LHC 프로젝트를 통해 살펴본 빅데이터 활용의 교훈을 돌이켜보면서 데이터 과학자가 된다는 것, 그리고 데이터 과학과 빅데이터를 기업 조직에서 비즈니스에 잘 활용하는 것이 생각보다 쉽지 않고 많은 어려움이 있음을 독자들께서 공감하실 수 있었다면 본 시리즈의 소임은 다한 것 같다. 

무엇보다도 본 시리즈를 통해 필자가 독자들께 전해드리고 싶은 가장 중요한 메시지는 빅데이터와 데이터 과학의 핵심은 과학적 의사결정을 통해 조직의 비효율과 의사결정의 시행착오를 줄이고 비즈니스를 향상시키는 것이다. 데이터 과학에서 중요한 것은 데이터가 아니라 과학이다. 데이터는 비즈니스 조직과 시장의 상황을 잘 인지하고 자기조직적으로 시장에 적응하여 비즈니스를 성공시킬 수 있는 의사 결정을 체계적이고 과학적으로 하기 위한 도구에 불과하다.

빅데이터와 데이터 과학을 이용해 새로운 비즈니스를 만들고 실행하는 과정은 각 기업마다, 각각의 비즈니스마다, 빅데이터 비즈니스를 실제로 수행하는 데이터 과학자와 데이터 엔지니어, 기업 조직원별로 모두 독특하고 다른 과정이다. 지금까지 본 시리즈를 통해 소개해 온 원리, 교훈, 사례들은 현장에서 비슷한 문제에 부딪혔을 때 좀 더 침착하고 체계적으로 문제를 해결할 수 있도록 돕는 일종의 현장 매뉴얼, 또는 태권도와 같은 무술에서 기술을 연습하는 단위가 되는 품세와 같은 것이라고 생각하자.

빅데이터 비즈니스를 기획하고 데이터 과학을 통해 비즈니스 문제를 해결하는 것은 한 번의 빅데이터 시스템 구축으로 끝나는 것이 아닌 비즈니스 문제 해결과 성장의 긴 여정이 막 시작된 것에 불과하다.

이 여정에서 비포장도로와 같은 어려움도 만나고, 때로는 스릴 넘치는 성장의 순간도 경험할 수 있겠지만, 중요한 것은 이 모든 것들이 빅데이터를 연료 삼아 꾸준하게 헤쳐 나가야 하는 과정이라는 것이다. 빅데이터 비즈니스의 여정을 비즈니스 성장의 과정으로서 받아들이고 꾸준하게 물과 양분을 주어 성장시키려는 마음가짐으로 빅데이터를 활용하다 보면 어느 순간 성장해 있는 비즈니스와 기업을 만나게 될 것이다.


* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.