2019.11.27

김진철의 How-to-Big Data | 빅데이터의 미래 (1)

김진철 | CIO KR
왜 빅데이터 현상이 일어났는가? – 빅데이터 현상의 배경
지금까지 서른네 편의 글을 통해 세계 정상급 과학 연구소인 CERN의 LHC 프로젝트에서 어떻게 빅데이터 문제를 해결해왔는지 살펴보면서 CERN의 빅데이터 기술과 활용법이 일반 기업들이 빅데이터를 활용할 때 어떤 시사점을 주는지 같이 생각해보았다. 구글이나 페이스북과 같이 빅데이터를 활용하는 기술, 조직과 시스템이 일반 대중에게 모두 공개되지 않는 회사에서 배울 수 있는 것은 제한적이지만, CERN의 성과와 기술은 일반인들에게 모두 공개되는 정보이고, 빅데이터 활용에 대한 세부적인 디테일을 같이 살펴볼 수 있다는 점에서 CERN의 빅데이터 활용 사례를 살펴보는 것은 일반 기업에게도 충분히 의미가 있는 일이었다.

앞으로 여러 편의 글을 통해서 빅데이터 기술과 데이터 과학 트렌드가 앞으로의 사회에 어떤 시사점을 주는지 같이 생각해보는 시간을 가지려고 한다. 과연 빅데이터 트렌드가 단순히 잠깐 반짝하고 사라지는 유행어에 불과한 것인지, 아니면 앞으로의 기업 경영과 IT에 지속적인 영향을 줄 근본적인 변화를 보여주는 현상인지 같이 살펴보고 우리가 어떻게 미래를 대비해야 영속적인 비즈니스를 만들고 지켜나갈 수 있을지 생각해보려고 한다.

먼저 빅데이터가 요즘에만 화두가 된 현상이었는지 같이 생각해보자.

트랜지스터와 집적회로가 발명된 이래로 해마다 컴퓨터 칩의 집적도가 18개월마다 2배씩 증가할 것이라고 예언한 인텔의 창업자 고든 무어의 이름을 딴 무어의 법칙은 최근 반도체 기술의 물리적인 한계로 인해서 조금씩 그 집적도가 둔화되기 시작하면서 다른 양상으로 변화될 조짐이 나타나고 있다. 4~5년 전부터 CPU의 디자인이 많은 수의 CPU 코어가 단일 CPU 안에 집적되는 매니코어(many-core) 아키텍처로 발전하는 경향이 점점 뚜렷해지고 있다. 즉, 많은 양의 계산을 예전처럼 집적도와 동기화 클럭을 높여 단일 CPU 코어의 처리 속도를 높이는 대신, 계산에 활용하는 CPU 코어의 수를 늘려 병렬, 분산 처리를 하는 방향으로 컴퓨팅 기술이 발전하고 있다.

CPU 및 애플리케이션 프로세서(application processor; AP), 다양한 특수 목적 반도체의 설계에도 이런 분산, 병렬 처리 중심의 아키텍처가 대세가 되는 것과 함께, 네트워크 기술과 분산 컴퓨팅 소프트웨어의 발전으로 대규모의 병렬, 분산 컴퓨팅 시스템을 구축하고 활용하기 쉬운 방향으로 컴퓨팅 기술이 발전하고 있다. 이런 경향은 컴퓨터에서 수행되는 작업은 단순히 단일 프로세서의 처리 속도를 높여 처리 성능을 높이는 것이 아니라, 많은 수의 컴퓨팅 노드와 자원을 이용해 병렬, 분산 컴퓨팅을 하도록 하여 워크로드에 필요한 성능과 지연 제약을 극복하는 것이 최근 컴퓨팅 기술의 큰 흐름인 것을 보여준다.

최근 우리가 경험하고 있는 빅데이터는 이런 분산, 병렬 컴퓨팅을 통한 컴퓨터 성능 향상의 큰 흐름 안에서, 분산 컴퓨팅 소프트웨어 기술의 발전과 함께 돌출되어 나타난 현상이다. 그렇지만, 그 면면을 잘 살펴보면 사실 최근 빅데이터로 대표되는 현상은 빅데이터라는 말을 붙이지 않았을 뿐이지 과거 컴퓨터 기술의 역사와 같이 발전해왔다고 해도 과언이 아니다.
 
그림 1. 컴퓨터 연산 능력의 향상과 데이터 처리 연산 복잡도의 차이에 따른 빅데이터 문제의 발생. (그림 출처: "Datacenter as a warehouse-scale computer - issues with OpenStack," 김진철 (2014). Copyright (c) 2014 ~ , 김진철.)

빅데이터 문제가 왜 생기는지 간단하게 살펴보기 위해 위 그림 1을 같이 살펴보도록 하자. 그림의 그래프에서 가로축은 데이터의 양이고, 세로축은 데이터를 처리하기 위한 연산의 복잡도와 컴퓨터의 연산 처리 능력을 같은 축에 겹쳐서 표현한 것이다. 여기서 연산의 복잡도는 시간 복잡도(time complexity)와 공간 복잡도(space complexity)를 포함하는 말이다.

우리가 실세계에서 접하는 많은 계산 문제들은 필요한 시간과 자원이 다항식(polynomial)의 꼴로 증가하여 컴퓨터에서 쉽게 풀 수 있는 문제들도 있지만, 시간과 자원이 지수적(exponential)으로 증가하는 복잡한 문제들이 더 많다. 특히, 요즘 데이터의 양과 복잡도, 요구되는 단위 시간당 데이터 처리 연산의 수준과 양은 지수적으로 늘어나고 있다.

우리가 만드는 컴퓨터의 연산 능력은 컴퓨터에 들어가는 프로세서의 수, 저장장치의 용량, 네트워크의 대역폭에 비례해서 선형으로 증가하거나 지수적으로 증가하지 않는다. 대부분 경우 로그 함수와 같이 컴퓨터에 장착된 연산 자원이 커져도 처리 능력의 증가폭은 점점 줄어들거나, 최선의 경우라도 컴퓨터의 연산 자원에 선형으로 비례하여 증가하는 것이 고작이다. 이런 컴퓨터의 연산 능력의 한계는 물리학적 법칙에 따라 결정되는 근본적인 것으로, 우리가 아무리 노력해도 극복하기 어려운 것이다. (다만 최근에 급격하게 발전하고 있는 양자컴퓨터의 경우 이런 물리적인 한계에 따른 연산 성능의 제약을 극복할 수 있을 것으로 기대되고 있다. 이에 대한 얘기는 별도로 하도록 하자.)

이와 같이 특정한 시점에서 데이터의 양과 복잡도에 따른 컴퓨터의 연산 처리 능력은 로그 함수와 같이 증가하는데, 데이터의 양과 이를 처리하기 위한 연산 복잡도는 지수적으로 증가하기 때문에, 이 두 함수가 만나는 지점(위 그림 1에서 6, 7번 점)에 이르기까지 그 시점의 컴퓨터 기술이 데이터 처리 요구사항을 수용할 수 있게 된다. 데이터의 양과 복잡도가 이 두 함수가 만나는 지점을 쉽게 넘어서 버리면 그때부터 그 시점에서 생산되는 데이터를 그 당시의 컴퓨팅 기술이 수용하지 못하면서 데이터 처리를 위한 자원을 어떻게 확보할 것인가 하는 문제가 생겨나기 시작하는데 이게 바로 빅데이터 문제의 근원이다.

이렇게 컴퓨터가 처리할 수 있는 계산과 데이터 처리의 규모가 특정 시점의 기술적인 성숙도에 따라 컴퓨터 기술의 물리적인 한계에 따른 근본적인 한계를 가지고 있기 때문에 빅데이터 문제는 컴퓨터 기술이 발전하기 시작한 시점부터 정보기술 업계가 사실상 겪어왔던 문제라고 할 수 있다. 다만, 해당 컴퓨터 기술이 산업계에 널리 쓰이고 있을 때의 데이터 활용 양상에 따라 이런 컴퓨터 기술의 물리적인 한계가 다양한 모습과 용어로 나타난 것뿐이다. 이런 관점에서 빅데이터 문제가 최근 2010년대에 사회에서 주목받는 이슈로 떠오르기는 했더라도 완전히 새로운 문제는 아니다. 현재 우리가 겪고 있는 빅데이터 문제는 컴퓨터 발전에 따라 반복적으로 나타났던 계산 및 데이터 처리 요구사항과 컴퓨터의 연산 처리 능력과의 차이로 인해 생겼던 문제가 최근 컴퓨터 기술의 발전과 이를 사회 구성원들이 활용하는 방식에 따라 다른 양상으로 나타난 것으로 보아야 한다.
 
그럼 현재 빅데이터 문제의 두드러진 양상은 무엇이고, 이런 양상들이 앞으로 어떻게 변화해갈지 같이 살펴보면서 앞으로 나타날 빅데이터 문제에 어떤 식으로 대처하는 것이 좋을지 살펴보도록 하자.

트랜지스터가 발명된 이래로 컴퓨터의 성능은 컴퓨터의 중앙처리장치(CPU) 반도체에 가능한 한 많은 트랜지스터를 집적하여 하나의 중앙처리장치가 얼마나 많은 연산을 단위 시간에 수행하게 하느냐에 한동안 초점이 맞추어져 있었다. 이런 경향이 인텔의 설립자 중 한 사람인 고든 무어가 얘기한 “컴퓨터 프로세서 반도체의 트랜지스터 집적도는 18개월마다 2배씩 증가한다”는 유명한 무어의 법칙이다.

1970년대에서 1980년대에 벡터 프로세싱 기술의 발전과 함께 슈퍼컴퓨팅 기술이 발전하면서 프로세서 수준에서의 병렬처리 성능을 높여 컴퓨터의 성능을 높이려는 시도가 많았지만 이 또한 무어의 법칙에서 크게 벗어나는 경향은 아니었다. 결국은 단일 프로세서 내에 트랜지스터 집적도를 높여 성능을 높이는 것에 크게 다르지 않았기 때문이다. 이런 경향은 1994년 토마스 스털링(Thomas Sterling)과 도날드 베커(Donald Becker)에 의해 베오울프 클러스터 컴퓨팅 기술이 개발되기 전까지 컴퓨터의 성능을 높이는 가장 일반적인 방법이었다.

1994년 NASA에서 근무하던 토마스 스털링과 도날드 베커는 기성 PC와 쉽게 구할 수 있는 컴퓨터 부품으로 슈퍼컴퓨터를 만들 수 있다는 것을 증명해 보이기 위해 NASA 고다드 컴퓨팅센터와 계약을 맺고 10Mbps 이더넷과 인텔 486DX 계열의 CPU를 장착한 컴퓨터 16대를 연결하여 처음으로 베오울프 클러스터 컴퓨팅 기술을 개발하는 데 성공했다. 이 베오울프 클러스터 컴퓨팅 기술은 고성능 프로세서와 병렬 프로세서를 만들어 단일 컴퓨터의 성능을 높이는 기존의 방식에서 탈피하여 고성능 네트워크로 연결된 컴퓨터들을 통해서 컴퓨팅 성능을 높이는 경향의 시작이 된 중요한 기술이 되었다.

지금 우리가 겪고 있는 빅데이터 현상이 나타나게 한 기술적인 배경이 되는 사건이 바로 위의 토마스 스털링과 도날드 베커의 베오울프 클러스터 컴퓨팅 기술의 발명이다. 이 베오울프 클러스터 컴퓨팅 기술의 발명 전까지는 애플리케이션의 성능 향상을 위해 할 수 있는 소프트웨어 엔지니어의 역할이 특정한 하드웨어와 컴퓨터 아키텍처에 최적화된 소프트웨어를 어떻게 작성하느냐에 주로 초점이 맞추어져 있었다. 애플리케이션의 확장성(scalability)과 병렬처리에 대해서는 과학기술 계산(scientific computing)과 같은 특정한 영역을 제외한 나머지 비즈니스 응용 소프트웨어에서는 큰 관심사가 아니었다. 애플리케이션의 확장성과 병렬처리와 같이 현재 빅데이터 처리에 핵심이 되는 소프트웨어 기술들은 당시까지만 해도 크레이 슈퍼컴퓨터와 같은 아주 특별한 슈퍼컴퓨터 시스템에서 실행되는 소프트웨어에만 필요한 것이었다.

베오울프 클러스터 컴퓨팅 기술이 발명되고 나서부터 네트워크로 연결된 여러 대의 컴퓨터에 응용 소프트웨어의 기능들을 분산하여 실행하고, 이렇게 분산된 응용 소프트웨어 기능들이 네트워크로 서로 통신을 하면서 서로의 기능을 호출하고 조율하는 방식의 분산 컴퓨팅 소프트웨어 기술이 본격적으로 발전하게 되었다. 이렇게 분산 컴퓨팅 소프트웨어 기술이 본격적으로 발전하고, 비즈니스 환경에서도 쉽게 활용하여 응용 소프트웨어를 개발할 수 있도록 하는 CORBA와 같은 미들웨어 기술과 자바 언어를 중심으로 다양하게 개발된 원격 프로시저 호출(Remote Procedure Call; RPC) 등과 같은 분산 컴퓨팅 기술들이 과거에는 복잡한 계산을 하는 과학자들의 전유물로만 여겨졌던 병렬 컴퓨팅과 분산 컴퓨팅을 비즈니스 응용 프로그램의 영역으로 대중화하는 데 큰 역할을 하게 된다.

베오울프 클러스터 컴퓨팅 기술과 함께 현대 빅데이터 문제의 출현에 가장 많이 영향을 준 기술은 바로 웹(Web) 기술이다. 웹 기술은 전 지구적인 스케일(planet-scale)로 지식과 정보가 한데 엮일 수 있는 기술적인 기반을 제공하여 데이터양의 폭증에 크게 기여했을 뿐만 아니라, 폭증하는 지식과 정보가 비즈니스가 될 수 있도록 대중화한 기술이기도 하다.

현대 빅데이터 기술과 비즈니스의 롤모델로 자주 언급되는 구글이 바로 인터넷의 정보를 쉽게 찾아보고 활용할 수 있도록 하는 인터넷 검색 서비스에서 시작되었다는 것을 생각해보면 위와 같은 설명이 쉽게 이해가 갈 것이다. 구글의 인터넷 검색 기술은 전지구적인 스케일로 지구촌 여러 지역에 사는 사람들이 궁금해하고 알기 원하는 것을 검색창을 통해 구글에게 제공하게 함으로써 전세계 사람들이 어떤 것을 알고 싶어 하고 관심이 있으며 어떤 욕망을 가지고 있는지 자발적으로 구글에게 데이터를 제공하게 하였다. 성장세에 있던 인터넷상의 정보를 쉽게 검색하고 찾을 수 있게 하는 서비스를 제공함으로써 사용자에 대한 정보와 데이터를 손쉽게 수집할 수 있는 강력한 데이터 수집 방법이 된 것이다.

이렇게 전지구적인 스케일로 정보가 엮이게끔 하고, 검색 가능한 형태로 구조적으로 정보와 데이터가 표현되게끔 한 웹 기술은 전지구상의 정보를 일관된 방법으로 표현하고 공유, 수집할 수 있도록 한 강력한 기술이었다. 이런 웹 기술을 단순하고 효과적으로 쓸 수 있도록 한 구글의 검색 서비스는 구글의 지능형 서비스가 가능하도록 다양한 데이터를 수집할 수 있게 한 근본적인 기술이다.

웹 기술과 인터넷 검색 기술은 구글이 전지구적인 데이터를 수집할 수 있게 한 중요한 기술이지만, 구글이 현재의 위치에 서게끔 막대한 수익을 낼 수 있게 해준 기술은 인터넷 검색 기술이 아니라, 인터넷 검색 기술을 통해 수집한 데이터를 활용한 맞춤형 광고 서비스인 AdSense 서비스 기술이었다. AdSense 서비스가 제공하는 맞춤형 광고를 제공할 수 있도록 한 기술은 다름 아닌 기계 학습과 추천 기술 등의 인공지능 기술들이다.

과거에는 인터넷 검색 서비스를 제공하는 기업들이 인터넷 데이터를 수집한 후에 사용자의 필요에 맞게 분류, 편집하고 보여주는 작업을 사람들을 고용하여 작업하도록 했다. 복잡한 웹 문서와 정보를 검색 서비스 및 광고 서비스 사용자들의 필요에 맞게 분류하고 편집, 표현하는 과정을 자동화할 수 있는 컴퓨터 기술이 크게 발전하지 못했기 때문이다. 웹 기반 인터넷 붐이 일던 1990년대와 2000년대 초반에 인터넷 검색 서비스를 제공하던 야후(Yahoo)와 당시 유명했던 알타비스타(Alta Vista) 등의 검색 서비스와 달리 구글이 차별화되었던 것은 구글은 서비스 초반부터 기계 학습과 인공지능 기술을 써서 자동화의 수준을 꾸준히 높였다는 것이다.

현대적인 자동화된 사용자 의도 파악 및 분류, 그리고 추천 기술이 발전하기 전부터 구글은 서비스 초반부터 다른 인터넷 검색 서비스 포탈 정보들의 수준보다 다소 떨어진다고 하더라도 검색을 통해 제공되는 정보가 기계 학습과 인공지능 기술을 이용한 자동화된 기술을 이용해 제공되도록 꾸준히 기술 개발하였다. 이들 기계 학습과 인공지능 기술을 이용한 웹 데이터 처리 및 사용자 맞춤형 서비스 기술이 분산 컴퓨팅 기술을 통해 확장성 있게 향상되면서 점차 안정화되자 다른 검색 서비스 사업자들이 도저히 따라잡을 수 없는 수준으로 구글의 서비스 이용자 수는 폭증하기 시작했다.

위와 같이 지금 우리가 겪고 있는 빅데이터 현상이 일어나게 된 기술적인 배경을 정리해보자면 크게 세 가지 요인으로 정리할 수 있다. 첫번째로, 베오울프 클러스터 기술로 인해 시작된 고성능 분산 컴퓨팅 시스템 및 소프트웨어 기술의 발전, 웹 기술의 발전을 통한 전지구적인 확장성을 가지는 정보와 데이터의 조직, 그리고 기계 학습 및 인공지능 기술의 발전을 통한 빅데이터 처리 작업 자동화율의 비약적인 향상이 현재 우리가 겪고 있는 빅데이터 현상을 일으키게 한 근본적인 요인이라고 할 수 있다.

우리는 어떤 미래를 마주하고 있는가? – 빅데이터 트렌드를 이끄는 여섯 가지 현상들
그렇다면, 앞으로 우리가 보게 될 미래는 어떤 미래일까? 앞에서 현재 우리가 마주하고 있는 빅데이터 현상이 일어나게 된 기술적인 배경에 대해서 간단하게 살펴보았는데, 그럼 더 나아가 현재 우리가 마주하고 있는 현실을 고려했을 때 앞으로는 우리의 비즈니스가 이런 기술들로 인해 어떤 양식으로 바뀌어갈까? 최근 급격한 변화를 겪고 있는 산업과 비즈니스 전반의 현상들을 보면서 조직과 비즈니스를 책임져야 하는 리더들은 당연히 이런 의문을 품을 수밖에 없을 것이다.

최근 IT 기술 트렌드를 비즈니스에 적용하여 자사의 경쟁력을 높이려고 고민하는 전략가나 리더들은 IT 관련 미디어에서 이런 말들을 많이 들었을 것이다. 클라우드 컴퓨팅이 안정기에 접어들어 대세가 되고, 지금까지 빅데이터를 활용하는 기업들의 성과가 두드러지게 나타난 것이 없지만 부분부분 특정한 비즈니스 문제들에 대해서 특정한 빅데이터 기술을 활용한 성공 사례는 간간히 보고되고 있으며, IoT와 5G망을 통한 많은 사물들 간의 초연결이 우리의 생활과 비즈니스의 양상을 많이 바꾸어 놓을 것이다. 이에 더해, IoT로 연결된 사물과 사람 간에 대화 인터페이스를 통한 인공지능 기술을 통해서 더 편리하게 사물들을 조작하고 활용할 수 있는 시대가 곧 올 것이며, 첨단 인공지능 기술로 자동화되는 작업들로 인해서 기업의 업무 스피드가 높아지고 효율은 높아지겠지만, 과거 전통적인 일자리가 많이 사라져 사회 불안의 요인이 될 것이다. 이제 상용화될 양자컴퓨팅은 인공지능 기술을 획기적으로 발전시켜 이런 추세를 더 가속할 것이다.

위와 같이 클라우드 컴퓨팅, 빅데이터, IoT, 인공지능, 5G, 양자컴퓨팅이라는 말 하나하나마다 마치 전자 부품 하나를 다루는 듯한 느낌으로 거대 담론이 만들어지고 있는데, 사실은 각각의 단어 하나하나만 해도 넓은 영역의 기술들과 광범위한 이슈를 다루고 있는 거대 기술 담론을 상징하는 단어이다. 이렇게 논의되고 있는 거대 담론이 실제 우리 생활에 현실로 나타나기 위해서는 아직도 기술적으로 넘어야 할 난제들이 많으며, 아직도 많은 시간이 필요하다.

물론 기술의 발전은 선형적으로 이루어지지 않고 기하급수적으로 이루어지기에 어느 순간이 되어 특별한 기술적인 돌파구가 나타나게 되면 위 기술 하나하나가 급격하게 발전하면서 사회 변화의 양상이 급격하게 달라질 수 있다. 다만, 최근 미디어에서 논의되고 있는 모습을 보면 마치 위 기술들이 내일이라도 상용화되어서 기업들이 당장 도입하거나 활용하지 않으면 비즈니스 경쟁에서 도태될 것처럼 많이들 얘기하고 있어, 필자는 현실이 지나치게 왜곡되는 것은 아닌가 다소 걱정이 된다. 필자는 앞으로 남은 연재를 통해 독자분들께서 위의 거대 담론으로 논의되고 있는 IT 기술의 미래를 좀더 현실적으로 바라보고 조직과 비즈니스의 미래를 현실적으로 그려나갈 수 있도록 돕고자 한다.

위 기술 간의 상호 작용이 어떤 배경을 가지고 있는지, 현재 시점에서 미디어에서 얘기하고 있는 것과 실제 기술 수준이 어느 정도의 차이가 있는지, 기술의 장점과 한계는 무엇인지 앞으로 같이 살펴보려고 한다. 각 기술요소가 이런 기술적인 배경에서 어떤 역할을 하는지 살펴보면서 우리가 어떻게 미래를 준비해야 하는지 같이 살펴보려고 한다.
 
그림 2. 미래 이더넷 기술의 대표적인 응용 분야와 분야별로 예상되는 요구 대역폭. 클라우드와 통신사등의 서비스 제공 업체들은 Tbps급의 대역폭이 필요할 것으로 전망하고 있다. (그림 출처: [2])

현재 시점에서 빅데이터를 활용하는데 가장 중요한 영향을 미치는 기술은 무엇보다도 유, 무선 통신 기술이다. 아직도 많은 기업 정보 인프라가 10Gbps 및 40GBps급 네트워크를 사용하고 있는 현실에서 유선 통신 기술은 100Gbps의 고대역폭, 고성능 네트워크가 이더넷과 인피니밴드(Infiniband), 인텔의 옴니패스(OmniPath) 등으로 상용화된 지 벌써 꽤 시간이 흘렀으며, 현재 1Tbps 대역폭을 실현하고 사업화하기 위해 벌써 나아가고 있다. 이더넷 기술의 발전을 위해 조직된 “이더넷 얼라이언스(Ethernet Alliance)”에서 발표한 “2019년 기술 로드맵(Ethernet Alliance’s 2019 Roadmap)”에 따르면 클라우드 컴퓨팅과 통신 서비스 사업자들이 곧 1Tbps급의 이더넷 기술이 필요할 것으로 전망하고 있다[2]. 

현재 400Gbps 및 200Gbps급의 물리 계층 표준을 정의한 IEEE 802.3bs, IEEE 802.3cd 표준이 2017년 12월 6일, 2018년 12월 5일 각각 승인되어 발표된 상황이며 2016년부터 시스코, 주니퍼와 같은 주요 네트워크 장비 업체들은 400Gbps 대역폭을 지원하는 백본 스위치 모듈을 벌써 상품화하여 공급하고 있다[3-5].
 
그림 3. 대표적인 네트워크 기술인 이더넷의 대역폭 발전 전망. 2025년경에는 800Gbps, 1.6Tbps급 이더넷 기술이 상용화될 것으로 보인다. (그림 출처: [2])


위 그림 2를 보면 차량용 이더넷 네트워크 기술의 대역폭 요구사항에서 눈에 띄는 부분을 하나 발견할 수 있는데, 바로 차량용 이더넷의 대역폭이 50Gbps까지 높아질 것으로 전망한다는 것이다. 현재 데이터센터에서 대부분 기업용 정보 시스템이 사용하는 것보다 더 높은 대역폭의 네트워크가 자동차 내에서 필요하다는 것이다. 자율주행과 커넥티드카, 그리고 차량 내 다양한 인포테인먼트 시스템을 위해 차량 내에서도 고대역폭 네트워크가 필요한 빅데이터가 발생하기 때문에 이런 전망을 하고 있다.

유선 통신뿐만 아니라, 무선 통신에서도 제공되는 대역폭이 급격하게 높아지고 있다. 우리나라에서 세계 최초로 상용화한 5G 통신만 해도 원래 목표는 10Gbps의 대역폭을 무선 통신으로 제공하겠다는 것이었다. 현재 상용화된 5G통신은 원래 목표보다 많이 하향화되어서 2~3Gbps 대역폭을 제공하는 기술로 우선 표준이 일단락되었지만, 28GHz 주파수 대역 기지국이 본격적으로 도입되는 3GPP 릴리즈 16 표준부터는 현재보다는 2~3배 높은 대역폭의 통신이 가능할 것으로 기대된다.

5G가 상용화된지 얼마 되지 않았음에도 6G 무선 통신 기술에 대한 관심이 급격하게 높아지고 있으며, 최근 미국, 중국을 중심으로 6G 무선 통신 기술을 선점하기 위한 관련 기관들의 발표가 연이어 나타나고 있다. 6G 무선 통신 기술은 2030년경에 상용화될 것으로 보이며, 100Gbps에서 1Tbps에 이르는 고대역폭과 1ms   저지연 통신을 제공하는 것에 대해서 벌써 논의하고 있다.

이렇게 5G, 6G로 대표되는 무선 통신과 테라비피에스(Terabps)급 이더넷 기술의 발전으로 인해 네트워크를 통한 컴퓨팅 및 IT 자원의 통합과 확장은 급격하게 빨라질 것으로 기대된다. 여기서 하나 주목해야 할 것은, 근거리 통신망(LAN)에서의 대역폭 확장뿐만 아니라 원거리 통신망(WAN)과 6G 및 차세대 Wi-Fi 기술에서도 고대역폭 통신이 지원되기 시작하면서 원거리에 있는 컴퓨팅 및 IT 자원이 클라우드 컴퓨팅 기술과 결합하여 컴퓨팅 자원의 공간적 제약을 극복하는 컴퓨팅 및 IT 서비스 기술로 급격하게 발전하리라는 것이다.

이렇게 네트워크 기술의 발전으로 인한 컴퓨팅 자원의 공간적 제약을 극복하는 자원 확장과 통합이 이루어지면서 클라우드 컴퓨팅 자원과 휴대용 단말과 사물인터넷 기기 등의 소형 컴퓨팅 장치, 그리고 자동차, 로봇, 인프라 등에서 나오는 데이터의 양과 복잡도가 지수적으로 급격하게 증가하게 되어 빅데이터 처리 기술에 대한 요구사항이 급격하게 높아지게 될 것이다. 또한 이런 네트워크 기술의 발전은 공간적 제약을 극복할 수 있는 IT 자원의 통합이 가능하도록 하여 빅데이터 처리를 위해 필요한 IT 자원을 끌어오기 쉽게 만들어 빅데이터의 활용을 쉽게 할 것이기 때문에 빅데이터 활용을 다시 촉진하는 촉매로서의 역할을 하여 빅데이터 기술의 발전을 가속할 것이다. 




2019.11.27

김진철의 How-to-Big Data | 빅데이터의 미래 (1)

김진철 | CIO KR
왜 빅데이터 현상이 일어났는가? – 빅데이터 현상의 배경
지금까지 서른네 편의 글을 통해 세계 정상급 과학 연구소인 CERN의 LHC 프로젝트에서 어떻게 빅데이터 문제를 해결해왔는지 살펴보면서 CERN의 빅데이터 기술과 활용법이 일반 기업들이 빅데이터를 활용할 때 어떤 시사점을 주는지 같이 생각해보았다. 구글이나 페이스북과 같이 빅데이터를 활용하는 기술, 조직과 시스템이 일반 대중에게 모두 공개되지 않는 회사에서 배울 수 있는 것은 제한적이지만, CERN의 성과와 기술은 일반인들에게 모두 공개되는 정보이고, 빅데이터 활용에 대한 세부적인 디테일을 같이 살펴볼 수 있다는 점에서 CERN의 빅데이터 활용 사례를 살펴보는 것은 일반 기업에게도 충분히 의미가 있는 일이었다.

앞으로 여러 편의 글을 통해서 빅데이터 기술과 데이터 과학 트렌드가 앞으로의 사회에 어떤 시사점을 주는지 같이 생각해보는 시간을 가지려고 한다. 과연 빅데이터 트렌드가 단순히 잠깐 반짝하고 사라지는 유행어에 불과한 것인지, 아니면 앞으로의 기업 경영과 IT에 지속적인 영향을 줄 근본적인 변화를 보여주는 현상인지 같이 살펴보고 우리가 어떻게 미래를 대비해야 영속적인 비즈니스를 만들고 지켜나갈 수 있을지 생각해보려고 한다.

먼저 빅데이터가 요즘에만 화두가 된 현상이었는지 같이 생각해보자.

트랜지스터와 집적회로가 발명된 이래로 해마다 컴퓨터 칩의 집적도가 18개월마다 2배씩 증가할 것이라고 예언한 인텔의 창업자 고든 무어의 이름을 딴 무어의 법칙은 최근 반도체 기술의 물리적인 한계로 인해서 조금씩 그 집적도가 둔화되기 시작하면서 다른 양상으로 변화될 조짐이 나타나고 있다. 4~5년 전부터 CPU의 디자인이 많은 수의 CPU 코어가 단일 CPU 안에 집적되는 매니코어(many-core) 아키텍처로 발전하는 경향이 점점 뚜렷해지고 있다. 즉, 많은 양의 계산을 예전처럼 집적도와 동기화 클럭을 높여 단일 CPU 코어의 처리 속도를 높이는 대신, 계산에 활용하는 CPU 코어의 수를 늘려 병렬, 분산 처리를 하는 방향으로 컴퓨팅 기술이 발전하고 있다.

CPU 및 애플리케이션 프로세서(application processor; AP), 다양한 특수 목적 반도체의 설계에도 이런 분산, 병렬 처리 중심의 아키텍처가 대세가 되는 것과 함께, 네트워크 기술과 분산 컴퓨팅 소프트웨어의 발전으로 대규모의 병렬, 분산 컴퓨팅 시스템을 구축하고 활용하기 쉬운 방향으로 컴퓨팅 기술이 발전하고 있다. 이런 경향은 컴퓨터에서 수행되는 작업은 단순히 단일 프로세서의 처리 속도를 높여 처리 성능을 높이는 것이 아니라, 많은 수의 컴퓨팅 노드와 자원을 이용해 병렬, 분산 컴퓨팅을 하도록 하여 워크로드에 필요한 성능과 지연 제약을 극복하는 것이 최근 컴퓨팅 기술의 큰 흐름인 것을 보여준다.

최근 우리가 경험하고 있는 빅데이터는 이런 분산, 병렬 컴퓨팅을 통한 컴퓨터 성능 향상의 큰 흐름 안에서, 분산 컴퓨팅 소프트웨어 기술의 발전과 함께 돌출되어 나타난 현상이다. 그렇지만, 그 면면을 잘 살펴보면 사실 최근 빅데이터로 대표되는 현상은 빅데이터라는 말을 붙이지 않았을 뿐이지 과거 컴퓨터 기술의 역사와 같이 발전해왔다고 해도 과언이 아니다.
 
그림 1. 컴퓨터 연산 능력의 향상과 데이터 처리 연산 복잡도의 차이에 따른 빅데이터 문제의 발생. (그림 출처: "Datacenter as a warehouse-scale computer - issues with OpenStack," 김진철 (2014). Copyright (c) 2014 ~ , 김진철.)

빅데이터 문제가 왜 생기는지 간단하게 살펴보기 위해 위 그림 1을 같이 살펴보도록 하자. 그림의 그래프에서 가로축은 데이터의 양이고, 세로축은 데이터를 처리하기 위한 연산의 복잡도와 컴퓨터의 연산 처리 능력을 같은 축에 겹쳐서 표현한 것이다. 여기서 연산의 복잡도는 시간 복잡도(time complexity)와 공간 복잡도(space complexity)를 포함하는 말이다.

우리가 실세계에서 접하는 많은 계산 문제들은 필요한 시간과 자원이 다항식(polynomial)의 꼴로 증가하여 컴퓨터에서 쉽게 풀 수 있는 문제들도 있지만, 시간과 자원이 지수적(exponential)으로 증가하는 복잡한 문제들이 더 많다. 특히, 요즘 데이터의 양과 복잡도, 요구되는 단위 시간당 데이터 처리 연산의 수준과 양은 지수적으로 늘어나고 있다.

우리가 만드는 컴퓨터의 연산 능력은 컴퓨터에 들어가는 프로세서의 수, 저장장치의 용량, 네트워크의 대역폭에 비례해서 선형으로 증가하거나 지수적으로 증가하지 않는다. 대부분 경우 로그 함수와 같이 컴퓨터에 장착된 연산 자원이 커져도 처리 능력의 증가폭은 점점 줄어들거나, 최선의 경우라도 컴퓨터의 연산 자원에 선형으로 비례하여 증가하는 것이 고작이다. 이런 컴퓨터의 연산 능력의 한계는 물리학적 법칙에 따라 결정되는 근본적인 것으로, 우리가 아무리 노력해도 극복하기 어려운 것이다. (다만 최근에 급격하게 발전하고 있는 양자컴퓨터의 경우 이런 물리적인 한계에 따른 연산 성능의 제약을 극복할 수 있을 것으로 기대되고 있다. 이에 대한 얘기는 별도로 하도록 하자.)

이와 같이 특정한 시점에서 데이터의 양과 복잡도에 따른 컴퓨터의 연산 처리 능력은 로그 함수와 같이 증가하는데, 데이터의 양과 이를 처리하기 위한 연산 복잡도는 지수적으로 증가하기 때문에, 이 두 함수가 만나는 지점(위 그림 1에서 6, 7번 점)에 이르기까지 그 시점의 컴퓨터 기술이 데이터 처리 요구사항을 수용할 수 있게 된다. 데이터의 양과 복잡도가 이 두 함수가 만나는 지점을 쉽게 넘어서 버리면 그때부터 그 시점에서 생산되는 데이터를 그 당시의 컴퓨팅 기술이 수용하지 못하면서 데이터 처리를 위한 자원을 어떻게 확보할 것인가 하는 문제가 생겨나기 시작하는데 이게 바로 빅데이터 문제의 근원이다.

이렇게 컴퓨터가 처리할 수 있는 계산과 데이터 처리의 규모가 특정 시점의 기술적인 성숙도에 따라 컴퓨터 기술의 물리적인 한계에 따른 근본적인 한계를 가지고 있기 때문에 빅데이터 문제는 컴퓨터 기술이 발전하기 시작한 시점부터 정보기술 업계가 사실상 겪어왔던 문제라고 할 수 있다. 다만, 해당 컴퓨터 기술이 산업계에 널리 쓰이고 있을 때의 데이터 활용 양상에 따라 이런 컴퓨터 기술의 물리적인 한계가 다양한 모습과 용어로 나타난 것뿐이다. 이런 관점에서 빅데이터 문제가 최근 2010년대에 사회에서 주목받는 이슈로 떠오르기는 했더라도 완전히 새로운 문제는 아니다. 현재 우리가 겪고 있는 빅데이터 문제는 컴퓨터 발전에 따라 반복적으로 나타났던 계산 및 데이터 처리 요구사항과 컴퓨터의 연산 처리 능력과의 차이로 인해 생겼던 문제가 최근 컴퓨터 기술의 발전과 이를 사회 구성원들이 활용하는 방식에 따라 다른 양상으로 나타난 것으로 보아야 한다.
 
그럼 현재 빅데이터 문제의 두드러진 양상은 무엇이고, 이런 양상들이 앞으로 어떻게 변화해갈지 같이 살펴보면서 앞으로 나타날 빅데이터 문제에 어떤 식으로 대처하는 것이 좋을지 살펴보도록 하자.

트랜지스터가 발명된 이래로 컴퓨터의 성능은 컴퓨터의 중앙처리장치(CPU) 반도체에 가능한 한 많은 트랜지스터를 집적하여 하나의 중앙처리장치가 얼마나 많은 연산을 단위 시간에 수행하게 하느냐에 한동안 초점이 맞추어져 있었다. 이런 경향이 인텔의 설립자 중 한 사람인 고든 무어가 얘기한 “컴퓨터 프로세서 반도체의 트랜지스터 집적도는 18개월마다 2배씩 증가한다”는 유명한 무어의 법칙이다.

1970년대에서 1980년대에 벡터 프로세싱 기술의 발전과 함께 슈퍼컴퓨팅 기술이 발전하면서 프로세서 수준에서의 병렬처리 성능을 높여 컴퓨터의 성능을 높이려는 시도가 많았지만 이 또한 무어의 법칙에서 크게 벗어나는 경향은 아니었다. 결국은 단일 프로세서 내에 트랜지스터 집적도를 높여 성능을 높이는 것에 크게 다르지 않았기 때문이다. 이런 경향은 1994년 토마스 스털링(Thomas Sterling)과 도날드 베커(Donald Becker)에 의해 베오울프 클러스터 컴퓨팅 기술이 개발되기 전까지 컴퓨터의 성능을 높이는 가장 일반적인 방법이었다.

1994년 NASA에서 근무하던 토마스 스털링과 도날드 베커는 기성 PC와 쉽게 구할 수 있는 컴퓨터 부품으로 슈퍼컴퓨터를 만들 수 있다는 것을 증명해 보이기 위해 NASA 고다드 컴퓨팅센터와 계약을 맺고 10Mbps 이더넷과 인텔 486DX 계열의 CPU를 장착한 컴퓨터 16대를 연결하여 처음으로 베오울프 클러스터 컴퓨팅 기술을 개발하는 데 성공했다. 이 베오울프 클러스터 컴퓨팅 기술은 고성능 프로세서와 병렬 프로세서를 만들어 단일 컴퓨터의 성능을 높이는 기존의 방식에서 탈피하여 고성능 네트워크로 연결된 컴퓨터들을 통해서 컴퓨팅 성능을 높이는 경향의 시작이 된 중요한 기술이 되었다.

지금 우리가 겪고 있는 빅데이터 현상이 나타나게 한 기술적인 배경이 되는 사건이 바로 위의 토마스 스털링과 도날드 베커의 베오울프 클러스터 컴퓨팅 기술의 발명이다. 이 베오울프 클러스터 컴퓨팅 기술의 발명 전까지는 애플리케이션의 성능 향상을 위해 할 수 있는 소프트웨어 엔지니어의 역할이 특정한 하드웨어와 컴퓨터 아키텍처에 최적화된 소프트웨어를 어떻게 작성하느냐에 주로 초점이 맞추어져 있었다. 애플리케이션의 확장성(scalability)과 병렬처리에 대해서는 과학기술 계산(scientific computing)과 같은 특정한 영역을 제외한 나머지 비즈니스 응용 소프트웨어에서는 큰 관심사가 아니었다. 애플리케이션의 확장성과 병렬처리와 같이 현재 빅데이터 처리에 핵심이 되는 소프트웨어 기술들은 당시까지만 해도 크레이 슈퍼컴퓨터와 같은 아주 특별한 슈퍼컴퓨터 시스템에서 실행되는 소프트웨어에만 필요한 것이었다.

베오울프 클러스터 컴퓨팅 기술이 발명되고 나서부터 네트워크로 연결된 여러 대의 컴퓨터에 응용 소프트웨어의 기능들을 분산하여 실행하고, 이렇게 분산된 응용 소프트웨어 기능들이 네트워크로 서로 통신을 하면서 서로의 기능을 호출하고 조율하는 방식의 분산 컴퓨팅 소프트웨어 기술이 본격적으로 발전하게 되었다. 이렇게 분산 컴퓨팅 소프트웨어 기술이 본격적으로 발전하고, 비즈니스 환경에서도 쉽게 활용하여 응용 소프트웨어를 개발할 수 있도록 하는 CORBA와 같은 미들웨어 기술과 자바 언어를 중심으로 다양하게 개발된 원격 프로시저 호출(Remote Procedure Call; RPC) 등과 같은 분산 컴퓨팅 기술들이 과거에는 복잡한 계산을 하는 과학자들의 전유물로만 여겨졌던 병렬 컴퓨팅과 분산 컴퓨팅을 비즈니스 응용 프로그램의 영역으로 대중화하는 데 큰 역할을 하게 된다.

베오울프 클러스터 컴퓨팅 기술과 함께 현대 빅데이터 문제의 출현에 가장 많이 영향을 준 기술은 바로 웹(Web) 기술이다. 웹 기술은 전 지구적인 스케일(planet-scale)로 지식과 정보가 한데 엮일 수 있는 기술적인 기반을 제공하여 데이터양의 폭증에 크게 기여했을 뿐만 아니라, 폭증하는 지식과 정보가 비즈니스가 될 수 있도록 대중화한 기술이기도 하다.

현대 빅데이터 기술과 비즈니스의 롤모델로 자주 언급되는 구글이 바로 인터넷의 정보를 쉽게 찾아보고 활용할 수 있도록 하는 인터넷 검색 서비스에서 시작되었다는 것을 생각해보면 위와 같은 설명이 쉽게 이해가 갈 것이다. 구글의 인터넷 검색 기술은 전지구적인 스케일로 지구촌 여러 지역에 사는 사람들이 궁금해하고 알기 원하는 것을 검색창을 통해 구글에게 제공하게 함으로써 전세계 사람들이 어떤 것을 알고 싶어 하고 관심이 있으며 어떤 욕망을 가지고 있는지 자발적으로 구글에게 데이터를 제공하게 하였다. 성장세에 있던 인터넷상의 정보를 쉽게 검색하고 찾을 수 있게 하는 서비스를 제공함으로써 사용자에 대한 정보와 데이터를 손쉽게 수집할 수 있는 강력한 데이터 수집 방법이 된 것이다.

이렇게 전지구적인 스케일로 정보가 엮이게끔 하고, 검색 가능한 형태로 구조적으로 정보와 데이터가 표현되게끔 한 웹 기술은 전지구상의 정보를 일관된 방법으로 표현하고 공유, 수집할 수 있도록 한 강력한 기술이었다. 이런 웹 기술을 단순하고 효과적으로 쓸 수 있도록 한 구글의 검색 서비스는 구글의 지능형 서비스가 가능하도록 다양한 데이터를 수집할 수 있게 한 근본적인 기술이다.

웹 기술과 인터넷 검색 기술은 구글이 전지구적인 데이터를 수집할 수 있게 한 중요한 기술이지만, 구글이 현재의 위치에 서게끔 막대한 수익을 낼 수 있게 해준 기술은 인터넷 검색 기술이 아니라, 인터넷 검색 기술을 통해 수집한 데이터를 활용한 맞춤형 광고 서비스인 AdSense 서비스 기술이었다. AdSense 서비스가 제공하는 맞춤형 광고를 제공할 수 있도록 한 기술은 다름 아닌 기계 학습과 추천 기술 등의 인공지능 기술들이다.

과거에는 인터넷 검색 서비스를 제공하는 기업들이 인터넷 데이터를 수집한 후에 사용자의 필요에 맞게 분류, 편집하고 보여주는 작업을 사람들을 고용하여 작업하도록 했다. 복잡한 웹 문서와 정보를 검색 서비스 및 광고 서비스 사용자들의 필요에 맞게 분류하고 편집, 표현하는 과정을 자동화할 수 있는 컴퓨터 기술이 크게 발전하지 못했기 때문이다. 웹 기반 인터넷 붐이 일던 1990년대와 2000년대 초반에 인터넷 검색 서비스를 제공하던 야후(Yahoo)와 당시 유명했던 알타비스타(Alta Vista) 등의 검색 서비스와 달리 구글이 차별화되었던 것은 구글은 서비스 초반부터 기계 학습과 인공지능 기술을 써서 자동화의 수준을 꾸준히 높였다는 것이다.

현대적인 자동화된 사용자 의도 파악 및 분류, 그리고 추천 기술이 발전하기 전부터 구글은 서비스 초반부터 다른 인터넷 검색 서비스 포탈 정보들의 수준보다 다소 떨어진다고 하더라도 검색을 통해 제공되는 정보가 기계 학습과 인공지능 기술을 이용한 자동화된 기술을 이용해 제공되도록 꾸준히 기술 개발하였다. 이들 기계 학습과 인공지능 기술을 이용한 웹 데이터 처리 및 사용자 맞춤형 서비스 기술이 분산 컴퓨팅 기술을 통해 확장성 있게 향상되면서 점차 안정화되자 다른 검색 서비스 사업자들이 도저히 따라잡을 수 없는 수준으로 구글의 서비스 이용자 수는 폭증하기 시작했다.

위와 같이 지금 우리가 겪고 있는 빅데이터 현상이 일어나게 된 기술적인 배경을 정리해보자면 크게 세 가지 요인으로 정리할 수 있다. 첫번째로, 베오울프 클러스터 기술로 인해 시작된 고성능 분산 컴퓨팅 시스템 및 소프트웨어 기술의 발전, 웹 기술의 발전을 통한 전지구적인 확장성을 가지는 정보와 데이터의 조직, 그리고 기계 학습 및 인공지능 기술의 발전을 통한 빅데이터 처리 작업 자동화율의 비약적인 향상이 현재 우리가 겪고 있는 빅데이터 현상을 일으키게 한 근본적인 요인이라고 할 수 있다.

우리는 어떤 미래를 마주하고 있는가? – 빅데이터 트렌드를 이끄는 여섯 가지 현상들
그렇다면, 앞으로 우리가 보게 될 미래는 어떤 미래일까? 앞에서 현재 우리가 마주하고 있는 빅데이터 현상이 일어나게 된 기술적인 배경에 대해서 간단하게 살펴보았는데, 그럼 더 나아가 현재 우리가 마주하고 있는 현실을 고려했을 때 앞으로는 우리의 비즈니스가 이런 기술들로 인해 어떤 양식으로 바뀌어갈까? 최근 급격한 변화를 겪고 있는 산업과 비즈니스 전반의 현상들을 보면서 조직과 비즈니스를 책임져야 하는 리더들은 당연히 이런 의문을 품을 수밖에 없을 것이다.

최근 IT 기술 트렌드를 비즈니스에 적용하여 자사의 경쟁력을 높이려고 고민하는 전략가나 리더들은 IT 관련 미디어에서 이런 말들을 많이 들었을 것이다. 클라우드 컴퓨팅이 안정기에 접어들어 대세가 되고, 지금까지 빅데이터를 활용하는 기업들의 성과가 두드러지게 나타난 것이 없지만 부분부분 특정한 비즈니스 문제들에 대해서 특정한 빅데이터 기술을 활용한 성공 사례는 간간히 보고되고 있으며, IoT와 5G망을 통한 많은 사물들 간의 초연결이 우리의 생활과 비즈니스의 양상을 많이 바꾸어 놓을 것이다. 이에 더해, IoT로 연결된 사물과 사람 간에 대화 인터페이스를 통한 인공지능 기술을 통해서 더 편리하게 사물들을 조작하고 활용할 수 있는 시대가 곧 올 것이며, 첨단 인공지능 기술로 자동화되는 작업들로 인해서 기업의 업무 스피드가 높아지고 효율은 높아지겠지만, 과거 전통적인 일자리가 많이 사라져 사회 불안의 요인이 될 것이다. 이제 상용화될 양자컴퓨팅은 인공지능 기술을 획기적으로 발전시켜 이런 추세를 더 가속할 것이다.

위와 같이 클라우드 컴퓨팅, 빅데이터, IoT, 인공지능, 5G, 양자컴퓨팅이라는 말 하나하나마다 마치 전자 부품 하나를 다루는 듯한 느낌으로 거대 담론이 만들어지고 있는데, 사실은 각각의 단어 하나하나만 해도 넓은 영역의 기술들과 광범위한 이슈를 다루고 있는 거대 기술 담론을 상징하는 단어이다. 이렇게 논의되고 있는 거대 담론이 실제 우리 생활에 현실로 나타나기 위해서는 아직도 기술적으로 넘어야 할 난제들이 많으며, 아직도 많은 시간이 필요하다.

물론 기술의 발전은 선형적으로 이루어지지 않고 기하급수적으로 이루어지기에 어느 순간이 되어 특별한 기술적인 돌파구가 나타나게 되면 위 기술 하나하나가 급격하게 발전하면서 사회 변화의 양상이 급격하게 달라질 수 있다. 다만, 최근 미디어에서 논의되고 있는 모습을 보면 마치 위 기술들이 내일이라도 상용화되어서 기업들이 당장 도입하거나 활용하지 않으면 비즈니스 경쟁에서 도태될 것처럼 많이들 얘기하고 있어, 필자는 현실이 지나치게 왜곡되는 것은 아닌가 다소 걱정이 된다. 필자는 앞으로 남은 연재를 통해 독자분들께서 위의 거대 담론으로 논의되고 있는 IT 기술의 미래를 좀더 현실적으로 바라보고 조직과 비즈니스의 미래를 현실적으로 그려나갈 수 있도록 돕고자 한다.

위 기술 간의 상호 작용이 어떤 배경을 가지고 있는지, 현재 시점에서 미디어에서 얘기하고 있는 것과 실제 기술 수준이 어느 정도의 차이가 있는지, 기술의 장점과 한계는 무엇인지 앞으로 같이 살펴보려고 한다. 각 기술요소가 이런 기술적인 배경에서 어떤 역할을 하는지 살펴보면서 우리가 어떻게 미래를 준비해야 하는지 같이 살펴보려고 한다.
 
그림 2. 미래 이더넷 기술의 대표적인 응용 분야와 분야별로 예상되는 요구 대역폭. 클라우드와 통신사등의 서비스 제공 업체들은 Tbps급의 대역폭이 필요할 것으로 전망하고 있다. (그림 출처: [2])

현재 시점에서 빅데이터를 활용하는데 가장 중요한 영향을 미치는 기술은 무엇보다도 유, 무선 통신 기술이다. 아직도 많은 기업 정보 인프라가 10Gbps 및 40GBps급 네트워크를 사용하고 있는 현실에서 유선 통신 기술은 100Gbps의 고대역폭, 고성능 네트워크가 이더넷과 인피니밴드(Infiniband), 인텔의 옴니패스(OmniPath) 등으로 상용화된 지 벌써 꽤 시간이 흘렀으며, 현재 1Tbps 대역폭을 실현하고 사업화하기 위해 벌써 나아가고 있다. 이더넷 기술의 발전을 위해 조직된 “이더넷 얼라이언스(Ethernet Alliance)”에서 발표한 “2019년 기술 로드맵(Ethernet Alliance’s 2019 Roadmap)”에 따르면 클라우드 컴퓨팅과 통신 서비스 사업자들이 곧 1Tbps급의 이더넷 기술이 필요할 것으로 전망하고 있다[2]. 

현재 400Gbps 및 200Gbps급의 물리 계층 표준을 정의한 IEEE 802.3bs, IEEE 802.3cd 표준이 2017년 12월 6일, 2018년 12월 5일 각각 승인되어 발표된 상황이며 2016년부터 시스코, 주니퍼와 같은 주요 네트워크 장비 업체들은 400Gbps 대역폭을 지원하는 백본 스위치 모듈을 벌써 상품화하여 공급하고 있다[3-5].
 
그림 3. 대표적인 네트워크 기술인 이더넷의 대역폭 발전 전망. 2025년경에는 800Gbps, 1.6Tbps급 이더넷 기술이 상용화될 것으로 보인다. (그림 출처: [2])


위 그림 2를 보면 차량용 이더넷 네트워크 기술의 대역폭 요구사항에서 눈에 띄는 부분을 하나 발견할 수 있는데, 바로 차량용 이더넷의 대역폭이 50Gbps까지 높아질 것으로 전망한다는 것이다. 현재 데이터센터에서 대부분 기업용 정보 시스템이 사용하는 것보다 더 높은 대역폭의 네트워크가 자동차 내에서 필요하다는 것이다. 자율주행과 커넥티드카, 그리고 차량 내 다양한 인포테인먼트 시스템을 위해 차량 내에서도 고대역폭 네트워크가 필요한 빅데이터가 발생하기 때문에 이런 전망을 하고 있다.

유선 통신뿐만 아니라, 무선 통신에서도 제공되는 대역폭이 급격하게 높아지고 있다. 우리나라에서 세계 최초로 상용화한 5G 통신만 해도 원래 목표는 10Gbps의 대역폭을 무선 통신으로 제공하겠다는 것이었다. 현재 상용화된 5G통신은 원래 목표보다 많이 하향화되어서 2~3Gbps 대역폭을 제공하는 기술로 우선 표준이 일단락되었지만, 28GHz 주파수 대역 기지국이 본격적으로 도입되는 3GPP 릴리즈 16 표준부터는 현재보다는 2~3배 높은 대역폭의 통신이 가능할 것으로 기대된다.

5G가 상용화된지 얼마 되지 않았음에도 6G 무선 통신 기술에 대한 관심이 급격하게 높아지고 있으며, 최근 미국, 중국을 중심으로 6G 무선 통신 기술을 선점하기 위한 관련 기관들의 발표가 연이어 나타나고 있다. 6G 무선 통신 기술은 2030년경에 상용화될 것으로 보이며, 100Gbps에서 1Tbps에 이르는 고대역폭과 1ms   저지연 통신을 제공하는 것에 대해서 벌써 논의하고 있다.

이렇게 5G, 6G로 대표되는 무선 통신과 테라비피에스(Terabps)급 이더넷 기술의 발전으로 인해 네트워크를 통한 컴퓨팅 및 IT 자원의 통합과 확장은 급격하게 빨라질 것으로 기대된다. 여기서 하나 주목해야 할 것은, 근거리 통신망(LAN)에서의 대역폭 확장뿐만 아니라 원거리 통신망(WAN)과 6G 및 차세대 Wi-Fi 기술에서도 고대역폭 통신이 지원되기 시작하면서 원거리에 있는 컴퓨팅 및 IT 자원이 클라우드 컴퓨팅 기술과 결합하여 컴퓨팅 자원의 공간적 제약을 극복하는 컴퓨팅 및 IT 서비스 기술로 급격하게 발전하리라는 것이다.

이렇게 네트워크 기술의 발전으로 인한 컴퓨팅 자원의 공간적 제약을 극복하는 자원 확장과 통합이 이루어지면서 클라우드 컴퓨팅 자원과 휴대용 단말과 사물인터넷 기기 등의 소형 컴퓨팅 장치, 그리고 자동차, 로봇, 인프라 등에서 나오는 데이터의 양과 복잡도가 지수적으로 급격하게 증가하게 되어 빅데이터 처리 기술에 대한 요구사항이 급격하게 높아지게 될 것이다. 또한 이런 네트워크 기술의 발전은 공간적 제약을 극복할 수 있는 IT 자원의 통합이 가능하도록 하여 빅데이터 처리를 위해 필요한 IT 자원을 끌어오기 쉽게 만들어 빅데이터의 활용을 쉽게 할 것이기 때문에 빅데이터 활용을 다시 촉진하는 촉매로서의 역할을 하여 빅데이터 기술의 발전을 가속할 것이다. 


X