BI / CIO / 빅데이터 | 애널리틱스 / 신기술|미래
전통적인 BI에서는 상관관계 요소에 필요한 쿼리를 사람의 결정해 입력해야 했다. 예측 데이터 분석이 점점 더 강력해지면서 알고리즘이 결정을 내리게 됐다.
지난 주 SV포럼 빅 데이터 이벤트에 참석한 이들 중에는 이번 행사가 하둡에 대한 것일 거라고 막연히 짐작한 사람이 많았을 것이다. 물론 집중적으로 하둡을 다룬 것은 사실이지만, 그렇다고 하둡이 이번 행사의 유일한 주제는 아니었다.
하둡과 빅 데이터가 대세인 건 맞다. 소셜 미디어나 웹사이트 클릭스트림(clickstream)과 같은 새로운 데이터 소스가 폭발적으로 증가하며 새로운 종류의 정보가 생겨났으며 이는 어쩌면 새로운 시각을 열어줄 계기가 될 수도 있다. 하둡은 이런 트렌드의 중심이자 가장 선두 자리에서 분산된 데이터 콜렉션에 맵리듀스(MapReduce) 방법을 적용해 기존의 방법보다 훨씬 많은 양의 데이터를 분석할 수 있는 길을 열었다.
그러나 이런 장점에도 하둡이 비즈니스 인텔리전스(BI)의 ‘만병통치약’이 아니라는 건 분명하다. 포럼에 참석한 다수의 연사들이 하둡의 일괄적인 성격을 단점으로 꼽았다. 수 시간이 걸려 결과물을 받았지만 이 분석 결과가 원하던 것이 아니어서 다시 결과를 받아야 하는 일이 발생하는 것이다.
몇몇 다른 연설자들은 실시간 BI(트위터나 페이스북과 같은 소셜 스트림 발굴과 관련이 있는 듯 보여지는)에 주목하는 모습을 보여줬다. 이러한 실시간 분석은 분명 가치 있는 작업이다. 그러나 이것이 대다수의 기업들에서 주요 시각 소스로 자리잡는 데는 일면 무리가 있을 듯 보인다. 이는 오히려 다른 시각 수집 도구들의 보조자로서 더 유용하게 이용될 수 있을 것이다. 흥미로운 연구 주제를 제공해준다는 점에서도 실시간 BI는 그 가치를 드러내고 있다.
미래의 빅 데이터 투자처는 ‘오픈소스’
필자는 빅 데이터의 투자 기회를 주제로 한 한 패널 토론의 사회를 맡았다. 이런 종류의 토론에 패널로 참석하는 투자가들은 대게 매우 조심스런 인물인 경우가 많다. 자신이 투자할 영역에 관해 절대 떠벌리고 다니지 않는 그런 인물 말이다. 이러한 인물들과 함께 대화를 나누며 필자는 빅 데이터 영역에 관한, 그리고 더 중요하게는 IT 인프라 환경의 미래 혁신에 관한 중요한 아이디어들을 얻을 수 있었다.
토론에 참석한 3명의 패널 모두는 빅 데이터 환경의 새로운 인프라 오퍼링들이 벤처 지원 상품이 아닌 오픈소스 라이선스에 기반한 공유 개발 제품의 형태를 띌 것이라는데 동의했다. 그 이유는 우선 독점 인프라 상품을 시장에 소개하는데 소요되는 비용의 문제(2억 달러 정도가 적절한 투자 수준이라는 언급이 있었다)에 있었다. 그 밖에도 혁신이 산발적으로 일어나는, 따라서 투자 기관들이 어느 한 업체만을 골라 자금을 지원할 결정을 내리는데 많은 어려움이 있는 상황 역시 시장 변화를 야기하는 요인으로 소개됐다.
그렇다면 빅 데이터와 관련한 벤처 투자는 완전히 사라지게 될까? 패널들의 설명에 따르면, 빅 데이터를 이용하는 산업계에서는 이러한 방식이 여전히 유효할 것이라고 설명하며 그 방식은 SaaS로 이뤄질 것이라 전망했다. 이러한 업종별 시장들이 자체적 컴퓨팅 인프라나 아마존 웹 서비스(AWS, Amazon Web Services) 중 어느 곳에 기반해 성장해 나갈지에 관해서는 패널들 간에 의견이 엇갈렸다.
이러한 패널들의 전망은 필자가 오래 전부터 ‘마진의 변화(the migration of margin)'라 설명했던 시각과 맥을 같이하는 것이었다. 오라클과 같은 거대 소프트웨어 기업들은 독점 인프라에 기반한 구조를 형성해왔다. 그러나 이제 그들의 시대는 지나가고 있다. 오픈소스는 소프트웨어 인프라 시장을 주도해 나갈 것이다. 그렇다면 높은 마진을 얻을 기회는 어느 곳에 있을까? 저 위쪽, 굳이 꼽자면 수직적 시장에 있을 것이다. 이 영역은 전문 기술이 요구되는, 그리고 오픈소스만으론 시장 요구를 적절히 충족 시킬 수 없는 부분이 많기 때문이다.
BI를 바꾸는 알고리즘
그러나 개인적으로 이번 행사서 가장 흥미로웠던 부분은 분석의 미래를 조금이나마 엿볼 수 있었던 점이다. 이는 기존에 우리가 알고 있던 BI가 아니었다. 캐글(Kaggle)의 CEO 앤써니 골드블룸의 개회식 기조 연설과 포레스터의 마이크 걸티에리의 폐회식 기조 연설 모두 예측 분석에 주목했다.
넷플릭스(Netflix)에서 자사의 추천 엔진을 10개 이상의 자동검색완성으로 개선 시킬 수 있는 사람에게 엄청난 상금을 걸었던 ‘넷플릭스 컨테스트’를 기억할 것이다.
행사의 핵심은 예측 분석이었다. (수십, 또는 수백 개의) 알고리즘을 데이터 콜렉션의 부분 집합에 적용해 과연 알고리즘이 다른 흥미로운 결과와 관계 있는 데이터 요소의 패턴을 감지해 낼 수 있는지 알아보고자 한 것이다. 예측 알고리즘을 찾아내자, 이번에는 또 다른 데이터 콜렉션의 부분 집합에 적용해 과연 그 알고리즘이 두 번째 부분 집합의 결과를 예측할 수 있을지 보고자 했다.
걸티에리가 선보인 예시는 모바일 유저 중 서비스 제공자를 바꾸는 고객의 비율이었다. 한 무선통신 업체에서 사용자들의 결혼 여부, 통신료 지불 패턴(미리 지급하는 편인지, 정시에 지급하는지 연체되는 편인지), 무선통신 사용량 등의 정보를 살펴본 후 이런 요소를 분석하면 계약을 파기하는 고객을 예측할 수 있을지 실험했다.(물론 냉소적인 사람은 이런 조사를 하는 대신 서비스의 질을 향상해 제공자를 바꾸는 고객을 줄이면 되지 않느냐고 말하겠지만 말이다.)
이의 연장선에 있는 것이 예측 기능을 더욱 향상시키기 위해 알고리즘을 발달시키는 것인데, ‘기계 학습’이라는 이름으로 불린다. 캐글은 예측 분석 대회를 조직해 개최하는데, 여기서 골드블룸은 훌륭한 예시를 보여주었다. ‘기계 학습 시스템이 교사보다 학생들의 에세이를 더 잘 평가할 수 있을까?’ 답은 ‘그렇다’이다. 특히 소프트웨어는 교사보다 훨씬 변동성이 적으므로 더욱 그러하다.