'빅 데이터로 할 수 있겠지...?' 틀린 가정 3가지

CIO

많은 기업, 임원들이 빅 데이터를 마치 만병통치약처럼 바라보고 있다. 그러나 빅 데이터와 애널리틱스에는 엄연히 한계가 존재한다. 여기 빅 데이터의 능력에 대해 흔히 잘못 세우곤 하는 가정에 대해 정리한다.

빅 데이터가 말 그대로 '유행'하고 있다. 최근 월스트리트 저널(The Wall Street Journal)의 보도에 따르면, 경력이 일천한 데이터 과학자들조차 30만 달러의 연봉을 요구하고 있다. 한 마디로, 너도나도 빅 데이터 시대다.

그러나 이 분야의 도구와 베스트 프랙티스는 새로운 것들이다. 따라서 '빅 데이터가 우리를 위해 할 수 있는 일'에 대한 가정을 재정립하는 것이 중요하다. 어쩌면 '할 수 없는 일'을 확실히 아는 것이 더 중요할 수도 있다. 다음은 '빅 데이터가 당신과 당신의 기업을 위해 할 수 있는 일'에 대해 가장 흔하게 잘못 가정되는 내용 3가지다.



빅 데이터는 미래를 예측할 수 없다
빅 데이터, 분석 툴, 해석, 과학적 실험 및 시각화는 미래에 발생할 일을 알려주지 못한다. 이유가 뭘까? 과거나 현재의 데이터를 수집하기 때문이다. 우리는 아직 미래의 데이터 포인트와 가치를 수집할 수 있는 지점에 도달하지 못했다.

단 과거 발생한 사건을 분석한 데이터를 바탕으로 행동과 의사결정 지점, 결과 사이의 트렌드를 도출하려는 시도를 할 수 있다. 또 유사한 상황에서의 일을 추정할 수 있고, 이에 따라 의사결정을 내렸다면 유사한 결과가 발생할 수 있다. 그러나 미래를 예측할 수 있는 것은 아니다.

많은 경영진과 기업이 수많은 데이터에서 미래를 예측하려는 시도를 하고 있다. 이는 좋지 않은 생각이다. 미래는 상시 바뀌기 때문이다. 금융 상담사는 '과거 실적이 미래 실적을 보증하지 않는다'고 말한다. 이는 빅 데이터에도 동일하게 적용된다.

빅 데이터는 미래 예측 대신, 현상의 최적화 및 강화에 사용될 때 좀더 적합하다. 현재 일어나고 있는 일을 조사해, 그 결과를 건설적으로 개선해나가야 한다. 데이터로 물어야 할 질문을 찾는다. 빅 데이터를 미래를 들여다보는 '수정구슬'로 사용해서는 곤란하다.

빅 데이터는 당신과 기업의 가치를 대체하지 못한다
빅 데이터는 여러 가치에 대한 대체제로 부족하다. 개인의 삶과 기업 활동에 있어 기준이나 판단 근거를 대신하기에 극히 부족한 존재라는 의미다.

빅 데이터로 인해 중요한 문제에 대한 선택을 더 명료히 할 수 있을지 모른다. 어려 행동 경로의 장점과 단점을 더 쉽고 명확히 분류할 수도 있을 것이다. 그러나 그 동안 쌓아온 기준과 가치에 비교될 정도는 아니다.

데이터는 그 자체로 표시되는 수와 시각화 소프트웨어의 도움을 받아 모든 종류의 '그림'을 제시할 수 있다. 직원들은 주어진 특정 문제에 대해 많은 예상 시나리오를 상정할 수 있다. 그러나 그 결과물이란 결국 '예측'이다. 이런 툴을 선택해 직원들에게 제공하는 CIO로 해야 할 일 중 하나는 데이터와 기업의 가치를 일치시키는 것이다.

자동차 제조업체를 예로 들어 보겠다. 빅 데이터 소스와 툴을 이용한다면, 완성 이전에는 수리 비용이 몇 센트에 불과하지만 제조 이후에는 더 많은 비용이 발생하는 단점을 가진 특정 자동차 모델을 파악할 수 있다. 이를 통해 데이터와 데이터 과학자들은 아직 생산 라인에 위치한 자동차 모델을 수리할 것을 권고할 수 있다.


그러나 이미 시판된 자동차의 문제에 대해서는 방치하는 것이 낫다는 결론을 내릴 수 있다. 데이터가 제시하는 비용이 전반적인 피해 발생 확률을 넘어서기 때문이다.

(GM의 점화 스위치 사건을 들어봤다면 친숙한 시나리오일 것이다. 그러나 이는 가설이다. 또 실제 GM의 리콜에 빅 데이터가 영향을 미쳤다는 증거는 없다.)

그러나 당신의 회사에서 가장 중요한 가치가 품질과 안전이라고 가정하자. 데이터가 리콜 가치가 없음을 보여주더라도, 임원진은 리콜 판단을 내릴 수 있다. 그렇다. 정보를 얻을 수 있지만 빅 데이터에 지배되어서는 안 된다.

다른 시각으로 들여다 봤을 때, 잘못된 대답으로는 보이는 것이 실제는 옳은 대답이 될 수 있음을 명심하는 것이 중요하다. 정확한 시각과 기준을 견지하는 것이 중요하다.

정량화되지 않는 문제를 풀 수 없다
해머의 눈에는 못밖에 보이지 않는다는 격언이 있다. 빅 데이터를 이용해 비즈니스 문제를 예측해 해결하는데 성공을 거두고 나면, 해결책이 불분명한 모든 문제에 직면할 때마다 '데이터에 물어야 한다'는 유혹에 빠지게 될 것이다.

앞서 언급했듯, 데이터는 더 많은, 그리고 더 나은 선택지를 제시하고, 각 선택지에 따른 결과를 보다 명확히 알려주는 역할을 할 수는 있다. 그러나 데이터가 전혀 효과가 없는 경우도 있다. 개인과 관련해 사용했을 경우가 대표적이다.

이유가 뭘까? 개인의 행동을 정량화하기란 사실상 불가능하기 때문이다. 사람들은 저마다의 상황, 세계관, 이유, 정황을 갖고 있다. 개개인에게 '수학'을 적용하기란 불가능하다. 그보다는 유사한 특징을 갖는 집단을 살피는 것이 효율적이다. 그래야만 전체 집단에 적용할 수 있는 행동 추세를 관찰할 수 있다.

이는 빅 데이터가 다룰 수 있는 문제가 아니다. 이는 통계적 문제이다. 개인 신용점수가 좋은 사례가 될 수 있다. 이는 소비자를 집단으로 분류, 각 집단별로 총합해 대출 및 상환 이력을 분석한 점수이다.

누군가의 신용점수가 720점이라고 가정하자. 이 점수는 그 사람의 그 동안 상환 이력이 특정 통계 집단에 속한다는 의미이다. 그리고 그 (유사한 범위의 신용점수를 가진 사람들의) 집단에서 X%의 사람들은 심각한 채무 지불 불능이나 파산 상태가 될 수 있다.

그러나 신용점수가 특정 개인을 보증하지 못한다. 다음 달에 파산을 할 수도, 평생 파산을 하지 않을 수 있다. 또는 채무 지불 불능 상태에 빠졌다가 다시 회복을 할 수 있다. 통계로는 이를 예측할 수 없다.

신용점수로는 개인의 행동을 예측할 수 없다는 의미다. 예를 들어, 805점이라는 높은 신용점수를 가진 사람이 고의로 파산을 한 후, 이후 돈을 빌리지 않을 수 있다. 반면 590점이라는 낮은 신용점수를 가진 사람이라 할지라도, 그 채무가 의료비에만 국한되어 있을 수 있다.

이는 일부 금융기관이 위험을 기준으로만 대출 상품의 가격을 정하지 않는 이유이기도 하다. 이들 금융기관은 대출자가 대출을 요구할 때, 첫 신용점수를 받기 이전의 상황까지 철저히 조사한다. 상환 능력과 의지에 있어, 많은 데이터를 기반으로 하는 점수보다 더 정확하게 판단을 할 수 있는 방법은 개인의 상황에 대한 분석이다.

사람을 다루기란 어렵다. 인간은 예측 불가능하다. 데이터로 인간의 행동을 예측할 수 있다는 착각을 해서는 안 된다. 빅 데이터와 인간은 그리 믿을 만한 조합 대상이 아니다.

* Jonathan Hassell 은 컨설팅 기업 82 벤처 LLC를 경영하고 있다. ciokr@idg.co.kr