Offcanvas

How To / 리더십|조직관리 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 소프트스킬

빅 데이터, 10가지 흔한 오해와 착각

2014.01.29 Maria Korolov  |  Network World
미신 4: 일단 수집하고, 분류는 다음에 하라
샌프란시스코에 위치한 클라우드 기반 비즈니스 인텔리전스 벤더 버스트(Birst)의 CEO 브래드 피터스는 “스토리지의 가격이 아무리 떨어져도 이를 공짜로 구할 방법은 없다. 오히려 데이터 규모의 확장 속도가 스토리지 가격 하락 속도를 능가하고 있는 것이 현실이다”라고 강조했다.

기업들은 일단 데이터를 다 모아두면 훗날 그것이 어딘가에서 사용될 수 있을 것이라 생각한다. 이런 시각에 대해 피터스는 “많은 대기업들이 막대한 데이터를 쌓아두고 있다. 모두 비용이 소요되는 활동이다. 하지만 그들 중 이 데이터를 이용해 투자에 상응하는 가치를 창출했다는 이는 보지 못했다”라고 지적했다.

일부 데이터 셋에 있어서는 수확 체감의 법칙이 적용되기도 한다. 한 예로 당신이 사람들에게 선거 결과 예측을 위한 여론 조사를 시행한다 가정해보자. 조사가 대표성을 확보하려면 일정 수 이상의 참여자가 필요하다. 하지만 일정 규모를 넘어가면, 여론 조사 대상을 증가시켜도 오차 한계 범위에 유의미한 영향을 미치지 못하게 된다.

피터스는 “언젠가 필요할 지 모른다는 이유로, 단지 약간의 정확도를 향상시키려는 이유로 엄청난 양의 데이터를 저장해둘 필요가 있을까? 아니면 더 많은 인력을 고용할 이유가 있을까? 네트워크를 안전하게 보호할 수 있는가? 예산은 제한되어 있다”고 말했다.

비 구조적 데이터 애널리틱스 전문 샌프란시스코 레코마인드(Recommind)의 빅 데이터 관리 및 정보 관리 대표 딘 곤소우스키는 이것이 비단 저장 비용의 문제만은 아니라고 말한다.

예를 들어, 데이터가 빠져 나가면 회사에서는 그에 따른 비용을 지불하게 된다. 한편 데이터가 할 일 없이 웨어하우스에서 놀고만 있는다고 해도 법정 소송 등에서 전자증거조사제도(e-discovery)의 표적이 될 수 있다.

마지막으로 데이터가 많을수록 이것들을 정리하는 것도 오래 걸린다. “저장소에 수십 억 개의 기록이 있을 경우 원하는 자료를 검색하는 것이 짧게는 수 시간, 길게는 수 주일 까지도 걸린다. 대용량 자료에 대비해 고안되지 않은 경우 막대한 양의 정보 때문에 시스템이 느려지기도 한다”고 그는 말했다.

미신 5: 모든 데이터는 동등하다
버지니아 주에서는 지난 20년 간 학생 등록, 재정 지원, 그리고 생활비 지원금 등에 대한 정보를 수집해왔다. 그렇다고 해서 반드시 20년 전에 수집해 데이터필드에 저장해 둔 데이터가 같은 데이터라는 것은 아니다.

버지니아 주 고등 교육 위원회(State Council of Higher Education)의 정책 연구원이자 데이터 웨어하우징 디렉터 토드 마사는 “직면하는 가장 큰 문제는 단지 데이터 사전에 있다고 해서 다 괜찮다고 생각하는 연구원들이다. 예를 들어, 처음에는 버지니아 주 내부 학생들의 ACT나 SAT 시험 점수만을 모았는데 갭이 발생했다. 결국 주 내, 외부 학생들 모두의 데이터를 모으게 된 경우가 있었다”라고 전했다.

그에 따르면 인종과 민족에 관한 데이터 역시 초등학교에서 고등학교, 그리고 그 이상의 고등 교육 기관에서 각기 다르게 추적한다.

사실 특정 데이터 포인트는 기관에 따라, 시기에 따라, 혹은 그 기관의 인물에 따라 다르게 보고될 수 있다. “수집하는 데이터에 대해 모든 책임을 지는 독립된 업체나 기업의 경우 상황이 다를 수도 있다. 그렇지만 어쨌든 데이터의 의미가 시간에 따라 변화하는 것은 사실이다”라고 그는 말했다.

결과적으로, 애널리스트들은 통계학적 기술뿐 아니라 데이터에 관한 국소적인 이해와 업계 전반의 트렌드에 관한 지식을 모두 갖추고 있어야 한다. 그는 “그 모든 것들을 전부 데이터 저장소에 넣을 수는 없다”라고 말했다.

외부 데이터 소스도 마찬가지다. “지난 50년 간 연방 정부 차원의 데이터 수집은 극적인 변화를 거쳐왔다. 데이터 수집의 문맥과 성격을 이해해야만 그 데이터를 잘 활용할 수 있다”고 그는 덧붙였다.

미신 6. 예측은 구체적일수록 더 좋다
사람들은 본능적으로 더 구체적인 것일수록 더 정확한 것이라 생각한다. ‘오후 3시 12분’ 이라 말하는 것이 ‘오후 몇 시쯤’이라고 말하는 것보다 더 정확하며, 일요일 아침에는 ‘반드시 비가 온다’고 말하는 기상 캐스터가 ‘이번 주말 강수 확률은 50%입니다’라고 말하는 캐스터보다 더 정확하다고 말이다.

그러나 사실은 반대다. 많은 경우 예측이 구체적일수록 정확도는 떨어진다.

예를 들어 어떤 고객이 특정 브랜드, 특정 설정의 노트북을 샀다고 해보자. 그리고 과거에 이 고객과 같은 컴퓨터를 구입한 유일한 다른 고객이 핫핑크 색 뾰족 구두 한 켤레도 샀었다고 해보자.

“이 경우 전자의 고객에게 핫핑크 색 뾰족 구두를 권하는 건 아주 구체적인 제안이긴 하지만 정확한 제안은 아니다. 또한 오차 범위도 무척 넓다”고 캘리포니아 주 산타모니카의 마케팅 업체 리텐션 사이언스(Retention Science)의 CEO 제리 자오는 설명했다.

그는 “사실 이런 오류는 마케팅 매니저나 비즈니스 매니저들 사이에서 꽤 흔하게 볼 수 있다”라고 말했다.
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.