2015.08.24

골칫거리 스케일도 '빅'··· 빅데이터 문제 5가지

Brandon Butler | Network World
빅 데이터는 세간의 마케팅 문구와 달리 다양한 문제들을 안겨줄 수도 있다. 만약 손에 쥐어진 데이터가 적당히 작은 규모라면, 그것의 관리와 분석은 직관적이고 간단할 것이다. 하지만 그 규모가 늘어나면, 고려할 부분도 함께 늘어난다.

각종 소스를 통한 데이터의 수집 규모가 확장됨에 따라 우리는 전에 없던 새로운 문제들과 마주하고 있다. 데이터 기반 저널리즘 사이트 파이브서티에잇(FiveThirtyEight, 현재는 ESPN에 인수됐다)의 설립자 네이트 실버는 얼마 전 보스톤에서 치러진 HP 빅 데이터 컨퍼런스에 연사로 참석해 빅 데이터가 야기할 수 있는 몇 가지 문제들에 관해 설명했다.

어디에 보관할 것인가
데이터의 규모가 커지면 그것을 어디에 저장하고 어떻게 분석할 지 등의 관리 복잡도 역시 높아진다. 하드웨어와 클라우드 중 어느 공간에 데이터를 저장할지, 접근은 얼마나 자주 필요하며 지연의 문제는 어떻게 해결할 지 등 데이터 관리는 단순히 상품을 창고에 보관해두는 것과는 다른 많은 고민을 요구한다. 데이터를 온전히 관리하기 위해선 이러한 질문들에 명확하게 답을 내릴 수 있어야 할 것이다.



편견
편견의 문제는 데이터를 이야기할 때 흔히 언급되는 논제 중 하나다. 당신이 두 개의 여론 조사 자료를 분석한다면, 그 의미를 해석하는 것은 충분히 간단한 과정일 수 있다.

하지만 100개의 설문을 분석한다면? 데이터들에 해석자의 시각이 개입될 여지가 보다 늘어나게 된다. 혹자는 10 개의 통계를 분석하면 100 개의 해석이 나올 수 있다고 이야기하기도 한다. 데이터의 규모가 늘어날수록 편견을 배제하려는 노력의 중요성은 더욱 강조된다.

긍정 오류의 문제
실버는 대니얼 카너먼의 저서 <생각에 관한 생각(Thinking, Fast and Slow)>을 인용하며 데이터의 일부분에 기반해 성급한 결론을 내리는 인간 사고 지향성에 관해 설명했다. 빅 데이터에서는 더욱 많은 데이터 세부 부분들이 생성될 수 있기에 이런 문제가 발생할 가능성이 더욱 크다. 문제의 해결 방법으로 실버는 ‘조금 천천히’ 생각하고 데이터를 명확히 합리화하는 노력이 필요하다고 강조했다.

큰 복잡성
실버는 ‘소음 속에서 신호을 추출해내는’ 비유로 빅 데이터의 복잡성 문제를 설명했다. 떨어진 금반지를 찾는 일은 짚더미 속에서보다 서랍 속에서 더 쉽듯이, 분석해야 할 데이터의 규모가 커짐에 따라 진정으로 가치 있는 데이터를 발굴하기는 더욱 어려워지는 것이다.

맥락에 대한 무시
많은 이들이 구글 지도를 이용해 목적지까지의 최적 경로를 탐색하고 있다. 하지만 종종 그 길을 따라가다 보면 진흙밭이나 공사 현장과 맞닥뜨려 낭패를 보기도 한다. 이처럼 시스템들은 데이터에 기반해 합리적인 의사 결정을 내려주지만, 그 답이 항상 바람직한 것은 아니라는 점을 감안해야 한다. ciokr@idg.co.kr 



2015.08.24

골칫거리 스케일도 '빅'··· 빅데이터 문제 5가지

Brandon Butler | Network World
빅 데이터는 세간의 마케팅 문구와 달리 다양한 문제들을 안겨줄 수도 있다. 만약 손에 쥐어진 데이터가 적당히 작은 규모라면, 그것의 관리와 분석은 직관적이고 간단할 것이다. 하지만 그 규모가 늘어나면, 고려할 부분도 함께 늘어난다.

각종 소스를 통한 데이터의 수집 규모가 확장됨에 따라 우리는 전에 없던 새로운 문제들과 마주하고 있다. 데이터 기반 저널리즘 사이트 파이브서티에잇(FiveThirtyEight, 현재는 ESPN에 인수됐다)의 설립자 네이트 실버는 얼마 전 보스톤에서 치러진 HP 빅 데이터 컨퍼런스에 연사로 참석해 빅 데이터가 야기할 수 있는 몇 가지 문제들에 관해 설명했다.

어디에 보관할 것인가
데이터의 규모가 커지면 그것을 어디에 저장하고 어떻게 분석할 지 등의 관리 복잡도 역시 높아진다. 하드웨어와 클라우드 중 어느 공간에 데이터를 저장할지, 접근은 얼마나 자주 필요하며 지연의 문제는 어떻게 해결할 지 등 데이터 관리는 단순히 상품을 창고에 보관해두는 것과는 다른 많은 고민을 요구한다. 데이터를 온전히 관리하기 위해선 이러한 질문들에 명확하게 답을 내릴 수 있어야 할 것이다.



편견
편견의 문제는 데이터를 이야기할 때 흔히 언급되는 논제 중 하나다. 당신이 두 개의 여론 조사 자료를 분석한다면, 그 의미를 해석하는 것은 충분히 간단한 과정일 수 있다.

하지만 100개의 설문을 분석한다면? 데이터들에 해석자의 시각이 개입될 여지가 보다 늘어나게 된다. 혹자는 10 개의 통계를 분석하면 100 개의 해석이 나올 수 있다고 이야기하기도 한다. 데이터의 규모가 늘어날수록 편견을 배제하려는 노력의 중요성은 더욱 강조된다.

긍정 오류의 문제
실버는 대니얼 카너먼의 저서 <생각에 관한 생각(Thinking, Fast and Slow)>을 인용하며 데이터의 일부분에 기반해 성급한 결론을 내리는 인간 사고 지향성에 관해 설명했다. 빅 데이터에서는 더욱 많은 데이터 세부 부분들이 생성될 수 있기에 이런 문제가 발생할 가능성이 더욱 크다. 문제의 해결 방법으로 실버는 ‘조금 천천히’ 생각하고 데이터를 명확히 합리화하는 노력이 필요하다고 강조했다.

큰 복잡성
실버는 ‘소음 속에서 신호을 추출해내는’ 비유로 빅 데이터의 복잡성 문제를 설명했다. 떨어진 금반지를 찾는 일은 짚더미 속에서보다 서랍 속에서 더 쉽듯이, 분석해야 할 데이터의 규모가 커짐에 따라 진정으로 가치 있는 데이터를 발굴하기는 더욱 어려워지는 것이다.

맥락에 대한 무시
많은 이들이 구글 지도를 이용해 목적지까지의 최적 경로를 탐색하고 있다. 하지만 종종 그 길을 따라가다 보면 진흙밭이나 공사 현장과 맞닥뜨려 낭패를 보기도 한다. 이처럼 시스템들은 데이터에 기반해 합리적인 의사 결정을 내려주지만, 그 답이 항상 바람직한 것은 아니라는 점을 감안해야 한다. ciokr@idg.co.kr 

X