2015.03.17

빅데이터가 아닌 '와이드 데이터'에 집중해야 하는 이유

Thor Olavsrud | CIO
데이터 그 자체가 조직에 통찰력을 제공해 줄 수 있는 빅데이터는 될 수 없다. 진짜 통찰력은 서로 다른 데이터 세트를 가져와 상관관계를 분석할 때 얻을 수 있기 때문이다.


이미지 출처 : Thinkstock

빅데이터를 지향하는 현 시점에서 많은 기업들이 데이터 수집을 포켓몬 게임 다루듯이 닥치는 대로 쓸어 담고 있다. 하지만 다양한 플랫폼 마케팅 분석 전문기업 섬올(SumAll)의 CEO인 데인 앳킨슨은 대부분의 조직이 데이터에 대해 ‘크게’가 아니라 ‘넓게’ 생각해야 한다고 지적했다.

"진정한 데이터의 힘은 다양한 데이터 세트를 가져와 상관관계를 분석할 때 발휘된다"고 앳킨슨은 말했다. 이질적인 데이터 세트를 연계시켜야만 세상이 깜짝 놀랄 만한 사실을 발견할 수 있다는 것이다.

이 아이디어를 표현하기 위해 앳킨슨은 바다와 조수를 예로 들었다. 바다에서 조수가 어떻게 움직이는지 이해하기 위해서는 바다와 달 사이의 상관관계를 이해해야 한다고 설명했다.

"고립된 상태로는 원인을 찾을 수 없다"고 그가 말했다.

게다가 적절한 폭의 데이터(즉, 충분히 이질적인 데이터의 근원)을 갖추었다면 데이터의 양이 많지 않아도 효과적인 결과를 얻을 수 있다. 예를 들어, 공공의 이익을 위한 데이터 활용에 주력하는 비영리 조직인 SumAll.org를 통해 섬올은 뉴욕시와 비영리 조직 CAMBA가 무주택 상황을 해결하는 시범 프로젝트를 진행하고 있다.

살던 집에서 내몰린다고 해서 반드시 노숙을 하게 되는 것은 아니다. 하지만 퇴거 고지는 가족이 집을 잃게 되는 주요 원인 중 하나가 될 수 있다. 뉴욕에서 매년 약 20만 세대가 살던 집에서 쫓겨나고 있다. 빅데이터의 측면에서는 그리 대단한 수준의 기록은 아니다. 하지만 20만 세대 대부분이 퇴거 절차의 결과로써 무주택 상태에 놓일 위험이 있다는 점이 문제다.

섬올이 나서기 전 브룩클린(Booklyn)에서 노력을 기울였던 CAMBA는 매월 킹스 카운티 주거법원(Kings County Housing Court)에서 약 5,000건의 새로운 퇴거 사례 목록을 사람이 검토한 후, 서비스를 제공하는 지역에 거주하고 있는 세대에 자체 서비스에 관한 서신을 보냈다(월 약 400건 발송). 섬올의 도움과 데이터 지향 마케팅에서 차용한 일부 표적화 기법을 이용해 CAMBA는 목록을 크게 축소할 수 있었다.

우선 모든 사례의 지역 코드를 파악하여 CAMBA가 서비스를 제공하는 지역에 있는 것들만 추렸다. 그리고 나서 데이터를 ‘넓게’ 분석하여 세대가 ‘위험에’ 처해 있음을 알 수 있는 과거의 보호소 시스템 경험, 과거의 가정위탁 시스템 경험, 교육 수준, 고용 상태, 연령 등의 다양한 데이터 세트에서 데이터를 가져왔다. 이런 이질적인 데이터 세트를 상호 연계시킴으로써 섬올은 CAMBA가 가장 위험도가 높은 30~50건의 사례를 찾을 수 있도록 도왔다. 그 결과, CAMBA는 자원을 더욱 효율적으로 활용하여 해당 세대들을 도울 수 있었다.

궁극적으로 CAMBA는 시범 지역에서 50% 이상의 세대에 퇴거 예방 서비스를 제공할 수 있었다.

"이것이 와이드 데이터(Wide Data)의 진정한 힘이다. 이전에는 절대로 연계되지 않았던 영역들 사이의 상관관계를 보여준다"고 앳킨슨은 말했다.




2015.03.17

빅데이터가 아닌 '와이드 데이터'에 집중해야 하는 이유

Thor Olavsrud | CIO
데이터 그 자체가 조직에 통찰력을 제공해 줄 수 있는 빅데이터는 될 수 없다. 진짜 통찰력은 서로 다른 데이터 세트를 가져와 상관관계를 분석할 때 얻을 수 있기 때문이다.


이미지 출처 : Thinkstock

빅데이터를 지향하는 현 시점에서 많은 기업들이 데이터 수집을 포켓몬 게임 다루듯이 닥치는 대로 쓸어 담고 있다. 하지만 다양한 플랫폼 마케팅 분석 전문기업 섬올(SumAll)의 CEO인 데인 앳킨슨은 대부분의 조직이 데이터에 대해 ‘크게’가 아니라 ‘넓게’ 생각해야 한다고 지적했다.

"진정한 데이터의 힘은 다양한 데이터 세트를 가져와 상관관계를 분석할 때 발휘된다"고 앳킨슨은 말했다. 이질적인 데이터 세트를 연계시켜야만 세상이 깜짝 놀랄 만한 사실을 발견할 수 있다는 것이다.

이 아이디어를 표현하기 위해 앳킨슨은 바다와 조수를 예로 들었다. 바다에서 조수가 어떻게 움직이는지 이해하기 위해서는 바다와 달 사이의 상관관계를 이해해야 한다고 설명했다.

"고립된 상태로는 원인을 찾을 수 없다"고 그가 말했다.

게다가 적절한 폭의 데이터(즉, 충분히 이질적인 데이터의 근원)을 갖추었다면 데이터의 양이 많지 않아도 효과적인 결과를 얻을 수 있다. 예를 들어, 공공의 이익을 위한 데이터 활용에 주력하는 비영리 조직인 SumAll.org를 통해 섬올은 뉴욕시와 비영리 조직 CAMBA가 무주택 상황을 해결하는 시범 프로젝트를 진행하고 있다.

살던 집에서 내몰린다고 해서 반드시 노숙을 하게 되는 것은 아니다. 하지만 퇴거 고지는 가족이 집을 잃게 되는 주요 원인 중 하나가 될 수 있다. 뉴욕에서 매년 약 20만 세대가 살던 집에서 쫓겨나고 있다. 빅데이터의 측면에서는 그리 대단한 수준의 기록은 아니다. 하지만 20만 세대 대부분이 퇴거 절차의 결과로써 무주택 상태에 놓일 위험이 있다는 점이 문제다.

섬올이 나서기 전 브룩클린(Booklyn)에서 노력을 기울였던 CAMBA는 매월 킹스 카운티 주거법원(Kings County Housing Court)에서 약 5,000건의 새로운 퇴거 사례 목록을 사람이 검토한 후, 서비스를 제공하는 지역에 거주하고 있는 세대에 자체 서비스에 관한 서신을 보냈다(월 약 400건 발송). 섬올의 도움과 데이터 지향 마케팅에서 차용한 일부 표적화 기법을 이용해 CAMBA는 목록을 크게 축소할 수 있었다.

우선 모든 사례의 지역 코드를 파악하여 CAMBA가 서비스를 제공하는 지역에 있는 것들만 추렸다. 그리고 나서 데이터를 ‘넓게’ 분석하여 세대가 ‘위험에’ 처해 있음을 알 수 있는 과거의 보호소 시스템 경험, 과거의 가정위탁 시스템 경험, 교육 수준, 고용 상태, 연령 등의 다양한 데이터 세트에서 데이터를 가져왔다. 이런 이질적인 데이터 세트를 상호 연계시킴으로써 섬올은 CAMBA가 가장 위험도가 높은 30~50건의 사례를 찾을 수 있도록 도왔다. 그 결과, CAMBA는 자원을 더욱 효율적으로 활용하여 해당 세대들을 도울 수 있었다.

궁극적으로 CAMBA는 시범 지역에서 50% 이상의 세대에 퇴거 예방 서비스를 제공할 수 있었다.

"이것이 와이드 데이터(Wide Data)의 진정한 힘이다. 이전에는 절대로 연계되지 않았던 영역들 사이의 상관관계를 보여준다"고 앳킨슨은 말했다.


X