Offcanvas

비즈니스|경제 / 빅데이터 | 애널리틱스 / 인문학|교양

'빅 데이터로 나무 문제 해결' 뉴욕 시의 사례

2013.06.07 Thor Olavsrud   |  CIO


경험 많은 광고 전문가나 애널리틱스 전문가라면 이 질문이 ‘인과적 의문(causal question)’임을 눈치챘을 것이다. 인과 분석(causal analysis)는 정식 실험 없이 행하기에는 아주 어려운 분석에 속한다.

데일산드로는 또 이 문제를 대상으로 A/B테스트를 진행하는 것은 사람의 목숨을 가지고 실험을 하는 것과 다를 바 없기 때문에 불가능 하다고 지적했다.

하지만 제대로 된 데이터만 있다면 통계학적으로 실험을 재구성해 낼 수는 있다고 데일산드로는 말했다. 그는 광고 업계에서 쌓아온 경험을 통해 이에 필요한 기술을 얻었다. 몇 년 전, 데일산드로와 m6d의 그의 팀은 인상 로그(impression logs)를 분석해 파급 효과(causal impact)를 추측하는 방법을 알아냈던 바 있다.

하지만 뉴욕 시의 수목 문제에 접근하는 건 그렇게 단순한 일이 아니었다. 그 동안 아무리 많은 자료를 모아 놓았다고는 해도, 어디까지나 보고하기 위한 목적의 자료 수집이었지 행동으로 옮기기 위한 자료 수집이 아니었기 때문이다.

데이터 수집이 핵심
“시에서 모은 데이터는 전혀 유기적이지 않았다. 한마디로, 데이터를 기록할 당시 이들을 하나로 합치는 것에 대해서는 생각해 본 적이 없는 것이다"라고 데일산드로는 회고했다.

예를 들어, 이들 데이터는 단위 크기(granularity)가 전부 달랐다. 과거 가지치기 작업에 대한 데이터는 블록 별로 기록한 반면, 가지치기 잔해를 청소한 것에 대한 데이터는 주소 단위로 기록된 식이었다.

“여기서 가장 큰 문제는 분석의 가장 기초적인 단위를 무엇으로 할 지 정하는 것이다. 통계학자는 세상을 여러 개체들로 나눈다. 단열(single row)에 상응하는 것은 무엇일까? 이들은 각 나무 한 그루에 특정 감정인을 두지 않는다. 할 수 있는 한 자세한 단위로 데이터를 확보하는 것, 그러면서도 넓은 범위의 데이터를 손에 넣는 것, 그리고 그 둘 사이의 균형을 맞추는 일이다” 라고 데일산드로는 말했다.

궁극적으로, 이들은 도시의 한 블록을 기본 단위로 정하는 데 합의했다. m6d의 CEO 덕분에, 데일산드로는 업무 시간 일부를 데이터를 다운로드하고, 정리하고, 합치고, 분석하는 데 쓸 수 있었다. 심지어 회사의 고성능 서버 인프라스트럭처를 사용해 집중 모델링을 할 수도 있었다. 그리고 그는 뉴욕 시의 문제에 대한 해답을 찾았다. 나무를 가지치기하면 관련 부처에서 비상시에 직원을 보내야 하는 횟수가 22% 가량 줄어들었던 것이다.

“올 해 가지치기를 한 블록의 경우 내년에 위험 사고 발생 확률이 22% 가량 낮을 것이다. 이렇게 구체적인 정보가 나온 것은 처음이라고들 했다”라고 데일산드로는 말했다.

분석을 사용해 리스크 프로파일 만들기
중요한 첫 걸음이긴 하지만, 이 숫자는 시작일 뿐이다. 어쨌거나 뉴욕 시에는 이미 가지치기 프로그램이 있으니 말이다. 하지만 뉴욕 시 같은 대도시도 모든 블록을 해마다 가지치기 하기에는 자원이 부족하다. 때문에 관련 부처에서는 어느 구역을 먼저 가지치기 할 것인지 결정해야 한다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.