Offcanvas

BI / 빅데이터 | 애널리틱스

‘퍼즐 맞추기와 빅 데이터 분석은 유사’••• IBM 과학자 주장

2012.03.27 Joab Jackson  |  IDG News Service


그는 자신의 팀이 잘못된 퍼즐을 맞추는 걸 보면서 몇 가지 흥미로운 특성을 발견했다. 그 중 한 가지는 퍼즐이 클수록 완성에 더 많은 시간이 소요된다는 것이다. "작업 공간이 늘어나면서 연산 노력도 증가한다"라고 그는 말했다. 모호성 역시 연산의 복잡성을 가중시킨다. 동일한 모양과 색상을 가진 퍼즐 조각은 서로 다른 모양과 색상을 가진 조각들보다 맞추기 어려웠다.

"과도한 모호성은 연산 비용을 상당히 증가시킨다"라고 조나스는 말했다.

또한 조나스는 퍼즐의 이미지에 관해 파악하는데 얼마나 적은 정보가 필요한지에 놀랐다. 그의 팀은 4개의 조각을 맞춘 후에 그 퍼즐이 라스베가스(Las Vegas)의 경치를 묘사하고 있다고 추측할 수 있었다. "그리 많은 정보가 필요하지 않았다"라고 그는 전했다. 퍼즐의 50%를 맞추자 퍼즐 전체의 이미지를 떠올릴 수 있었다. 이것은 연구하는 모든 데이터를 수집할 수 없는 기업들에 희소식이다. 말하자면 통계적 표본추출만으로도 큰 그림을 알 수 있는 것이다.

"관찰 공간이 절반 이하일 때 전체적인 그림에 관해 충분한 윤곽을 잡을 수 있다"라고 조나스는 말했다.

또한 조나스는 팀이 어떻게 퍼즐을 완성하는지 연구하면서 배치(Batch) 처리에 관해 새로운 평가를 내리게 되었다.

분석의 핵심은 스트리밍 및 배치 처리의 혼합이다. 아파치 하둡(Apache Hadoop) 데이터 프레임워크는 하나의 정적 파일에서 많은 데이터가 분석되는 배치 처리를 위해 설계됐다. 이것은 지속적으로 업데이트 되는 데이터의 문자열을 관찰하는 스트림 처리와는 다르다. "이 프로젝트 이전에는 작은 배치 작업의 중요성을 몰랐다"라고 그는 말했다.

배치 처리는 "심오한 심사숙고"와 같다고 조나스가 말했다. "이것은 집에 있는 소파에 앉아 이미 알고 있는 것을 숙고하는 것과 다르지 않다"라고 그는 주장했다. 참여자는 각 퍼즐 조각을 쳐다보는 대신에 전체 퍼즐이나 조각들을 맞춰 더 큰 덩어리들이 어떻게 서로 맞출 수 있는지 파악하기 위해 노력하기 때문이다.

기업의 경우 이런 사실이 명확히 적용된다고 조나스는 설명했다. 그들은 데이터를 우연히 얻어진 것으로써 분석하지만 이런 분석은 더 심오한 배치 처리로 생성된 결과를 알려줘야 한다고 그는 말했다.

조나스의 이야기가 다소 불손해 보일 수 있지만 데이터 분석에서 많은 중요한 교훈을 설명하고 있다고 이 세션에 참여했던 텍스트 및 문맥 분석을 전문으로 하는 애널리스트 세스 그림스는 말했다. 가장 중요한 교훈은 데이터가 중요하다는 점이다. 환경은 축적되고 데이터의 실시간 스트림은 더 심오한 분석을 통해 증가돼야 한다.

"이것들은 굉장한 교훈이며 매우 효과적으로 논의됐다"라고 그림스는 덧붙였다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.