Offcanvas

BI / 빅데이터 | 애널리틱스

‘퍼즐 맞추기와 빅 데이터 분석은 유사’••• IBM 과학자 주장

2012.03.27 Joab Jackson  |  IDG News Service
IBM의 한 과학자가 데이터 분석과 퍼즐 맞추기의 유사점을 주장했다.

“현대의 대규모 데이터 분석은 첨단 프로젝트일 수 있지만 현명한 데이터 과학자는 간단한 그림 퍼즐을 어떻게 해결하는지 관찰함으로써 기술을 향상시킬 수 있다.” 이는 최근 열렸던 기가옴(GigaOm) 컨퍼런스에서 IBM의 과학자가 주장한 내용이다.

IBM의 본질 분석 수석 과학자 제프 조나스에 따르면, 사람들이 그림 퍼즐을 어떻게 맞추는지 보면 IBM이 빅 데이터 분석에 도입할 수 있는 많은 심오한 효과를 알 수 있다고 한다. 그는 지난 21일 뉴욕에서 열린 데이터 구조 컨퍼런스에서 기발한 프레젠테이션을 발표했다.

데이터 분석은 많은 기업들에게 더욱 중요한 구성 요소가 되고 있다. IDC는 기업들이 2015년까지 분석 시스템에 1,200억 달러 이상을 투자할 것으로 내다보고 있다. IBM은 2015년까지 기업 분석 매출이 160억 달러에 이를 것으로 전망하고 있다.

하지만 이런 시스템에서 유용한 결과를 얻기 위해서는 신중한 계획이 필요하다.

비공식적인 일련의 실험에서 조나스는 소규모 친구와 가족 집단이 협력해 수천 개의 조각으로 이뤄진 그림 퍼즐을 어떻게 맞추는지 관찰했다.

"여자친구의 아들과 3명의 사촌이 함께 퍼즐을 맞추는 모습을 보았는데 나는 여기서 4개의 프로세서 파이프라인을 발견했다"라고 그는 말했다. 그는 문제의 난이도를 높이기 위해 몇몇 퍼즐 조각을 숨기고 일부 퍼즐의 중복된 조각을 포함해 놓았다.

퍼즐은 작은 그림 조각들을 하나의 큰 그림으로 맞추는 것이다. 여러모로 이것은 데이터 분석의 목표기도 하며, 더 큰 패턴을 보여주도록 데이터를 조합하는 방법을 찾아내는 것이라 할 수 있다.

많은 기업들이 ‘픽셀 분석’을 실행하면서 단일 데이터 포인트에서 너무 많은 것을 얻으려 하는 실수를 범한다고 조나스는 전했다. “문제는 짧은 시간 안에 너무 많은 분석이 이뤄지면 데이터를 이해하기 위한 충분한 환경이 조성되지 않는다"라고 그는 말했다.

조나스는 환경이란 데이터 자체에 더해 데이터 주변에 무엇이 있는지 관찰하는 것이라고 설명했다. 겉으로 보기에 쓸모 없는 데이터를 너무 많이 떼어내고 걸러내면 가치가 큰 환경을 잃을 수도 있다. 그는 “우리가 ‘Bat(박쥐, 야구 방망이, 눈의 깜빡임 등)’라는 단어를 볼 때 주변의 데이터를 관찰해 해당 단어가 무엇을 의미하는지 파악한다”라고 말했다.

"품질이 낮은 데이터가 도움이 될 수도 있다. 이 때 너무 과하게 걸러내지 않은 것을 다행으로 여길 것이다"라고 조나스는 밝혔다. 구글은 이런 접근 방식의 장점을 취하는 회사다. 검색 엔진에 잘못된 철자의 단어를 입력하면 "찾으시는 것이 이것인가요?"라는 제안 문구가 나타난다. 구글은 정확한 단어라고 추정하는 것에 관한 결과를 제공한다. 구글은 제대로 입력되지 않은 쿼리의 백로그(Backlog)를 이용해 정확한 단어를 추측한다.

퍼즐의 경우, 사용자는 우선 하나의 조각을 다른 것과 맞추는 것에 집중한다. 시간이 지나면서 작은 데이터 덩어리들을 구성하게 되고 퍼즐을 완료하기 위해서 어떻게 서로 짜맞추어야 하는지 알게 된다. 가장자리와 모서리 부분은 꽤나 빠르게 조립된다. 실제로는 퍼즐이 점차 완성돼 가면서 "이전보다 더 빠른 품질 결정을 내리게 된다"라고 조나스는 말했다. 조각의 위치를 파악하는 연산 비용이 감소하게 된다는 게 그의 설명이다.

Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.