2012.07.13

기고 | ‘논의에서 현실로’ 빅 데이터 구체화 7단계

Jill Dyché | Network World

* 한 벤더가 제작한 이 기술 입문서에 본지가 상품 홍보 관련 내용을 삭제하여 편집했다. 독자들에게 벤더들의 시각을 알려주는데 도움이 될 것이라 기대한다.

‘빅 데이터’ 트렌드는 점점 더 증가하는 대규모 데이터 프로세스에 대한 요구를 대변한다. 또한 이는 우리에게 기존과는 다른 데이터베이스 관련 테크놀로지 솔루션을 요구하고 있기도 하다. 그렇다면, 빅 데이터 속으로 뛰어들기 위해 기업들은 어떤 것들을 따져봐야 할까?

우선, 그들은 빅 데이터가 무엇인지부터 알아야 할 것이다. 여기 간단한 정의를 소개한다.

‘막대한 양의 정형, 비정형 데이터를 보다 빠르고 경제적으로 수집, 처리, 발견, 저장하는 새로운 테크놀로지 및 방법론'

IT 분야에서 빅 데이터와 관련한 연구는 점점 더 활발히 진행되고 있다. 그리고 논의 대부분은 스택과 프로세싱 속도, 그리고 플랫폼에 초점이 맞춰져 있다.

기업들은 이러한 과정을 진행하는데 기존의 기술만으로는 한계가 있음을 정확히 인식하고 있다. 그러나 동시에 비즈니스에 이를 대체할 솔루션의 가치를 설명하는 것은커녕 자신들이 확인한 데이터를 분류하고 이들 사이에 우선순위를 설정할 방법을 이해하는 데에도 어려움을 겪고 있다. 빅 데이터 관리의 세계 속으로 들어가 보자.

사실 빅 데이터의 필요성 증대를 논하는 과정에서 플랫폼이나 프로세스에 관한 논의는, 전반적인 빅 데이터 전달에 접근하는 과정의 일부분에 불과하다. 여기 빅 데이터 개발 노력이 어떤 잠재력을 지니고 있는지 확인시켜 줄 일곱 단계를 소개한다.

수집: 데이터 소스들로부터 수집 된 데이터는 복수의 노드(nod)로 분배 되며 각각의 노드는 데이터 서브셋(data subset)을 병렬로 처리한다.

처리: 시스템 역시 마찬가지로 고성능의 병렬성(parallelism)을 통해 각 노드의 데이터를 고속으로 계산한다. 노드들은 산출된 결과 데이터를 인간(애널리틱스)과 기계(대용량 결과 해석) 모두가 사용할 수 있는 보다 활용성이 높은 데이터 셋으로 ‘줄인다'.

관리: 종종 빅 데이터는 서로 다른 업무 시스템들에서 독립적으로 처리되기도 한다. 때문에 관리자에게는 이를 이해하고 정의하며 분류하는, 그리고 정리하고 감사하는 모든 과정에서 안정성 확보에 주의를 기울여야 할 필요가 있다.

측정: 기업들은 종종 이러한 데이터가 소비자 행동 양식이나 기록과 어느 정도의 수준으로 통합될 지, 그리고 통합이나 교정 수준이 증가할 것인지를 측정하게 될 것이다. 이 때 비즈니스 기준(business requirement)은 측정 및 진행 중인 추적 과정의 유형을 알리는 역할을 해야 한다.

소비: 도출된 데이터의 사용은 프로세싱의 최초 기준에 부합해야 한다. 예를 들어, 소셜 미디어 활동과 관련한 수 테라바이트 규모의 데이터를 수집한다면, 그 속에서 소셜 미디어 데이터와 소비자 구매 욕구 증대라는 두 변수 사이의 상관 관계를 끄집어내 이해할 수 있어야 할 것이다. 또한 소셜 미디어 데이터에 대한 접근 및 업데이트 기준 역시 수립해야 할 필요가 있다. 이는 기기 간 데이터 접속(machine-to-machine data access) 과정에 있어서도 중요한 역할을 한다.

저장: ‘서비스로써의 데이터(data as a service)’라는 새로운 트렌드가 정립되어감에 따라, 데이터의 저장이 단기적 일괄 처리 방식이나 장기적 유지 방식 중 어느 것을 따르던 저장 솔루션의 선택에 신중을 기해야 함은 변함 없는 사실일 것이다.

데이터 거버넌스: 데이터 거버넌스는 비즈니스 주도의 정책 수립 및 데이터 관리 과정이다. 이러한 정의에 따라 데이터 거버넌스는 위에 소개된 6개의 빅 데이터 전달 단계에 적용되게 된다. 이는 프로세스와 기준 지침을 수립하며 데이터와 관련한 행동 양식을 결정한다.
 

 




2012.07.13

기고 | ‘논의에서 현실로’ 빅 데이터 구체화 7단계

Jill Dyché | Network World

* 한 벤더가 제작한 이 기술 입문서에 본지가 상품 홍보 관련 내용을 삭제하여 편집했다. 독자들에게 벤더들의 시각을 알려주는데 도움이 될 것이라 기대한다.

‘빅 데이터’ 트렌드는 점점 더 증가하는 대규모 데이터 프로세스에 대한 요구를 대변한다. 또한 이는 우리에게 기존과는 다른 데이터베이스 관련 테크놀로지 솔루션을 요구하고 있기도 하다. 그렇다면, 빅 데이터 속으로 뛰어들기 위해 기업들은 어떤 것들을 따져봐야 할까?

우선, 그들은 빅 데이터가 무엇인지부터 알아야 할 것이다. 여기 간단한 정의를 소개한다.

‘막대한 양의 정형, 비정형 데이터를 보다 빠르고 경제적으로 수집, 처리, 발견, 저장하는 새로운 테크놀로지 및 방법론'

IT 분야에서 빅 데이터와 관련한 연구는 점점 더 활발히 진행되고 있다. 그리고 논의 대부분은 스택과 프로세싱 속도, 그리고 플랫폼에 초점이 맞춰져 있다.

기업들은 이러한 과정을 진행하는데 기존의 기술만으로는 한계가 있음을 정확히 인식하고 있다. 그러나 동시에 비즈니스에 이를 대체할 솔루션의 가치를 설명하는 것은커녕 자신들이 확인한 데이터를 분류하고 이들 사이에 우선순위를 설정할 방법을 이해하는 데에도 어려움을 겪고 있다. 빅 데이터 관리의 세계 속으로 들어가 보자.

사실 빅 데이터의 필요성 증대를 논하는 과정에서 플랫폼이나 프로세스에 관한 논의는, 전반적인 빅 데이터 전달에 접근하는 과정의 일부분에 불과하다. 여기 빅 데이터 개발 노력이 어떤 잠재력을 지니고 있는지 확인시켜 줄 일곱 단계를 소개한다.

수집: 데이터 소스들로부터 수집 된 데이터는 복수의 노드(nod)로 분배 되며 각각의 노드는 데이터 서브셋(data subset)을 병렬로 처리한다.

처리: 시스템 역시 마찬가지로 고성능의 병렬성(parallelism)을 통해 각 노드의 데이터를 고속으로 계산한다. 노드들은 산출된 결과 데이터를 인간(애널리틱스)과 기계(대용량 결과 해석) 모두가 사용할 수 있는 보다 활용성이 높은 데이터 셋으로 ‘줄인다'.

관리: 종종 빅 데이터는 서로 다른 업무 시스템들에서 독립적으로 처리되기도 한다. 때문에 관리자에게는 이를 이해하고 정의하며 분류하는, 그리고 정리하고 감사하는 모든 과정에서 안정성 확보에 주의를 기울여야 할 필요가 있다.

측정: 기업들은 종종 이러한 데이터가 소비자 행동 양식이나 기록과 어느 정도의 수준으로 통합될 지, 그리고 통합이나 교정 수준이 증가할 것인지를 측정하게 될 것이다. 이 때 비즈니스 기준(business requirement)은 측정 및 진행 중인 추적 과정의 유형을 알리는 역할을 해야 한다.

소비: 도출된 데이터의 사용은 프로세싱의 최초 기준에 부합해야 한다. 예를 들어, 소셜 미디어 활동과 관련한 수 테라바이트 규모의 데이터를 수집한다면, 그 속에서 소셜 미디어 데이터와 소비자 구매 욕구 증대라는 두 변수 사이의 상관 관계를 끄집어내 이해할 수 있어야 할 것이다. 또한 소셜 미디어 데이터에 대한 접근 및 업데이트 기준 역시 수립해야 할 필요가 있다. 이는 기기 간 데이터 접속(machine-to-machine data access) 과정에 있어서도 중요한 역할을 한다.

저장: ‘서비스로써의 데이터(data as a service)’라는 새로운 트렌드가 정립되어감에 따라, 데이터의 저장이 단기적 일괄 처리 방식이나 장기적 유지 방식 중 어느 것을 따르던 저장 솔루션의 선택에 신중을 기해야 함은 변함 없는 사실일 것이다.

데이터 거버넌스: 데이터 거버넌스는 비즈니스 주도의 정책 수립 및 데이터 관리 과정이다. 이러한 정의에 따라 데이터 거버넌스는 위에 소개된 6개의 빅 데이터 전달 단계에 적용되게 된다. 이는 프로세스와 기준 지침을 수립하며 데이터와 관련한 행동 양식을 결정한다.
 

 


X