2016.07.08

'그새 또 만들어냈네' 데이터 분야 신조어 6가지

Katherine Noyes | IDG News Service
겁먹지 마시라! 전문용어는 어렵지 않다. 그럴 듯해 보이는 것뿐이다.


패스트 데이터? 슬로 데이터? 출처 : Dennis Hill

비즈니스와 IT업계에서 유행하는 트렌드를 뒤쫒아 다녀보고, 돈 좀 벌어보겠다는 수많은 벤더와 컨설턴트와 함께 일하다보면 저절로 알게 되는 것이 있다. 무수히 많고 정의도 불분명한 전문용어들이다.

최근에는 빅데이터 세계에서 데이터 종류를 가리키는 그럴 듯한 각종 신조어가 생겨나고 있다. 이참에 확실히 알아두고 싶다면 데이터 유형과 관련된 다음의 용어들이 도움이 될 것이다.

1. 패스트 데이터
데이터 유형 용어 중에서도 가장 돋보이는 용어는 최근 빈도가 급증한 단어인 '패스트 데이터'일 것이다. 오범의 수석 애널리스트인 토니 배어는 지난 2012년 이 용어를 만들면서 "패스트 데이터는 시간이 지나면 유용성이 줄어들 수밖에 없는 데이터를 가리킨다"라고 소개했다.

패스트 데이터에는 수집과 분석이 실시간으로 이뤄지고 결정과 반응이 즉각적으로 발생하는 트위터 피드나 스트리밍 데이터와 같은 데이터가 해당된다. 특히 자본시장 거래기업의 경우 알고리즘 거래 또는 고빈도 거래 시 패스트 데이터를 적극 이용할 수 있다.

엔터프라이즈 스트래티지 그룹의 상임 애널리스트인 닉 로우다는 "패스트 데이터는 패스트 인제스트, 패스트 스트리밍, 패스트 프리퍼레이션, 패스트 애널리틱스, 패스트 사용자 반응으로 구성된다"라면서 "흔한 마케팅 수법이지만 기능을 다양한 방식으로 분류할 필요는 있다"라고 말했다.

배어는 대역폭이 넓어지고 하드웨어 제품이 다양해지고 메모리 가격이 하락하고 실시간 분석이 발전하면서 패스트 데이터가 등장하게 됐다고 말했다.

2. 슬로 데이터
패스트 데이터와 정반대에 있는 단어 '슬로 데이터'는 비교적 느린 속도로 수집되는 데이터를 일컫는 말로 분석 빈도가 낮다. 배어는 “일례로 해안가의 조수 활동을 모니터링하는 기기를 꼽으면서 슬로 데이터는 대부분의 경우 실시간 업데이트가 필수적이지 않다”라고 말했다.

일반적으로 이러한 유형의 데이터는 데이터 레이크 및 후속 일괄 처리 작업 과정에서 수집된다.

3. 스몰 데이터
애널리틱스 컨설팅업체 KD너게츠의 대표인 그레고리 피아테츠키-샤피로는 "스몰 데이터는 1개의 노트북에서만 적합한 데이터"라고 설명했다.

로우다는 이 용어의 경우 오늘날의 데이터 분석 현실과 맞물려 있다고 소개했다. 그는  "1개 또는 고작 몇 개의 데이터 소스에서 얻은 데이터를 노트북에서 간단한 앱(대부분 엑셀)을 통해, 분석하고 있는 상황"이 반영돼 있다고 말했다.

4. 미디엄 데이터
'미디엄 데이터'는 말 그대로 중간급 데이터다.

배어에 따르면 흔히들 PB급 데이터, 즉 빅데이터를 분석할 때 하둡이나 맵알리듀스 등의 기술을 활용한다. 그러나 "애널리틱스로 처리하는 문제 대부분이 페타바이크급 데이터를 다뤄야 하는 것은 아니"라고 그는 덧붙였다. 분석 시 중간 규모의 데이터, 즉 미디엄 데이터를 활용하는 경우 아파치 스파크가 좋은 대안일 수 있다. 

5. 다크 데이터
'다크 데이터'는 일반적으로 많이 사용되지 않는 저평가된 데이터를 가리킨다.

로우다는 다크 데이터와 관련해 "사람들은 데이터가 있는지도 모르고, 접근 불허 상태가 아닌데도 데이터에 어떻게 접근해야 하는지 모른다. 데이터 활용에 필요한 시스템이 개발되지 않은 경우도 있다"라고 설명했다. 그는 이런 일이 데이터베이스, 데이터 웨어하우스, 데이터 레이크에서 '너무 자주' 발생한다고 덧붙였다.

이처럼 관리가 제대로 이뤄지지 않고 널리 활용되지 않는 데이터 풀을 흔히 '다크 웹'이라고 부른다. 배어는 이러한 데이터를 잘 활용하려면, 데이터 디스커버리 서비스 영역 안에서 머신러닝 알고리즘을 활용하면 된다고 조언했다.

6. 더티 데이터
마지막 주요 데이터 유형으로 '더티 데이터'가 있다. 더티 데이터는 이름처럼 이상한 데이터가 아니라 단순히 정리되지 않은 데이터를 가리키는 말이다.

배어는 "어떤 사물이든 정리하기 전에는 더럽기 마련이다"라면서 "마찬가지로 데이터를 처리하지 않는다면 정리될 수가 없다"라고 말했다.

로우다는 "이러한 처리에는 준비, 강화, 변형이 포함된다"라면서 처리 과정에서 "제대로 처리되지 않는다면 잘못된 답변으로 이어질 수 있다"라고 말했다.

마지막으로 하나 더
사업을 키우기 위해 데이터를 사용하려면 이러한 신조어를 이해하는 것 이외에도 많은 것을 알아야 한다.

포레스터의 부사장인 브라이언 홉킨스는 "데이터를 활용할 수 있는 상황과 데이터를 심층 분석 자료로 활용할 수 있는 능력에는 차이가 있다"라고 말했다. 그는 이 차이를 좁혀 나가려면 하둡을 사용하거나, 간단한 셀프 서비스 툴을 활용할 수 있어야 한다고 조언했다. 둘 다 성과를 거두려면 꼭 필요한 능력이다.

그는 "벤더와 애널리스트는 그럴 듯한 신조어를 만들어 내는 데 능하다"라고 말했다. 이러한 용어에 현혹되지 말아야 하며, CIO들은 사업을 변화시켜줄 결과물에만 집중해야 한다고 조언했다. ciokr@idg.co.kr



2016.07.08

'그새 또 만들어냈네' 데이터 분야 신조어 6가지

Katherine Noyes | IDG News Service
겁먹지 마시라! 전문용어는 어렵지 않다. 그럴 듯해 보이는 것뿐이다.


패스트 데이터? 슬로 데이터? 출처 : Dennis Hill

비즈니스와 IT업계에서 유행하는 트렌드를 뒤쫒아 다녀보고, 돈 좀 벌어보겠다는 수많은 벤더와 컨설턴트와 함께 일하다보면 저절로 알게 되는 것이 있다. 무수히 많고 정의도 불분명한 전문용어들이다.

최근에는 빅데이터 세계에서 데이터 종류를 가리키는 그럴 듯한 각종 신조어가 생겨나고 있다. 이참에 확실히 알아두고 싶다면 데이터 유형과 관련된 다음의 용어들이 도움이 될 것이다.

1. 패스트 데이터
데이터 유형 용어 중에서도 가장 돋보이는 용어는 최근 빈도가 급증한 단어인 '패스트 데이터'일 것이다. 오범의 수석 애널리스트인 토니 배어는 지난 2012년 이 용어를 만들면서 "패스트 데이터는 시간이 지나면 유용성이 줄어들 수밖에 없는 데이터를 가리킨다"라고 소개했다.

패스트 데이터에는 수집과 분석이 실시간으로 이뤄지고 결정과 반응이 즉각적으로 발생하는 트위터 피드나 스트리밍 데이터와 같은 데이터가 해당된다. 특히 자본시장 거래기업의 경우 알고리즘 거래 또는 고빈도 거래 시 패스트 데이터를 적극 이용할 수 있다.

엔터프라이즈 스트래티지 그룹의 상임 애널리스트인 닉 로우다는 "패스트 데이터는 패스트 인제스트, 패스트 스트리밍, 패스트 프리퍼레이션, 패스트 애널리틱스, 패스트 사용자 반응으로 구성된다"라면서 "흔한 마케팅 수법이지만 기능을 다양한 방식으로 분류할 필요는 있다"라고 말했다.

배어는 대역폭이 넓어지고 하드웨어 제품이 다양해지고 메모리 가격이 하락하고 실시간 분석이 발전하면서 패스트 데이터가 등장하게 됐다고 말했다.

2. 슬로 데이터
패스트 데이터와 정반대에 있는 단어 '슬로 데이터'는 비교적 느린 속도로 수집되는 데이터를 일컫는 말로 분석 빈도가 낮다. 배어는 “일례로 해안가의 조수 활동을 모니터링하는 기기를 꼽으면서 슬로 데이터는 대부분의 경우 실시간 업데이트가 필수적이지 않다”라고 말했다.

일반적으로 이러한 유형의 데이터는 데이터 레이크 및 후속 일괄 처리 작업 과정에서 수집된다.

3. 스몰 데이터
애널리틱스 컨설팅업체 KD너게츠의 대표인 그레고리 피아테츠키-샤피로는 "스몰 데이터는 1개의 노트북에서만 적합한 데이터"라고 설명했다.

로우다는 이 용어의 경우 오늘날의 데이터 분석 현실과 맞물려 있다고 소개했다. 그는  "1개 또는 고작 몇 개의 데이터 소스에서 얻은 데이터를 노트북에서 간단한 앱(대부분 엑셀)을 통해, 분석하고 있는 상황"이 반영돼 있다고 말했다.

4. 미디엄 데이터
'미디엄 데이터'는 말 그대로 중간급 데이터다.

배어에 따르면 흔히들 PB급 데이터, 즉 빅데이터를 분석할 때 하둡이나 맵알리듀스 등의 기술을 활용한다. 그러나 "애널리틱스로 처리하는 문제 대부분이 페타바이크급 데이터를 다뤄야 하는 것은 아니"라고 그는 덧붙였다. 분석 시 중간 규모의 데이터, 즉 미디엄 데이터를 활용하는 경우 아파치 스파크가 좋은 대안일 수 있다. 

5. 다크 데이터
'다크 데이터'는 일반적으로 많이 사용되지 않는 저평가된 데이터를 가리킨다.

로우다는 다크 데이터와 관련해 "사람들은 데이터가 있는지도 모르고, 접근 불허 상태가 아닌데도 데이터에 어떻게 접근해야 하는지 모른다. 데이터 활용에 필요한 시스템이 개발되지 않은 경우도 있다"라고 설명했다. 그는 이런 일이 데이터베이스, 데이터 웨어하우스, 데이터 레이크에서 '너무 자주' 발생한다고 덧붙였다.

이처럼 관리가 제대로 이뤄지지 않고 널리 활용되지 않는 데이터 풀을 흔히 '다크 웹'이라고 부른다. 배어는 이러한 데이터를 잘 활용하려면, 데이터 디스커버리 서비스 영역 안에서 머신러닝 알고리즘을 활용하면 된다고 조언했다.

6. 더티 데이터
마지막 주요 데이터 유형으로 '더티 데이터'가 있다. 더티 데이터는 이름처럼 이상한 데이터가 아니라 단순히 정리되지 않은 데이터를 가리키는 말이다.

배어는 "어떤 사물이든 정리하기 전에는 더럽기 마련이다"라면서 "마찬가지로 데이터를 처리하지 않는다면 정리될 수가 없다"라고 말했다.

로우다는 "이러한 처리에는 준비, 강화, 변형이 포함된다"라면서 처리 과정에서 "제대로 처리되지 않는다면 잘못된 답변으로 이어질 수 있다"라고 말했다.

마지막으로 하나 더
사업을 키우기 위해 데이터를 사용하려면 이러한 신조어를 이해하는 것 이외에도 많은 것을 알아야 한다.

포레스터의 부사장인 브라이언 홉킨스는 "데이터를 활용할 수 있는 상황과 데이터를 심층 분석 자료로 활용할 수 있는 능력에는 차이가 있다"라고 말했다. 그는 이 차이를 좁혀 나가려면 하둡을 사용하거나, 간단한 셀프 서비스 툴을 활용할 수 있어야 한다고 조언했다. 둘 다 성과를 거두려면 꼭 필요한 능력이다.

그는 "벤더와 애널리스트는 그럴 듯한 신조어를 만들어 내는 데 능하다"라고 말했다. 이러한 용어에 현혹되지 말아야 하며, CIO들은 사업을 변화시켜줄 결과물에만 집중해야 한다고 조언했다. ciokr@idg.co.kr

X