2013.07.01

가트너 기고 | 빅 콘텐츠: 빅 데이터의 비정렬적 측면 관리

Darin Stewart | CIO KR
정보 홍수 시대가 서서히 끝나가고 있다. 기업들이 이제 대량의 데이터, 콘텐츠 및 정보를 처리하는데 익숙해지고 있다. 정보 생성 속도가 계속 빨라지고 있지만 그 속도에 걸맞는 정보 관리 인프라와 역량은 곧 현실화를 앞두고 있다.

이제 빅 데이터(Big data)는 저주가 아닌 축복이다. 그렇다 하더라도 정보 관리가 전면적인 정보 활용과 같을 순 없다. 빅 데이터 기술이 기업 데이터에 숨겨져 있던 비밀을 밝혀내고 있지만, 잠재적 통찰 및 지식 자원의 보고인 ‘빅 콘텐츠’는 아직까지도 많은 부분 활용되지 않고 있다.

비정형(Unstructured) 콘텐츠는 기업 총 정보 자산의 최대 80%를 차지한다. 빅 데이터 기술이 비정형 정보 탐색에 적합함에도 불구하고, 빅 콘텐츠(Big Content)는 상당 부분 활용되지 못한 채 미개척 분야로 남아있다.

가트너는 비정형 데이터를 기존의 정형화된 특정 데이터 모델을 따르지 않는 콘텐츠로 정의한다. 비정형 데이터는 인간이 생성한 사람 기반의 콘텐츠로 데이터베이스 테이블에 딱 들어맞지 않는 경향이 있다.

기업 내 비정형 콘텐츠는 주로 보고서, 프리젠테이션, 엑셀 시트 등과 같은 비즈니스 문서, 이메일, 웹 콘텐츠 등 다양한 형태로 존재한다. 각각의 콘텐츠 소스에는 이들을 뒷받침하는 관리 규칙들이 존재한다.

예를 들어, 비즈니스 문서는 처음부터 끝까지 ECM 플랫폼으로 관리되며 이메일의 경우, 다른 텍스트 기반의 커뮤니케이션 채널과 함께 관리, 관찰 및 저장된다. 더욱 정교해지는 웹 콘텐츠 역시 그 만큼 정교해진 웹 콘텐츠 관리(Web Content Management) 툴로 관리된다.

각각의 플랫폼은 분석 및 탐색보다 관리와 유지에 집중한다. 해당 플랫폼은 대상 콘텐츠에 고급 분석 및 탐색 기능을 제공하기 위한 것이 아니며 그럴 수도 없지만, 빅 콘텐츠 인프라를 뒷받침하는 탄탄한 기반을 제공할 수는 있다.

기업이 소유하고, 운영하는 정보는 빅 콘텐츠 중 일부에 불과하다. 빅 콘텐츠에 잠재된 통찰 및 지식은 공공 정보가 기업정보와 더불어 증가 및 향상되면서 현격히 늘어난다.

소셜 스트림 상의 콘텐츠는 고객의 감정과 생각에 직접 연결되어 있으며 블로그, 트윗, 댓글, 별점 등은 특정 시점의 대중 정서를 반영한다.

뉴스 기사, 제품 정보 및 기업 정보 웹페이지 등과 같은 전통적인 웹 콘텐츠 또한 다듬고, 관리 하면 기업 내부 연구의 자원이 될 수 있다.

공공 영역에서 공식적인 데이터 소스도 등장하고 있는데 미국 정부의 스마트 공개(smart disclosure) 정보 형태 혹은 전세계의 링크드 오픈 데이터(LOD, Linked Open Data) 형태가 대표적이다.

이러한 모든 비정형 혹은 준정형 정보 소스는 빅 콘텐츠 관점에서 접근할 때 기업 정보 자원과 더불어 가치 있는 정보가 된다.

가트너는 빅 데이터 기술 및 테크닉을 비정형 정보 자원에 적용하는 방법을 연구 중인데 이것을 ‘빅 콘텐츠’라 부른다.

빅 콘텐츠는 빅 데이터 기술과 고급 콘텐츠 관리 및 기업용 검색의 고유 기능을 결합해 이전엔 존재하지 않았던 방식으로 통찰 및 지식을 발견할 수 있도록 한다.

내부 문서, 이메일 및 협업 산출물을 공공 웹과 블로그, 트윗, 상태 업데이트와 같은 소셜 콘텐츠와 결합해 제품과 관련된 이슈를 문제화 되기 이전에 발견할 수 있다.

또 특정 목적 하에 구축된 통합 검색 인덱스와 애플리케이션이 기업 전반의 혁신 지표를 모으고 기업이 더 커진 시장 및 특허 환경에 적응할 수 있는 통합적인 시각을 제공함으로써 지적 재산권 등재를 이끌 수 있다.

의사의 진료 기록, 전자 건강 기록 및 보험 청구 기록 등을 활용해 환자 개개인에게 맞춤화된 치료 계획을 수립 할 수도 있다.

빅 콘텐츠 활용 사례를 가능하게 할 기본 재료는 이미 기업내부에 존재한다. 다수의 기업이 솔루션 구축에 있으며, 그 결과 과거에 풀지 못한 여러 문제들의 해답을 찾고 있다.

빅 데이터와 빅 콘텐츠로 해답과 통찰을 얻기 위해서는 많은 노력과 비용이 따른다. 기업에 비정형 콘텐츠가 넘쳐나더라도 대체로 분산되어 있고, 체계적인 정리나 관리가 되어 있지 않다.

콘텐츠 관리 시스템(CMS)과 기업용 검색 엔진이 구축되어 있지만 이는 분석을 위한 것이 아니다. 두 가지 모두 빅 콘텐츠 솔루션에 필요한 요소라고는 해도 이것 만으로는 충분하지 않다.

빅 데이터 기술을 활용해 그 간격을 메울 수 있겠지만 원숙한 빅 데이터 관행을 갖추는 것으로는 부족하다. 반드시 비정형 콘텐츠에만 해당되는 추가적 요인을 고려하고 다뤄야 할 필요가 있다.

비즈니스 해답은 기업 전반에 흩어져 있는 비정형 콘텐츠 안에 있는 경우가 많다. 그러나 정보 자산이 균일하지 않고 접근이 불가능하기 때문에 통찰을 얻기란 쉽지 않다.

향상된 빅 데이터 기술로 비정형 콘텐츠 자원을 정제하고, 조화시키고, 통합한다면 빅 콘텐츠는 기존에 정형적 데이터 자원에만 한정되었던 심층적이고 획기적인 분석을 비정형 데이터에서도 가능하게 할 것이다.

* Darin Stewart는 가트너 책임 연구원이다. ciokr@idg.co.kr




2013.07.01

가트너 기고 | 빅 콘텐츠: 빅 데이터의 비정렬적 측면 관리

Darin Stewart | CIO KR
정보 홍수 시대가 서서히 끝나가고 있다. 기업들이 이제 대량의 데이터, 콘텐츠 및 정보를 처리하는데 익숙해지고 있다. 정보 생성 속도가 계속 빨라지고 있지만 그 속도에 걸맞는 정보 관리 인프라와 역량은 곧 현실화를 앞두고 있다.

이제 빅 데이터(Big data)는 저주가 아닌 축복이다. 그렇다 하더라도 정보 관리가 전면적인 정보 활용과 같을 순 없다. 빅 데이터 기술이 기업 데이터에 숨겨져 있던 비밀을 밝혀내고 있지만, 잠재적 통찰 및 지식 자원의 보고인 ‘빅 콘텐츠’는 아직까지도 많은 부분 활용되지 않고 있다.

비정형(Unstructured) 콘텐츠는 기업 총 정보 자산의 최대 80%를 차지한다. 빅 데이터 기술이 비정형 정보 탐색에 적합함에도 불구하고, 빅 콘텐츠(Big Content)는 상당 부분 활용되지 못한 채 미개척 분야로 남아있다.

가트너는 비정형 데이터를 기존의 정형화된 특정 데이터 모델을 따르지 않는 콘텐츠로 정의한다. 비정형 데이터는 인간이 생성한 사람 기반의 콘텐츠로 데이터베이스 테이블에 딱 들어맞지 않는 경향이 있다.

기업 내 비정형 콘텐츠는 주로 보고서, 프리젠테이션, 엑셀 시트 등과 같은 비즈니스 문서, 이메일, 웹 콘텐츠 등 다양한 형태로 존재한다. 각각의 콘텐츠 소스에는 이들을 뒷받침하는 관리 규칙들이 존재한다.

예를 들어, 비즈니스 문서는 처음부터 끝까지 ECM 플랫폼으로 관리되며 이메일의 경우, 다른 텍스트 기반의 커뮤니케이션 채널과 함께 관리, 관찰 및 저장된다. 더욱 정교해지는 웹 콘텐츠 역시 그 만큼 정교해진 웹 콘텐츠 관리(Web Content Management) 툴로 관리된다.

각각의 플랫폼은 분석 및 탐색보다 관리와 유지에 집중한다. 해당 플랫폼은 대상 콘텐츠에 고급 분석 및 탐색 기능을 제공하기 위한 것이 아니며 그럴 수도 없지만, 빅 콘텐츠 인프라를 뒷받침하는 탄탄한 기반을 제공할 수는 있다.

기업이 소유하고, 운영하는 정보는 빅 콘텐츠 중 일부에 불과하다. 빅 콘텐츠에 잠재된 통찰 및 지식은 공공 정보가 기업정보와 더불어 증가 및 향상되면서 현격히 늘어난다.

소셜 스트림 상의 콘텐츠는 고객의 감정과 생각에 직접 연결되어 있으며 블로그, 트윗, 댓글, 별점 등은 특정 시점의 대중 정서를 반영한다.

뉴스 기사, 제품 정보 및 기업 정보 웹페이지 등과 같은 전통적인 웹 콘텐츠 또한 다듬고, 관리 하면 기업 내부 연구의 자원이 될 수 있다.

공공 영역에서 공식적인 데이터 소스도 등장하고 있는데 미국 정부의 스마트 공개(smart disclosure) 정보 형태 혹은 전세계의 링크드 오픈 데이터(LOD, Linked Open Data) 형태가 대표적이다.

이러한 모든 비정형 혹은 준정형 정보 소스는 빅 콘텐츠 관점에서 접근할 때 기업 정보 자원과 더불어 가치 있는 정보가 된다.

가트너는 빅 데이터 기술 및 테크닉을 비정형 정보 자원에 적용하는 방법을 연구 중인데 이것을 ‘빅 콘텐츠’라 부른다.

빅 콘텐츠는 빅 데이터 기술과 고급 콘텐츠 관리 및 기업용 검색의 고유 기능을 결합해 이전엔 존재하지 않았던 방식으로 통찰 및 지식을 발견할 수 있도록 한다.

내부 문서, 이메일 및 협업 산출물을 공공 웹과 블로그, 트윗, 상태 업데이트와 같은 소셜 콘텐츠와 결합해 제품과 관련된 이슈를 문제화 되기 이전에 발견할 수 있다.

또 특정 목적 하에 구축된 통합 검색 인덱스와 애플리케이션이 기업 전반의 혁신 지표를 모으고 기업이 더 커진 시장 및 특허 환경에 적응할 수 있는 통합적인 시각을 제공함으로써 지적 재산권 등재를 이끌 수 있다.

의사의 진료 기록, 전자 건강 기록 및 보험 청구 기록 등을 활용해 환자 개개인에게 맞춤화된 치료 계획을 수립 할 수도 있다.

빅 콘텐츠 활용 사례를 가능하게 할 기본 재료는 이미 기업내부에 존재한다. 다수의 기업이 솔루션 구축에 있으며, 그 결과 과거에 풀지 못한 여러 문제들의 해답을 찾고 있다.

빅 데이터와 빅 콘텐츠로 해답과 통찰을 얻기 위해서는 많은 노력과 비용이 따른다. 기업에 비정형 콘텐츠가 넘쳐나더라도 대체로 분산되어 있고, 체계적인 정리나 관리가 되어 있지 않다.

콘텐츠 관리 시스템(CMS)과 기업용 검색 엔진이 구축되어 있지만 이는 분석을 위한 것이 아니다. 두 가지 모두 빅 콘텐츠 솔루션에 필요한 요소라고는 해도 이것 만으로는 충분하지 않다.

빅 데이터 기술을 활용해 그 간격을 메울 수 있겠지만 원숙한 빅 데이터 관행을 갖추는 것으로는 부족하다. 반드시 비정형 콘텐츠에만 해당되는 추가적 요인을 고려하고 다뤄야 할 필요가 있다.

비즈니스 해답은 기업 전반에 흩어져 있는 비정형 콘텐츠 안에 있는 경우가 많다. 그러나 정보 자산이 균일하지 않고 접근이 불가능하기 때문에 통찰을 얻기란 쉽지 않다.

향상된 빅 데이터 기술로 비정형 콘텐츠 자원을 정제하고, 조화시키고, 통합한다면 빅 콘텐츠는 기존에 정형적 데이터 자원에만 한정되었던 심층적이고 획기적인 분석을 비정형 데이터에서도 가능하게 할 것이다.

* Darin Stewart는 가트너 책임 연구원이다. ciokr@idg.co.kr


X