Offcanvas

How To / 디지털 트랜스포메이션 / 빅데이터 | 애널리틱스

원석에서 보석을 추출하기··· 데이터 마이닝이란?

2017.08.29 Bob Violino  |  InfoWorld


- 연관 규칙 학습 (또는 장바구니 분석). 이러한 툴들을 데이터 세트 내의 다양한 변수들 간에 존재하는 관계를 찾아 낸다. 예를 들어 매장 내 어떤 제품들이 함께 구입되는 경향이 있는지 등을 본다.

- 군집화(Clustering). 군집화는 데이터 세트 내의 기존 구조를 사용하지 않고 유사한 데이터 간에 형성되는 구조 및 데이터 그룹을 식별해 내는 작업이다.

- 분류. 알려진 데이터 구조들을 일반화 하여 새로운 데이터 포인트에 적용한다. 예를 들어 이메일 애플리케이션이 특정 이메일이 스팸인지 아닌지를 판단하여 스팸 메일함으로 보내는 기전이 여기에 해당한다.

- 회귀 분석(Regression). 회귀 분석 테크닉은 세일즈, 주택 가치, 기온, 상품 가격 등 주어진 데이터 세트에서 구체적인 숫자를 예측해 내는 데 사용된다.

- 요약. 이 기술은 데이터 시각화, 보고서 생성 등 데이터 세트를 간결하게 요약하여 보여준다.

수많은 벤더들이 데이터 마이닝 소프트웨어 툴을 제공하고 있다. 개중에는 오픈소스 툴도 있고, 사유 소프트웨어들도 있다. 데이터 마이닝에 관한 사유 소프트웨어 애플리케이션을 판매하는 주요 업체로는 앵고스(Angoss), 클라라브릿지(Clarabridge), IBM, 마이크로소프트, 오픈 텍스트(Open Text), 오라클, 래피드마이너(RapidMiner), SAS 인스티튜트, SAP 등이 있다.

오픈소스 소프트웨어 벤더로는 캐롯2(Carrot2), 님(Knime), 매시브 온라인 애널리시스(Massive Online Analysis), ML-Flex, 오렌지(Orange), UIMA, 웨이카(Weka)등이 있다.

데이터 마이닝에 수반되는 위험과 문제점들
물론 데이터 마이닝에도 어느 정도의 리스크와 문제점은 따른다. 개인 식별 정보나 민감한 정보를 다루는 모든 테크놀로지에서 그렇듯, 보안과 사생활 보호가 가장 큰 문제점으로 인식되고 있다.

무엇보다도, 데이터 마이닝의 대상이 되는 데이터가 완전하고, 정확하며, 신뢰할 수 있어야 한다. 중요 비즈니스 의사결정의 기반이 되고, 공공, 정부기관, 투자자, 비즈니스 파트너들과의 협력 관계에서 근거 자료가 되는 기본 토양이니 더욱 그러하다.

한편 이미지나 비디오, 시계열 데이터, 공간 데이터 등 상대적으로 현대적이거나 복합적인 데이터들은 다양한 컴퓨팅 환경에 분산되어 있는 데이터 세트를 통합하는 새로운 기술을 요하기도 한다.

그러나 IT의 업무는 마이닝의 대상이 되는 적합한 데이터 세트을 준비하는 것으로 끝나지 않는다. 클라우드, 스토리지, 네트워크 시스템 등이 고기능 데이터 마이닝 툴을 구동할 수 있어야 한다. 또한 데이터 마이닝의 결과 얻어진 정보를 넓은 범주의 사용자들이 쉽게 이해하고 활용할 수 있도록 직관적으로 프레젠테이션 해야 한다. 이를 위해 데이터 과학 및 관련 분야의 전문성을 갖춘 인재가 필요할 것이다.

사생활 보호 측면에서 보자면, 사람들의 행동 패턴, 구매 내역, 웹사이트 방문 기록 등의 정보를 수집, 분석한다는 사실은 너무 많은 개인 정보를 모으게 되는 것 같아 기업들의 우려를 살 수 있다. 그리고 이러한 우려는 데이터 마이닝 기술의 적용뿐 아니라 비즈니스 전략 및 리스크 프로파일에도 영향을 미칠 수 있다.

개인 정보를 이처럼 철저하게 파고 드는 행위의 도덕성 문제도 문제이지만, 이러한 데이터를 수집, 분석, 공유하는 과정의 법적 절차도 중요하다. 미국의 건강보험 양도 및 책임에 관한 법(HIPAA)나 유럽 연합의 일반 개인정보 보호규정(GDPR)은 그러한 과정을 규제하는 대표적 법들이다.

데이터를 수집하고 분류하는 데이터 마이닝의 초기 단계 만으로도 해당 정보나 관련된 패턴이 공개됨으로써 데이터의 비밀 보장이 침해될 수 있다. 데이터 마이닝 기술을 잘못 사용하다가는 도덕적, 법적 분쟁에 휘말리게 될 수 있는 것이 사실이다.

때문에 데이터 마이닝은 전 과정에서 데이터의 유출, 침해, 비밀스런 액세스를 차단하려는 노력이 필요하다. 암호화, 액세스 컨트롤, 네트워크 보안 메커니즘 등의 보안 툴이 활용될 수 있을 것이다.

데이터 마이닝이 차이를 만든다
이러한 문제점들에도 불구하고 데이터 마이닝은 오늘날 정보로부터 가치를 추출해 내고자 하는 많은 기관들의 IT 전략의 핵심 요소가 되고 있다. 이러한 경향이 예측 분석 기술, 인공 지능, 머신러닝 등 관련 기술들의 발전을 가속화 하게 될 것임에는 의심의 여지가 없다.

* Bob Violino는 컴퓨터월드, CIO, CSO, 인포월드, 네트워크 월드에 기고하고 있다. ciokr@idg.co.kr 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.