2017.08.29

원석에서 보석을 추출하기··· 데이터 마이닝이란?

Bob Violino | InfoWorld

오늘날 조직들은 그 어느 때보다 방대한 규모의 정보를 웹사이트, 애플리케이션, 소셜 미디어, 모바일 기기, IoT 등과 같은 여러 출처로부터 모으고 있다. 하지만 중요한 것은 이렇게 모은 정보들로부터 비즈니스 가치를 끌어내는 것이다. 데이터 마이닝이 바로 이 부분에서 기여할 수 있다.

데이터 마이닝은 방대한 양의 데이터 속에서 트렌드와 패턴을 식별해 내고, 정보 간 관계를 정립해 비즈니스 문제를 해결하거나 정보의 분석을 통해 새로운 기회를 만들어 내는 자동화된 프로세스를 뜻한다.

이는 단순히 과거에 있었던 사실들을 참조 하여 향후 일에 대비하자는 차원이 아니다. 데이터 마이닝 툴과 테크닉을 활용하면 미래에 어떤 일이 일어날 지 구체적으로 예측하고 이러한 트렌드를 이용할 수 있도록 도와주는 역할을 한다.

‘데이터 마이닝(data mining)’이라는 용어는 IT 업계에서 널리 쓰이고 있다. 이 용어는 주로 데이터의 수집, 추출, 저장, 분석과 같은 대규모 데이터 프로세싱 활동을 일컫는 것으로 사용된다. 또한 인공지능, 머신러닝, 비즈니스 인텔리전스 등 의사결정 지원 애플리케이션 및 테크놀로지 등도 데이터 마이닝의 범주에 포함되고 있다.

데이터 마이닝이 활용되는 분야는 상품 개발, 세일즈, 마케팅, 유전학, 그리고 사이버네틱스 등 비즈니스 및 연구 등 다양하다. 그리고 제대로만 사용한다면 예측 분석과 결합된 데이터 마이닝 기술은 이를 이용하지 않는 경쟁 조직들에 비해 상당한 이점을 부여해 줄 것이다.

데이터 마이닝으로 비즈니스 가치 이끌어 내기
데이터 마이닝의 진정한 가치는 데이터들 사이에 숨겨져 있는 패턴, 관계를 찾아냄으로써 비즈니스에 막대한 영향력을 가질 수도 있는 미래 예측을 해내는 데에 있다. 예를 들어, 만일 어떤 기업이 특정 마케팅 캠페인 덕분에 특정 제품 모델의 판매량이 특정 지역에서만 엄청나게 올라갔다고 판단 했다면, 미래에도 해당 캠페인을 집중 공략 함으로써 더 큰 수익을 노릴 수 있을 것이다.

데이터 마이닝 테크놀로지의 장점은 비즈니스의 종류 및 그 목표에 따라 여러 가지가 될 수 있다. 예를 들어 리테일 분야의 세일즈 및 마케팅 매니저는 항공사나 금융 서비스 분야 종사자들과는 다른, 그들에게 적합한 데이터 마이닝을 통해 전환률을 개선할 수 있을 것이다.

그러나 과거의 세일즈 패턴을 파악하고 고객 행동 패턴을 분석하는 데이터 마이닝 기술은 산업 분야를 막론하고 앞으로의 세일즈 및 고객 응대 모델을 만들어 내는 데 도움을 줄 것이다.

데이터 마이닝은 비즈니스에 해악을 끼칠 수 있는 잠재적 활동들을 사전에 제거하는 기능도 한다. 예를 들어, 데이터 마이닝을 활용해 제품 안전성을 개선하거나 보험, 금융 거래 과정에서 발생하는 사기, 범죄 행각을 차단할 수도 있다.

데이터 마이닝 기술의 적용
데이터 마이닝은 거의 모든 산업 분야에서 다양한 용도로 활용될 수 있다.

- 리테일 업체: 고객의 과거 구매 이력을 분석하여 그가 어떤 제품을 수요하고 있는지, 혹은 계절별, 월 별로 어떤 제품의 수요가 증가하는지 등을 알아낼 수 있다. 그리고 이러한 정보를 바탕으로 재고를 관리하고 매대 진열 방식을 수정하는 것이 가능하다.

- 은행 및 금융 기관들: 클라이언트의 계좌, 거래내역, 선호하는 경로 등의 데이터를 마이닝 하여 이들의 니즈에 좀 더 적합한 서비스를 제공할 수 있다. 또한 소셜 미디어, 웹사이트 등에서 수집한 데이터를 바탕으로 기존 고객들의 충성도를 강화하고 새로운 고객을 유치할 수 있다.

- 제조업: 데이터 마이닝 기술을 활용해 상품 공정 과정의 패턴을 파악하고, 병목 현상이 일어나는 지점과 문제를 야기하는 공정 과정을 찾아내 효율성을 늘릴 수 있다. 또한 데이터 마이닝 지식을 제품 설계에 적용하여, 고객 경험으로부터의 피드백을 제품 설계에 반영할 수도 있을 것이다.

- 교육 기관: 데이터 분석을 통하여 학생들의 미래 학습 행동 패턴과 학습 능력 향상을 예측하고 이를 통해 교습 방법 및 커리큘럼 구성에 도움을 받을 수 있다.

- 의료업계: 데이터 마이닝 및 분석을 활용하여 비용을 절감하고 더 나은 의료 서비스를 제공할 방법을 고안해 낼 수 있다. 앞으로 몇 명의 환자에게 서비스를 제공하게 되고, 이들 각자가 어떤 류의 의료 서비스를 필요로 하게 될 지를 미리 예측할 수 있다. 생명 과학 분야의 경우 데이터 마이닝을 사용해 방대한 분량의 생물학적 데이터로부터 통찰력을 얻고 새로운 약이나 치료법 개발에 활용할 수도 있을 것이다.

의료 서비스 분야나 리테일 등 다양한 분야에서 데이터 마이닝을 활용하여 사기, 횡령 등 수상한 활동을 전통적인 방식을 사용할 때보다 훨씬 빠르게 잡아낼 수 있게 된다.

데이터 마이닝의 주 요소들
데이터 마이닝 프로세스는 각기 다른 기능을 수행하는 여러 가지 요소들로 구성되어 있다.

- 사전 처리. 데이터 마이닝 알고리즘을 적용하기 전에, 우선 분석의 대상이 될 타깃 데이터 세트를 설정해야 한다. 가장 흔하게 사용되는 데이터 소스들 중에는 데이터 마트나 웨어하우스가 있다. 데이터 세트 분석을 위해서는 우선 이러한 데이터 사전 처리 과정을 거쳐야 한다.

- 데이터 정화 및 준비. 사전 처리를 통해 확정된 데이터 세트는 정화 및 준비 과정을 거쳐 ‘노이즈’를 제거하고, 불완전 데이터 및 이종 데이터 등을 걸러내는 작업을 하게 된다. 이러한 작업을 통해 에러 요소를 제거하고, 추가적인 탐색을 하거나, 세그먼테이션 룰을 만들어 데이터 준비와 관련된 다른 기능들을 수행하게 된다.
 


2017.08.29

원석에서 보석을 추출하기··· 데이터 마이닝이란?

Bob Violino | InfoWorld

오늘날 조직들은 그 어느 때보다 방대한 규모의 정보를 웹사이트, 애플리케이션, 소셜 미디어, 모바일 기기, IoT 등과 같은 여러 출처로부터 모으고 있다. 하지만 중요한 것은 이렇게 모은 정보들로부터 비즈니스 가치를 끌어내는 것이다. 데이터 마이닝이 바로 이 부분에서 기여할 수 있다.

데이터 마이닝은 방대한 양의 데이터 속에서 트렌드와 패턴을 식별해 내고, 정보 간 관계를 정립해 비즈니스 문제를 해결하거나 정보의 분석을 통해 새로운 기회를 만들어 내는 자동화된 프로세스를 뜻한다.

이는 단순히 과거에 있었던 사실들을 참조 하여 향후 일에 대비하자는 차원이 아니다. 데이터 마이닝 툴과 테크닉을 활용하면 미래에 어떤 일이 일어날 지 구체적으로 예측하고 이러한 트렌드를 이용할 수 있도록 도와주는 역할을 한다.

‘데이터 마이닝(data mining)’이라는 용어는 IT 업계에서 널리 쓰이고 있다. 이 용어는 주로 데이터의 수집, 추출, 저장, 분석과 같은 대규모 데이터 프로세싱 활동을 일컫는 것으로 사용된다. 또한 인공지능, 머신러닝, 비즈니스 인텔리전스 등 의사결정 지원 애플리케이션 및 테크놀로지 등도 데이터 마이닝의 범주에 포함되고 있다.

데이터 마이닝이 활용되는 분야는 상품 개발, 세일즈, 마케팅, 유전학, 그리고 사이버네틱스 등 비즈니스 및 연구 등 다양하다. 그리고 제대로만 사용한다면 예측 분석과 결합된 데이터 마이닝 기술은 이를 이용하지 않는 경쟁 조직들에 비해 상당한 이점을 부여해 줄 것이다.

데이터 마이닝으로 비즈니스 가치 이끌어 내기
데이터 마이닝의 진정한 가치는 데이터들 사이에 숨겨져 있는 패턴, 관계를 찾아냄으로써 비즈니스에 막대한 영향력을 가질 수도 있는 미래 예측을 해내는 데에 있다. 예를 들어, 만일 어떤 기업이 특정 마케팅 캠페인 덕분에 특정 제품 모델의 판매량이 특정 지역에서만 엄청나게 올라갔다고 판단 했다면, 미래에도 해당 캠페인을 집중 공략 함으로써 더 큰 수익을 노릴 수 있을 것이다.

데이터 마이닝 테크놀로지의 장점은 비즈니스의 종류 및 그 목표에 따라 여러 가지가 될 수 있다. 예를 들어 리테일 분야의 세일즈 및 마케팅 매니저는 항공사나 금융 서비스 분야 종사자들과는 다른, 그들에게 적합한 데이터 마이닝을 통해 전환률을 개선할 수 있을 것이다.

그러나 과거의 세일즈 패턴을 파악하고 고객 행동 패턴을 분석하는 데이터 마이닝 기술은 산업 분야를 막론하고 앞으로의 세일즈 및 고객 응대 모델을 만들어 내는 데 도움을 줄 것이다.

데이터 마이닝은 비즈니스에 해악을 끼칠 수 있는 잠재적 활동들을 사전에 제거하는 기능도 한다. 예를 들어, 데이터 마이닝을 활용해 제품 안전성을 개선하거나 보험, 금융 거래 과정에서 발생하는 사기, 범죄 행각을 차단할 수도 있다.

데이터 마이닝 기술의 적용
데이터 마이닝은 거의 모든 산업 분야에서 다양한 용도로 활용될 수 있다.

- 리테일 업체: 고객의 과거 구매 이력을 분석하여 그가 어떤 제품을 수요하고 있는지, 혹은 계절별, 월 별로 어떤 제품의 수요가 증가하는지 등을 알아낼 수 있다. 그리고 이러한 정보를 바탕으로 재고를 관리하고 매대 진열 방식을 수정하는 것이 가능하다.

- 은행 및 금융 기관들: 클라이언트의 계좌, 거래내역, 선호하는 경로 등의 데이터를 마이닝 하여 이들의 니즈에 좀 더 적합한 서비스를 제공할 수 있다. 또한 소셜 미디어, 웹사이트 등에서 수집한 데이터를 바탕으로 기존 고객들의 충성도를 강화하고 새로운 고객을 유치할 수 있다.

- 제조업: 데이터 마이닝 기술을 활용해 상품 공정 과정의 패턴을 파악하고, 병목 현상이 일어나는 지점과 문제를 야기하는 공정 과정을 찾아내 효율성을 늘릴 수 있다. 또한 데이터 마이닝 지식을 제품 설계에 적용하여, 고객 경험으로부터의 피드백을 제품 설계에 반영할 수도 있을 것이다.

- 교육 기관: 데이터 분석을 통하여 학생들의 미래 학습 행동 패턴과 학습 능력 향상을 예측하고 이를 통해 교습 방법 및 커리큘럼 구성에 도움을 받을 수 있다.

- 의료업계: 데이터 마이닝 및 분석을 활용하여 비용을 절감하고 더 나은 의료 서비스를 제공할 방법을 고안해 낼 수 있다. 앞으로 몇 명의 환자에게 서비스를 제공하게 되고, 이들 각자가 어떤 류의 의료 서비스를 필요로 하게 될 지를 미리 예측할 수 있다. 생명 과학 분야의 경우 데이터 마이닝을 사용해 방대한 분량의 생물학적 데이터로부터 통찰력을 얻고 새로운 약이나 치료법 개발에 활용할 수도 있을 것이다.

의료 서비스 분야나 리테일 등 다양한 분야에서 데이터 마이닝을 활용하여 사기, 횡령 등 수상한 활동을 전통적인 방식을 사용할 때보다 훨씬 빠르게 잡아낼 수 있게 된다.

데이터 마이닝의 주 요소들
데이터 마이닝 프로세스는 각기 다른 기능을 수행하는 여러 가지 요소들로 구성되어 있다.

- 사전 처리. 데이터 마이닝 알고리즘을 적용하기 전에, 우선 분석의 대상이 될 타깃 데이터 세트를 설정해야 한다. 가장 흔하게 사용되는 데이터 소스들 중에는 데이터 마트나 웨어하우스가 있다. 데이터 세트 분석을 위해서는 우선 이러한 데이터 사전 처리 과정을 거쳐야 한다.

- 데이터 정화 및 준비. 사전 처리를 통해 확정된 데이터 세트는 정화 및 준비 과정을 거쳐 ‘노이즈’를 제거하고, 불완전 데이터 및 이종 데이터 등을 걸러내는 작업을 하게 된다. 이러한 작업을 통해 에러 요소를 제거하고, 추가적인 탐색을 하거나, 세그먼테이션 룰을 만들어 데이터 준비와 관련된 다른 기능들을 수행하게 된다.
 


X