Offcanvas

BI / CIO / How To / IoT / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

2017.07.05 김진철  |  CIO KR


빅데이터 수집 과정에서 데이터 형식의 중요성
빅데이터를 처음 활용하는 기업이나 조직이 흔히 저지르는 실수 중의 하나가 사내외의 비즈니스 관련 데이터를 일단 모아놓고 쌓아놓고 보자는 식으로 마구잡이로 데이터만 수집하는 것이다. 물론 데이터 기반의 의사 결정을 위해서는 관련된 데이터가 필요할 때 해당 데이터원(data source)에 쉽게 접속하여 필요한 데이터를 받아 활용할 수 있도록 가능하면 관련된 데이터원을 모두 통합하고 모으는 것이 정말 중요하다. 하지만, 목표로 하는 비즈니스 모델이나 비즈니스 수행에 필요한 문제를 어느 정도 명료하게 정의하지 않고 마구잡이로 모으는 데이터는 아무 쓸모없는 쓰레기요 비즈니스에 아무런 도움도 주지 못하는 노이즈에 불과하다.

빅데이터 수집을 하기 전에 우선 빅데이터 활용 및 분석의 목적을 분명하게 하여야 한다. 빅데이터 활용과 분석의 목적이 분명해야 수집해야 할 데이터가 어떤 정보를 담고 있어야 하는지 구체적으로 검토하고 평가할 수 있기 때문이다. 수집할 데이터가 빅데이터 활용과 분석의 목적에 맞는 정보를 담고 있는지, 담고 있지 않다면 필요한 정보를 담고 있는 데이터를 어떤 식으로 수집하고 목적에 맞는 정보로 변환할 수 있는지 데이터 수집 과정과 이를 위한 시스템을 설계, 구축하기 전에 반드시 깊게 생각해보아야 한다.

데이터를 표현하는 형식은 데이터가 담아야 할 정보가 무엇인지 구체적으로 생각하게 하고, 필요한 정보로 가공되는 과정을 구체적으로 설계할 수 있도록 하기 때문에 위해 매우 중요하다. 결국은 수집된 정보를 표현하는 방법을 바꾸는 것으로 데이터 가공 과정이 대부분 설계, 구현되기 때문이다. 그뿐만 아니라, 데이터 표현 방법을 설계하는 과정에서 목적에 맞는 정보가 데이터 수집의 비즈니스 모델과 프로세스를 통해 적절하게 수집되고 있는지 평가할 수 있기 때문에 데이터 표현의 형식을 잘 고안하고 설계하는 것이 중요하다.

보통 비즈니스 데이터를 다루는 분들은 데이터 표현의 형식에 대해서 얘기하면 아마도 데이터베이스의 스키마나 XML과 같은 엄격한 구조적 데이터 형식을 떠올릴 것이다. 물론 이렇게 엄격하게 정의된 구조적인 데이터 형식이 가장 적합하다. 하지만, 스키마나 XML과 같은 구조적 데이터 형식으로 표현된 데이터는 대개 가장 정제된 데이터 표현 형식으로 데이터 가공 과정의 마지막 단계에서 나오게 마련이다. 필자가 얘기하는 데이터 형식이란 구조적인 데이터 형식뿐만 아니라, 반정형(semi-structured) 데이터 형식, 또는 비정형 데이터로 불리는 특별한 구조나 형식이 없는 데이터 형식도 포함해서 말하는 것이다.

예를 들어, CMS 검출기의 원시 데이터는 데이터 블록의 위치를 표현하는 주소와 데이터 블록의 연속으로 저장된 데이터이지, 어떤 구조를 가지고 의미를 표현하지 않는다. 일반적인 비정형 데이터는 이와 같이 분석의 목적에 맞는 구조를 가지게끔 완전하게 가공되지 않았지만, 분석에 필요한 정보는 가지고 있는 형태의 데이터들이다. 이런 데이터들의 경우, 어떤 과정을 거쳐서 필요한 정보를 가진 데이터 형식으로 변환이 될 수 있을 것인지 데이터 수집 과정을 설계하고 구축하기 전에 미리 고민해야 목적에 적합한 정보를 가졌는지 아닌지를 평가할 수 있다.

빅데이터 수집을 하기 전에 가장 먼저 해야 할 일은 빅데이터 활용과 분석의 목적을 위해 필요한 정보가 무엇인지 확인하고 평가하는 것이다. 이렇게 필요한 정보가 무엇인지 확인하고 평가를 한 후에는 분석을 위해 어떤 형식으로 데이터를 수집할지 형식을 생각할 수 있게 되고, 이렇게 데이터 형식이 정의되었을 때 비로소 데이터 가공 과정을 구체적으로 설계하고 어떤 빅데이터 기술을 어떻게 활용할 수 있을지 생각해볼 수 있다.

다시 한번 강조하지만, 모든 빅데이터 비즈니스의 근본은 비즈니스의 목적과 빅데이터 활용을 통해 풀려는 비즈니스 문제이다. 빅데이터 가공 과정 설계의 근본은 필요한 정보가 담긴 데이터 형식을 어떻게 설계할 것이고, 필요한 정보가 담기게끔 데이터의 형식을 어떻게 바꾸고 가공할 것인가를 생각하는 것이다. 이 두 가지가 분명해지면, 빅데이터를 이용한 문제 해결의 반은 해결되었다고 볼 수 있다.

요약 - 빅데이터 비즈니스 모델 실행을 위한 빅데이터 수집 과정의 설계
이제 지금까지 생각해본 빅데이터 수집 과정에서 생각해봐야 할 문제들을 다시 한번 떠올려보면서 어떻게 빅데이터 수집 과정을 설계, 구현할지 정리해보자.

① 지금 조직에 비즈니스를 위한 원시 데이터를 가졌는지, 가지고 있다면 가지고 있는 원시 데이터가 비즈니스에 필요한 정보를 가졌는지, 아니면 필요한 정보를 얻을 수 있게 가공할 수 있는지 평가하고 점검한다.

빅데이터를 수집하는 것은 때에 따라 적지 않은 투자와 노력을 요구한다. 만약 이미 조직의 현재 비즈니스 모델로 필요한 데이터가 수집되고 있다면 재활용할 수 있는지 다시 한번 확인하자. 가지고 있는 원시 데이터가 풀려고 하는 비즈니스 문제를 위한 정보를 충분히 가졌는지 평가하는 것도 잊어서는 안 된다.

② 데이터를 모아야 한다면, 일곱 가지를 먼저 점검해야 한다.
- 데이터가 사람에 대한 것인가, 아니면 기계적으로 수집 가능한 대상에 대한 것인가?
- 만약 개인 정보나 사람에 대한 데이터를 모아야 한다면, 데이터를 모으기 위해 어떤 서비스를 제공해주어야 할 것인가?
- 제공하려는 서비스를 위해 드는 비용이 얻어 내는 데이터로 만들어낼 가치에 비해 크지 않은가?
- 기계적으로 수집 가능한 데이터라면 어떤 센서나 수집 장치를 통해서 데이터를 수집할 것인가?
- 센서나 수집 장치가 대상을 관찰하거나 정보를 수집할 때 어떤 한계를 가지고 있는가?
- 센서나 데이터 수집 장치가 대상의 어떤 면을 볼 수 있고, 대상에 대한 정보를 어떤 데이터로 바꾸어 수집하는가?

데이터를 수집하기 위해서 데이터 수집이 고려된 비즈니스 모델 설계가 필요할 수 있다. 데이터 수집 대상이 사람이냐, 기계적인 관찰이 가능한 대상이냐에 따라 비즈니스 모델이 많이 달라진다.

개인 정보나 사람에 대한 데이터를 수집할 경우에는 서비스를 받는 사람이 자발적으로 데이터를 제공할 수 있을 만한 매력적인 서비스나 상품을 제공하는 것이 필요하다. 이러한 서비스나 상품을 만들고 제공하기 위해 지나치게 많은 비용이 들거나 노력이 들어간다면 빅데이터 비즈니스 모델이 지속 가능하지 않을 것이다.

기계적인 관찰과 측정이 가능한 대상, 환경이나 기계의 상태 데이터 같은 대상의 데이터를 수집할 때에도 차별화된 비즈니스를 제공하기 위해 지나치게 많은 투자와 노력이 들어간다면 빅데이터 비즈니스 모델이 지속 가능하지 않을 것이다.

데이터를 수집할 때 사용하는 센서나 수집 장치, 또는 수집 서비스가 가지는 한계에 대해서도 명확하게 알고 있어야 한다. 많은 투자를 통해 수집한 데이터가 정작 대상에 대한 정보를 정확하게 반영하지 못하는 쓸모없는 데이터라면 비즈니스 모델이 제대로 작동하지 않을 것이다. 데이터 수집 과정이 데이터를 수집하는 대상에 대한 적절한 정보를 수집하는지 평가하고 점검해봐야 한다.

③ 개인 정보나 사람에 대한 정보를 수집할 경우, 데이터가 지속적으로 꾸준하게 유입될 수 있고 제공하는 서비스나 제품이 비즈니스를 유지할 수 있을 만큼 충분히 지속가능한지 점검해봐야 한다.

데이터 수집을 위한 서비스를 아무리 잘 만들고, 데이터 수집을 위한 시스템이 아무리 잘 만들어져 있어도 데이터가 충분히 수집될 만큼 사용자가 찾거나 쓰지 않거나 데이터 수집 대상이 센서나 수집 장치에 잡히지 않는다면 아무것도 할 수 없을 것이다. 데이터를 수집하기 위해 만든 시스템이나 모델이 실제로 작동하는지 검증하고 점검하는 것이 중요하다.

④ 기계적으로 수집 가능한 데이터의 경우 데이터를 충분히 수집하기 위해 얼마나 자주, 얼마나 많은 센서나 수집 장치를 이용해 데이터를 수집해야 하는가, 그리고 이를 위해 얼마나 많은 투자와 유지 보수가 필요한가 확인해봐야 한다.

비즈니스 모델이 좋고 서비스가 지속 가능하더라도 데이터를 수집하기 위한 시스템이 불안정하거나 데이터 수집을 위한 센서나 수집 장치가 부족하다면 역시 데이터 기반 비즈니스 모델이 잘 작동하지 않을 수 있다. 지속적인 데이터 흐름을 만들 만큼 충분한 데이터 수집 시스템과 센서, 수집 장치를 갖추었는지, 갖출 수 있는지 점검해봐야 한다.

⑤ 데이터를 수집하는 과정이 늘어나는 데이터의 양에 잘 견디고 쉽게 확장될 수 있도록 충분히 자동화될 수 있는지, 그리고 데이터를 수집하는 시스템을 쉽게 확장 가능하게(scalable) 만들 수 있는지 확인해야 한다.

데이터를 수집하는 비즈니스 모델과 서비스가 정말 잘 만들어져서 폭발적인 인기를 끌었다고 가정하자. 이런 경우 데이터가 폭증하는 경우가 생길 텐데, 데이터가 폭증하는 예외적인 경우를 잘 대처하지 못하면 사용자와 고객들은 서비스나 상품의 품질에 대한 불만을 가지고 사용하지 않게 될 것이다.

제공하는 서비스나 상품의 품질에 영향을 주지 않고 지속적인 데이터 유입이 될 수 있으려면 위와 같이 데이터를 수집하는 과정이 많은 부분 자동화되어 급증하는 서비스 요청이나 데이터의 폭증에도 서비스나 상품의 품질에 영향을 주어서는 안 된다. 데이터를 수집하는 과정을 자동화한 시스템이 폭증하는 서비스 요청과 데이터양에도 견딜 수 있고 쉽게 확장 가능하게끔 설계돼야 한다. 데이터 수집 시스템을 위해 클라우드 컴퓨팅을 사용하게 되면 이런 자원 확장이나 서비스의 강건성에 많은 도움이 될 수 있다.

⑥ 데이터가 분석과 활용에 적합한 정보로 변환되기 위해 어떤 형식을 갖게끔 가공되어야 하는지 효과적인 데이터 형식에 대해서 고민하고 설계해야 한다.

데이터가 비즈니스에 필요한 정보를 담게끔 수집되도록 하는 가장 좋은 방법은 데이터의 형식을 잘 정의하는 것이다. 데이터의 형식을 정의하는 과정에서 수집되는 데이터가 필요한 정보를 충분하게 잘 담고 있는지 평가를 구체적으로 할 수 있다. 뿐만 아니라, 데이터의 형식을 효과적으로 정의하게 되면 데이터 가공 과정을 단순화해서 빅데이터 시스템에 들어가는 투자를 크게 줄일 수 있다.

빅데이터를 해결하는 가장 좋은 방법은 빅데이터를 만들지 않는 것이라는 점을 명심하자. 원시 빅데이터에서 비즈니스 목적에 맞는 정보를 데이터 가공 초기에 적절하게 얻어낼 수 있다면 데이터의 양을 크게 줄일 수 있고, 결국 빅데이터 시스템도 필요하지 않을 것이다. 빅데이터 시스템은 아무리 작은 규모로 구축해도 적지 않은 투자가 필요할 수 있다는 점을 명심하자.

위의 여섯 가지 포인트들을 앞의 네 번의 ‘빅데이터 수집에 관한 생각’ 연재를 통해 살펴보았다. 빅데이터 비즈니스에서 가장 중요한 단계인 빅데이터 수집 단계를 설계하고 만들 때 위 사항들을 잘 고려해서 시행착오를 최소화하고 성공적인 빅데이터 비즈니스를 만들어 나갈 수 있기를 바란다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Pere Mato, “Introduction to the Physics Software,” 2004.


*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.