데이터 실무자는 데이터 관리 수명 주기 전반에 걸쳐 많은 도전 과제에 직면한다. 일상적으로 직면하는 가장 일반적인 과제와 이를 극복하는 방법에 대해 알아본다.
이 글을 읽는 동안에도 2,730만 테라바이트의 데이터가 생성될 것이다. 기업이 고급 데이터 통합 기술을 도입하지 않을 경우 직면하게 될 어려움을 잘 드러내는 예시 중 하나다. 이 글에서는 기존 통합 솔루션이 직면한 다양한 문제를 짚어본다.
IDG의 설문조사에 따르면 기업의 20%가 분석 시스템에 공급하기 위해 1,000개 이상의 소스로부터 데이터를 가져오고 있다. 데이터의 증가와 복잡성 모두 우려의 대상이다. 시작 단계의 기업은 다음과 같은 과제를 안고 있을 가능성이 높다. 데이터 통합은 다음과 같은 문제를 아우르는 정밀한 검토가 필요하다.
서로 다른 데이터 원본
서로 다른 소스에 엑셀, JSON, CSV 등과 같은 다양한 형식의 데이터가 존재한다. 또 오라클, 몽고DB, MySQL 등과 같은 데이터베이스에 담겨 있다. 그리고 두 데이터 소스는 파트너 데이터에 대해 서로 다른 정의를 가질 수 있다.
이기종 소스는 서로 다른 형식과 구조의 데이터 집합을 생성한다. 이제 다양한 스키마로 인해 데이터 통합 범위가 복잡해지고 있으며, 데이터 집합을 결합하려면 상당한 매핑 작업이 필요하다.
데이터 전문가는 한 원본의 데이터를 다른 원본에 수동으로 매핑하거나, 모든 데이터 집합을 하나의 형식으로 변환하거나, 다른 형식과 호환되도록 추출 및 변환하여 결합할 수 있다. 그러나 이러한 방법으로 의미 있고 원활한 통합을 달성하기는 여전히 어려운 상황이다.
스트리밍 데이터 처리
스트리밍 데이터는 연속적이고 끝이 없으며, 이벤트 기록의 중단 없는 시퀀스로 구성된다. 기존의 배치 처리 기술은 시작과 끝이 잘 정의된 정적 데이터 세트를 위해 설계됐으며, 이로 인해 중단 없이 흐르는 스트리밍 데이터에 대한 작업은 어렵다. 결과적으로 동기화, 확장성, 이상 징후 감지, 가치 있는 인사이트 도출, 의사 결정 개선이 복잡해진다.
이러한 문제를 해결하기 위해 기업은 들어오는 데이터 스트림을 실시간으로 분석, 집계 및 변환할 수 있는 시스템이 필요하다. 기업은 기존 아키텍처와 동적 데이터 스트림 간의 격차를 줄임으로써 지속적인 정보 흐름의 힘을 활용할 수 있다.
비정형 데이터 서식 지정 문제
대량의 비정형 데이터로 인해 데이터 관리가 더욱 어려워지고 있다. 웹 2.0에서는 소셜 플랫폼 전반에서 사용자가 생성한 데이터가 오디오, 비디오, 이미지 등의 형태로 폭발적으로 증가했다.
비정형 데이터는 사전 정의된 형식이 없고 일관된 스키마나 검색 가능한 속성이 없기 때문에 검색이 어렵다. 데이터베이스에 저장된 정형 데이터 세트와 마찬가지로 검색 가능한 속성이 없다. 따라서 관련 정보를 분류, 색인화 및 추출하기가 까다롭다.
아울러 다양한 데이터 유형에는 관련 없는 콘텐츠와 노이즈가 첨부되어 있는 경우가 많다. 따라서 의미 있는 분석을 위해서는 합성 데이터 생성, 자연어 처리, 이미지 인식, 머신러닝 기술이 필요하다. 복잡성은 여기서 끝나지 않는다. 스토리지 및 프로세스 인프라를 확장하여 급증하는 볼륨을 관리하기란 쉽지 않다.
하지만 다양한 고급 도구가 등장해 혼란 속에서 가치 있는 인사이트를 추출하는 데 인상적인 도움을 주고 있다. 예를 들어, 몽키런(MonkeyLearn)은 패턴을 찾기 위한 머신러닝 알고리즘을 구현했다. K2뷰(K2view)는 특허 받은 엔티티 기반 합성 데이터 생성 방식을 사용한다. 마찬가지로 코그니토(Cogito)는 자연어 처리를 사용하여 가치 있는 인사이트를 제공한다.
데이터 통합의 미래
데이터 통합 분야는 기존의 ETL(추출-변환-로드)에서 자동화된 ELT, 클라우드 기반 통합 및 기타 ML 구현으로 빠르게 분화되고 있다.
ELT는 변환 단계를 파이프라인의 마지막 단계로 이동시켜 원시 데이터 세트를 웨어하우스, 레이크 또는 레이크하우스에 직접 로드한다. 이렇게 하면 시스템에서 데이터를 변환 및 변경하기 전에 데이터를 검사할 수 있다. 이 접근 방식은 분석 및 BI를 위한 대용량 데이터를 처리하는 데 효율적이다.
클라우드 기반 데이터 통합 솔루션인 스카이비아(Skyvia)는 이 분야에서 앞서가는 존재다. 더 많은 기업이 여러 소스의 데이터를 병합하고 클라우드 기반 데이터 웨어하우스로 확장할 수 있도록 지원하고 있다. 실시간 데이터 처리를 지원할 뿐만 아니라 운영 효율성을 크게 향상시킨다.
이 일괄 통합 솔루션은 레거시 및 신규 업데이트를 지원하며, 대용량 데이터에도 쉽게 확장할 수 있다. 웨어하우스의 데이터 통합, CSV 내보내기/가져오기, 클라우드 간 마이그레이션 등에 적합한다.
한편 현재 데이터 기반 기업의 90%가 클라우드 기반 통합을 선호하고 있다. 또한, 앞으로 기업들은 데이터 통합 솔루션이 운영 효율성을 저하시키지 않으면서 거의 모든 종류의 데이터를 처리할 수 있을 것으로 기대한다. 즉, 데이터 솔루션은 곧 여러 테라바이트의 데이터를 병렬로 처리할 수 있는 고급 탄력적 처리를 지원하게 될 것이다.
이 밖에 데이터 과학자들은 클라우드 인스턴스를 유지 관리하는 작업을 줄이고자 한다. 이로 인해 서버리스 데이터 통합도 인기를 얻을 전망이다.
데이터 기반 미래로 가는 디딤돌
이 글에서는 서로 다른 데이터 원본, 분할 중심의 스트리밍 데이터, 비정형 형식 등으로 인한 문제에 대해 논의했다. 기업은 지금 바로 행동에 나서서 신중한 계획, 고급 도구, 모범 사례를 구현하여 원활한 통합을 달성해야 한다. 이러한 과제를 제때 해결하면 성장과 혁신을 위한 잠재적 기회가 열린다. 이러한 과제를 정면으로 해결함으로써 기업은 데이터 피드를 최적으로 활용할 수 있을 뿐만 아니라 의사결정에 정보를 제공할 수 있다.
* Yash Mehta는 IoT, M2M 커뮤니케이션, 빅데이터 영역에서 국제적으로 인정받는 전문가이자 저술가다. ciokr@idg.co.kr