기업 내 디지털 트랜스포메이션 작업이 진행되면서 디지털 트랜잭션이 남긴 흔적이 방대해지고 있다. 그러나 데이터에서 맥락 있는 정보(인텔리전스)를 뽑아내기가 여전히 그림의 떡인 기업이 많다.
IDC의 <2021-2025년 전세계 글로벌 데이터스피어(Global DataSphere) 예측> 보고서에 따르면, 비즈니스 및 소비자 데이터는 작년 이후 약 23%의 연평균성장률로 축적되고 있다. 이 중에서 기업 부문의 연평균성장률은 28%이다. 이처럼 축적된 데이터는 2025년까지 180 제타바이트에 이를 것으로 예상된다.
클라우드에서 생성되는 데이터 역시 매년 36% 증가하고 있다. 아울러 엣지에서 다양한 IoT 장치 및 감지 장치를 통해 수집되는 데이터는 매년 33% 늘고 있으며 2025년까지 전체 글로벌 데이터스피어 중 22%를 차지하게 될 전망이다.
기업들 입장에서는 데이터 양이 늘어나면 데이터를 준비(compute‐ready)시키는 작업이 점점 복잡해진다. 그러나 데이터 활용성을 높여주는 효과적인 데이터 관리 프로세스와 플랫폼을 개발하는 작업에 시간과 노력을 기울이는 기업은 그리 많지 않다.
이를테면, 많은 회사들이 고객과 주문, 제품 사용, 설치 기반, 서비스 티켓, 현금 로그, 시장 인텔리전스 등과 관련된 막대한 양의 디지털 트랜잭션 데이터를 수집하고 있고 데이터에서 인텔리전스를 추출할 수 있는 기술이 그 어느 때보다 다양하게 나와 있음에도 불구하고 이러한 데이터를 효과적으로 활용해 각 고객이나 사업에 대한 입체적인 모습을 만들어내는 기업은 드물다.
많은 기업이 이제 확실히 깨달은 것은 보유한 데이터의 양이 많다고 해서 지속적인 경쟁적 우위를 점할 수 있는 것도 아니고 데이터에서 쉽게 가치를 얻을 수 있게 되는 것도 아니라는 점이다. 더구나, 보유 데이터가 늘어나면 기밀유지 문제와 실행 비용이 늘어나고 환경도 더욱 복잡해진다.
보다 나은 데이터 관리 전략을 향하여
오늘날의 데이터 상황은 효과적이고 지능적인 데이터 사용 전략을 수립하지도 않은 채 데이터부터 수집한 결과이다. 다양한 기술과 분절된 프로세스를 복잡하게 섞어서 시행한 것과 매우 약한 데이터 기반을 토대로 한 데이터 엔지니어링 관행에 의존한 것도 원인이다.
대개 이러한 데이터 기반은 ETL(추출, 변환, 탑재) 방법을 토대로 하고 있다. 즉, 다양한 출처에서 추출한 데이터를 ETL 서버를 통해 특정 형식으로 변환한 후 데이터 웨어하우스에 탑재하는 방식이다.
데이터 웨어하우스에서 분석을 거친 데이터가 비즈니스 인텔리전스로 제시될 수 있다면 좋을 것이다. 그러나, 데이터를 다양한 비즈니스 데이터베이스에서 인식하여 사용할 수 있는 형태로 변환하는 과정은 다소 복잡하고 컴퓨팅 자원이 많이 소모된다. 또한, I/O 활동과 스트링 처리, 데이터 파싱 등이 많이 수반되므로 소요 시간도 상당하다.
이보다 나은 데이터 관리 전략의 시작은 ‘ETL’ 순서를 약간 바꾸는 것이다. 즉, 데이터를 추출(extraction )한 뒤 특정 데이터 저장소에 먼저 탑재(loading)하는 방식이다. 데이터 저장소에 탑재된 데이터는 보다 쓸모 있고 의미 있는 형태로 개별적으로 변환(transform)된다. 이렇게 변환과 탑재 순서가 뒤바뀐 ELT 방식은 데이터를 먼저 대상 시스템 내부에 탑재하고 변환은 나중에 한다. 데이터 변환 작업을 클라우드 기반의 개별 데이터 웨어하우스에게 넘기는 것이다.
ETL 엔진/서버 하나로 정형 원시 데이터와 비정형 원시 데이터를 모두 변환하는 방식 대신, ELT 방식은 데이터 일부를 특정 클라우드 데이터 웨어하우스로 보내서 개별적으로 변환시킨다. 그 결과, I/O 시간은 줄고 파싱 속도는 빨라진다.
혼란은 줄고 인텔리전스는 늘어남
ELT 구조를 토대로 한 미래 상태 데이터 아키텍처(Future state data architectures)는 조직 전체에 종합적인 데이터 관리 솔루션을 제공하기 위한 플랫폼 기반 접근 방식과 강력한 데이터 기반 계층을 구축하는 작업에 집중하게 될 것이다. 미래 아키텍처는 IoT 데이터, 클릭스트림, 영업 및 마케팅 인텔리전스, 비즈니스 지표, 사용자 애널리틱스 등 할 것 없이 데이터를 입수해서 가치를 얻어내기까지의 간극을 메우기 위해 응집력 있는 플랫폼에 의존하게 될 것이다.
미래 상태 아키텍처에 대해 고려해야 할 핵심 내용 중 일부는 다음과 같다.
• 커넥터, 이벤트 스트리밍, 소스 라이트백(writeback), 맵리듀스(MapReduce) 등 기초 계층 기능의 구현. 다음 계층의 구성 요소는 데이터 관리 생애주기, 데이터 모델링, 스키마 실행, 데이터 개인정보보호, 거버넌스, 동의, 보안, 데이터 프로젝트, 관리 등이 될 것이다.
• 이 아키텍처의 핵심에는 검색 및 자가학습 엔진이 있다. 생태계 내 다양한 소스에서 데이터를 검색하여 가져올 수 있으며, 변화하는 비즈니스 수요에 지속적으로 적응하고 컴퓨팅용으로 준비된 데이터를 적당량 받아들인다.
• 개인정보보호 규정 준수라는 현실에 맞게 데이터 거주 솔루션을 제공하려면 데이터 구조 및 지속성 추상화가 요구된다.
미래 상태 아키텍처의 최종 목적은 컴퓨팅용으로 준비된 데이터 요소를 입수하여 비즈니스 데이터가 있는 조인과 오래 실행되는 쿼리를 없애고 데이터 저장 및 처리 자원을 최적으로 사용할 수 있게 하는 것이다. 그러면 저장 데이터 양이 현재 수준에서 대폭 줄어들 뿐만 아니라 기업들은 쓸모 있고 실행 가능한 비즈니스 인텔리전스를 훨씬 빨리 알아낼 수 있다.