2020.11.27

선택 아닌 필수··· ‘통합 데이터 생명주기 솔루션’이 필요한 이유 

Jack Gold | CIO
데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다. 

디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다. 

‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다. 
 
ⓒGetty Images

많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다. 

따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다. 

이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다. 

특히 비용 측면에서, 오픈소스 소프트웨어 및 시스템은 매우 매력적으로 보이지만 자체 솔루션으로 구축하기까지 수많은 어려움이 있다. 무료라고는 하지만 사실상 무료가 아닌 셈이다. 

통합 솔루션을 채택하면 운영에 이르기까지 걸리는 시간은 물론이고, 지속적인 운영 및 지원의 복잡성도 줄어든다. 장기적으로 볼 때 이러한 접근방식은 수천만 달러를 절감할 수 있다. 

한 조사 결과에 따르면 복잡성 및 통합 문제로 무려 50~60%에 이르는 엔터프라이즈 시스템이 목표한 바를 이루지 못하거나 아예 실패하는 것으로 추산된다. 또한 최적화되지 않은 시스템의 지속적인 유지보수 비용은 운영 예산에 큰 영향을 미치며, 통합 및 패키지 솔루션보다 최소 2배에서 최대 5배 더 많은 비용이 들 수 있는 것으로 나타났다. 

비용, 전문 인력 및 리소스 문제는 제쳐 두더라도, 근본적인 문제는 원하는 결과(인사이트를 도출하는 시간)를 얻는 데 시간이 오래 걸리거나, 아예 달성하지 못할 수 있다는 점이다. 그리고 이로 인한 대가는 혹독하다. 

정리하자면, 오픈소스에 기반을 두고 있지만 쉽고 빠르게 구축 및 지원할 수 있는 시스템 구축에 필요한 모든 통합을 갖춘 솔루션을 찾는 게 훨씬 더 효과적이다.

여기에 부합하는 데이터 생명주기 솔루션의 예로 클라우데라(Cloudera)의 ‘클라우데라 데이터 플랫폼(Cloudera Date Platform, CDP)’을 들 수 있다. 이는 데이터 수집 및 스토리지를 포함할 뿐만 아니라 머신러닝을 사용할 수 있고 인사이트 도출 시간을 단축하는 통합적인 접근방식을 제공한다. 프로필 기반의 계층화된 데이터 보안도 지원한다. 

또한 이 플랫폼은 데이터 수집, 데이터 플로우, 데이터 엔지니어링, 데이터 웨어하우징, 데이터베이스 및 머신러닝을 하나의 프레임워크에 통합하고 확장되는 파트너 에코시스템에서 필요할 때마다 추가 기능을 통합할 수 있다. 

이 플랫폼은 온프레미스, 하이브리드 클라우드, 퍼블릭 클라우드에서 작동할 수 있다. 클라우드에서 구축될 경우 개별 구성요소 배치와 관련된 지연을 사실상 제거하여 데이터 인사이트 도출에 소요되는 시간을 수개월 단축할 수 있다. 

이러한 통합 플랫폼은 지연으로 인해 값비싼 대가를 치를 수 있거나 큰 피해를 볼 수 있는 기업에 매우 중요하다. 이를테면 사기 감지(fraud detection)가 몇 분 또는 몇 시간 지연된다면 장기적으로 막대한 손실을 볼 수 있기 때문이다. 

미국은행협회(American Bankers Association)의 2019년도 금융사기 조사 보고서에 따르면 2018년 미국 은행들은 예금계좌 관련 사기 시도로부터 223억 달러를 보호했다. 미수에 그친 사건을 포함한 전체 예금계좌 사기 피해 규모는 251억 달러였다. 물론 이만해도 우수한 수준이지만 더욱더 선제적이고 분초를 다투는 분석이었다면 나머지 28억 달러의 사기를 방지할 수 있었을 가능성이 크다. 

금융사기 분석이 데이터 분석 시스템의 주요 활용 사례로 많이 언급되지만 이는 빙산의 일각에 불과하다. 건강과 관련한 데이터 및 현황 분석이 지연된다면 현재 코로나19 사태에서 볼 수 있듯이 질병을 파악하지 못한 채 속수무책으로 당할 수 있고, 나아가 적절한 진단 및 치료가 부족한 상황에 처할 수 있다. 

게다가 원격진료를 비롯해 원격 센서 모니터링 및 자동화된 건강 분석을 사용하는 비율이 늘어나면서 정확하게 수집된 데이터가 그 어느 때보다 중요해졌다. 데이터 결함으로 인한 오진이 사람과 의료 시스템 모두에 큰 피해를 줄 수 있기 때문이다. 

여러 추정치에 따르면 오진으로 초래되는 비용은 전체 의료 비용의 최대 30%에 달한다. 2018년 미국은 의료 부문에 약 3조 6,000억 달러를 지출했는데, 1인당 평균 약 1만 1,000달러다. 

원격의료 시스템이 포괄적으로 적용되려면 현재 많은 기관이 사용하는 것보다 훨씬 더 강력한 데이터 생명주기 기능을 갖춰 오진 및 관련 문제를 제거하거나 최소한 크게 줄여야 한다. 

아울러 강력한 데이터 생명주기 관리 프로세스가 중요한 또 다른 이유는 여러 조직에 걸쳐 개인정보를 공유하는 방법과 관련돼 있다. 기밀 정보를 보호하고 규제 준수 문제를 충족할 수 있기 때문이다. 

이를 통해 트렌드 분석의 정확성을 높일 수 있고 분석 대상 인원을 늘릴 수 있으며 기밀을 유지할 수 있다. 물론 소매, 제조, 제약, 운송을 비롯한 다른 업계에서도 이 데이터 생명주기 관리 접근법의 혜택을 누릴 수 있다. 

결론 
데이터 중심의 디지털 트랜스포메이션 시대로 이동하게 되면서, 이제 전체 데이터 생명주기 관리를 위한 종합 플랫폼은 필수가 됐다. 시기적절한 인사이트가 도출되지 않는다면 재정적, 물리적 피해를 입을 수 있어서다. 

기업은 데이터 생명주기 관리에 대규모 통합이나 긴 구축 기간이 필요하지 않은 플랫폼적인 접근방식을 채택해야 한다. 다시 말하자면, 원하는 결과를 성취하기 위해서는 통합 데이터 생명주기 플랫폼 솔루션이 무엇보다 중요하다. ciokr@idg.co.kr
 



2020.11.27

선택 아닌 필수··· ‘통합 데이터 생명주기 솔루션’이 필요한 이유 

Jack Gold | CIO
데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다. 

디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다. 

‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다. 
 
ⓒGetty Images

많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다. 

따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다. 

이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다. 

특히 비용 측면에서, 오픈소스 소프트웨어 및 시스템은 매우 매력적으로 보이지만 자체 솔루션으로 구축하기까지 수많은 어려움이 있다. 무료라고는 하지만 사실상 무료가 아닌 셈이다. 

통합 솔루션을 채택하면 운영에 이르기까지 걸리는 시간은 물론이고, 지속적인 운영 및 지원의 복잡성도 줄어든다. 장기적으로 볼 때 이러한 접근방식은 수천만 달러를 절감할 수 있다. 

한 조사 결과에 따르면 복잡성 및 통합 문제로 무려 50~60%에 이르는 엔터프라이즈 시스템이 목표한 바를 이루지 못하거나 아예 실패하는 것으로 추산된다. 또한 최적화되지 않은 시스템의 지속적인 유지보수 비용은 운영 예산에 큰 영향을 미치며, 통합 및 패키지 솔루션보다 최소 2배에서 최대 5배 더 많은 비용이 들 수 있는 것으로 나타났다. 

비용, 전문 인력 및 리소스 문제는 제쳐 두더라도, 근본적인 문제는 원하는 결과(인사이트를 도출하는 시간)를 얻는 데 시간이 오래 걸리거나, 아예 달성하지 못할 수 있다는 점이다. 그리고 이로 인한 대가는 혹독하다. 

정리하자면, 오픈소스에 기반을 두고 있지만 쉽고 빠르게 구축 및 지원할 수 있는 시스템 구축에 필요한 모든 통합을 갖춘 솔루션을 찾는 게 훨씬 더 효과적이다.

여기에 부합하는 데이터 생명주기 솔루션의 예로 클라우데라(Cloudera)의 ‘클라우데라 데이터 플랫폼(Cloudera Date Platform, CDP)’을 들 수 있다. 이는 데이터 수집 및 스토리지를 포함할 뿐만 아니라 머신러닝을 사용할 수 있고 인사이트 도출 시간을 단축하는 통합적인 접근방식을 제공한다. 프로필 기반의 계층화된 데이터 보안도 지원한다. 

또한 이 플랫폼은 데이터 수집, 데이터 플로우, 데이터 엔지니어링, 데이터 웨어하우징, 데이터베이스 및 머신러닝을 하나의 프레임워크에 통합하고 확장되는 파트너 에코시스템에서 필요할 때마다 추가 기능을 통합할 수 있다. 

이 플랫폼은 온프레미스, 하이브리드 클라우드, 퍼블릭 클라우드에서 작동할 수 있다. 클라우드에서 구축될 경우 개별 구성요소 배치와 관련된 지연을 사실상 제거하여 데이터 인사이트 도출에 소요되는 시간을 수개월 단축할 수 있다. 

이러한 통합 플랫폼은 지연으로 인해 값비싼 대가를 치를 수 있거나 큰 피해를 볼 수 있는 기업에 매우 중요하다. 이를테면 사기 감지(fraud detection)가 몇 분 또는 몇 시간 지연된다면 장기적으로 막대한 손실을 볼 수 있기 때문이다. 

미국은행협회(American Bankers Association)의 2019년도 금융사기 조사 보고서에 따르면 2018년 미국 은행들은 예금계좌 관련 사기 시도로부터 223억 달러를 보호했다. 미수에 그친 사건을 포함한 전체 예금계좌 사기 피해 규모는 251억 달러였다. 물론 이만해도 우수한 수준이지만 더욱더 선제적이고 분초를 다투는 분석이었다면 나머지 28억 달러의 사기를 방지할 수 있었을 가능성이 크다. 

금융사기 분석이 데이터 분석 시스템의 주요 활용 사례로 많이 언급되지만 이는 빙산의 일각에 불과하다. 건강과 관련한 데이터 및 현황 분석이 지연된다면 현재 코로나19 사태에서 볼 수 있듯이 질병을 파악하지 못한 채 속수무책으로 당할 수 있고, 나아가 적절한 진단 및 치료가 부족한 상황에 처할 수 있다. 

게다가 원격진료를 비롯해 원격 센서 모니터링 및 자동화된 건강 분석을 사용하는 비율이 늘어나면서 정확하게 수집된 데이터가 그 어느 때보다 중요해졌다. 데이터 결함으로 인한 오진이 사람과 의료 시스템 모두에 큰 피해를 줄 수 있기 때문이다. 

여러 추정치에 따르면 오진으로 초래되는 비용은 전체 의료 비용의 최대 30%에 달한다. 2018년 미국은 의료 부문에 약 3조 6,000억 달러를 지출했는데, 1인당 평균 약 1만 1,000달러다. 

원격의료 시스템이 포괄적으로 적용되려면 현재 많은 기관이 사용하는 것보다 훨씬 더 강력한 데이터 생명주기 기능을 갖춰 오진 및 관련 문제를 제거하거나 최소한 크게 줄여야 한다. 

아울러 강력한 데이터 생명주기 관리 프로세스가 중요한 또 다른 이유는 여러 조직에 걸쳐 개인정보를 공유하는 방법과 관련돼 있다. 기밀 정보를 보호하고 규제 준수 문제를 충족할 수 있기 때문이다. 

이를 통해 트렌드 분석의 정확성을 높일 수 있고 분석 대상 인원을 늘릴 수 있으며 기밀을 유지할 수 있다. 물론 소매, 제조, 제약, 운송을 비롯한 다른 업계에서도 이 데이터 생명주기 관리 접근법의 혜택을 누릴 수 있다. 

결론 
데이터 중심의 디지털 트랜스포메이션 시대로 이동하게 되면서, 이제 전체 데이터 생명주기 관리를 위한 종합 플랫폼은 필수가 됐다. 시기적절한 인사이트가 도출되지 않는다면 재정적, 물리적 피해를 입을 수 있어서다. 

기업은 데이터 생명주기 관리에 대규모 통합이나 긴 구축 기간이 필요하지 않은 플랫폼적인 접근방식을 채택해야 한다. 다시 말하자면, 원하는 결과를 성취하기 위해서는 통합 데이터 생명주기 플랫폼 솔루션이 무엇보다 중요하다. ciokr@idg.co.kr
 

X