2021.09.10

칼럼ㅣ데이터 레이크 저물고 '데이터 패브릭' 떠오른다

Szymon Klarman | IDG Connect
데이터 레이크와 데이터 웨어하우스가 여전히 유용하긴 하지만 이제 데이터 관리에 새로운 접근법을 취할 때다. 

지난 20년 동안 CIO, CDO, 애널리스트가 기업 인프라에 저장된 데이터에 관해 의사결정을 내리면서 중앙 집중화를 강조하는 문화를 조성했다. IT 팀의 보호 아래에서 데이터를 처리할 때 (데이터가) 가장 잘 통제되고 유용하다는 것이었다. 

이 기간에는 해당 논리에 관한 논쟁이 있을 수 없었다. 이로 인해 데이터 웨어하우징을 통한 첫 번째 데이터 통합의 물결이 일었다. 1990년대에 이는 데이터를 사전 정의된 사용 사례에 맞춰 고정된 구조적 형태로 사전 처리 및 저장하여 여러 비즈니스 인텔리전스 플랫폼을 단일 솔루션으로 연결하는 효과적인 방법이었다. 
 
ⓒGetty Images

하지만 시간이 지나면서 이러한 아키텍처에 광범위한 사용자 정의 및 데이터 유지관리가 필요하다는 게 명확해졌고, 확장 요건에도 어려움을 겪었다. 게다가 데이터 프로젝트의 소유권을 부서별로 가져가기 어려웠기 때문에 데이터가 비즈니스에 미치는 전반적인 영향도 감소했다. 

그리고 이 문제를 해결하기 위해 새로운 유형의 아키텍처 ‘데이터 레이크’가 등장했다. 기업들은 데이터 레이크를 통해 모든 정형 및 비정형 데이터를 규모에 상관없이 중앙 저장소에 저장할 수 있었다. 

데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했다. 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었다. 

하지만 이런 발전에도 불구하고 한계점은 남아 있었다. 기업 내의 데이터 팀은 보유한 데이터로 더 많은 일을 할 수 있었지만 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하느라 진땀을 빼고 있었다. 

데이터 플랫폼 아키텍처의 모놀리식 특징으로 인해 데이터 팀은 관리 중인 데이터를 제대로 파악할 수 없었다. 왜일까? 데이터 레이크 아키텍처를 기반으로 하는 이러한 중앙 집중식 데이터 플랫폼은 조직 내에서 서로 다른 도메인에 속하는 데이터를 호스팅하고 소유한다. 

데이터 레이크와 데이터 웨어하우스 접근법의 핵심은 데이터를 (한 장소에서 다른 장소로) 물리적으로 이동하는 것이고, 여기서 이를 관리할 스토리지 및 컴퓨팅 성능을 모두 갖추곤 있지만 이게 기업이 (보유한) 데이터를 최대한 활용할 수 있는 최선의 방법은 아니다.

금융 서비스 조직을 예로 들어보자. 은행의 데이터 플랫폼에 수집되는 데이터에는 고객신원확인(Know Your Customer; KYC)과 같은 컴플라이언스 정보, 제품 및 서비스 기록 등의 계정 정보, 신용 등급, 수입, 부채, 은행과의 상호작용 등이 포함된다.

또한 이 플랫폼은 은행의 인프라 성능에 관한 운영 데이터와 외부 데이터(예: 부정적인 뉴스 및 소셜 미디어 분위기 등)도 수집한다. 서로 다른 부서 또는 도메인은 이러한 데이터세트를 1개 이상 사용해야 한다. 

데이터 레이크에서 데이터 팀은 다양한 도메인을 위한 분석 파이프라인을 준비하여 이러한 도메인 팀의 수많은 사용자가 데이터를 사용할 수 있도록 해야 한다. 데이터를 정제하고, 풍부하게 만들며, (다양한 고객 니즈를 해결할 수 있는) 사용 가능한 데이터로 변환하기 전에, 데이터를 수집해야 하는 데이터 팀의 부담이 너무 크다.

어떻게 모든 단일 도메인 내 데이터의 특징을 이해할 수 있을까? 때때로 데이터는 다양한 도메인에서 제공되며, 데이터 팀은 특정 사용 사례뿐 아니라 도메인 요구사항까지 알아야 한다. 즉, 많은 입력 도메인(소스)을 필요한 대상 도메인의 출력에 맞춰야 하기 때문에 광범위한 분석이 필요하다.

게다가 조직적으로 고립돼 있다는 점이 어려움을 가중시킨다. 따라서 (데이터 팀에) 데이터를 제공하는 비즈니스팀은 팀 내에 데이터 전문가가 없기 때문에 인사이트를 얻을 수 있거나 정확한 데이터를 제공하는 방법을 모를 가능성이 크다. 

그래서 가트너는 비즈니스 리더와 IT 리더가 데이터 및 애널리틱스 전략에 있어서 데이터 레이크의 효율성과 유용성을 과대평가하고 있다고 밝힌 것이다. 

기업들이 데이터를 효과적으로 사용하려면 정확한 의미 체계를 활용하여 (데이터가 생성된) 도메인에서 데이터를 성숙시켜야 한다. 또한 데이터를 본래 있던 위치에서 액세스할 수 있어야 하고, 다른 도메인의 사용자가 발견 및 활용할 수 있도록 이는 최신 상태로 유지돼야 한다. 

이를 위해 그리고 데이터 액세스의 다른 혁신을 달성하고 추가적인 맥락을 통합하며 전례 없는 데이터 수익 실현 능력을 지원하기 위해 조직 및 데이터 아키텍처의 변화가 필요하다. 

가트너에 따르면 이 변화의 열쇠는 ‘분산 네트워크 환경에서 원활한 데이터 액세스 및 공유’를 지원하기 위해 여러 데이터 관리 기술이 작동하는 디자인 개념인 ‘데이터 패브릭(Data Fabric)’이다. 

데이터 패브릭은 통합 데이터 관리 프레임워크를 활용하여 이를 달성한다. 이 프레임워크는 데이터 통합, 데이터 시각화, 데이터 관리 기술의 조합을 통합하여 데이터 준비 가속화 등의 여러 비즈니스 프로세스를 지원하는 의미 계층을 생성한다. 

데이터 패브릭이 동적으로 바뀌면서 ‘데이터 메시(Data Mesh)’로 전환하고 있다. 이는 진화된 분산 데이터 아키텍처로, 메타데이터에 초점을 맞추며 머신러닝을 통해 데이터 발견과 범주화를 가능하게 할 뿐만 아니라 시스템 성능을 최적화한다. 

데이터 메시 비전은 데이터 가상화를 기반으로 한다. 여기서 데이터는 여러 비즈니스 유닛에 걸친 소스에 위치하며 유연하고 지능적인 데이터 인프라 덕분에 기업 전반의 사용자가 셀프 서비스 방식으로 소비할 수 있다. 

데이터 패브릭과 데이터 메시 아키텍처는 기업이 도메인 데이터를 효과적으로 사용하는 데 있어 겪는 기술적 및 조직적 문제를 극복하는 데 필수적이다. 

하지만 데이터 메시 아키텍처에는 수많은 접근방식이 있고, 이는 채택한 접근법의 강도에 따라 달라질 수 있다. 데이터 메시 접근법 중 하나는 기업이 중앙 집중식 데이터 환경에 있더라도 분산 방식으로 데이터를 수집하여 도메인 데이터를 본래 위치에 그대로 유지하는 기능을 확보하는 것이다. 

이 데이터 메시 접근방식을 사용하면 데이터 팀이 도메인을 파악해야 하는 복잡성과 데이터 소스를 대상 도메인에 필요한 결과와 일치시켜야 하는 필요성이 지식 그래프와 의미론적 메타데이터 계층을 사용해 효과적으로 자동화된다. 

이 계층은 기업이 데이터를 쉽게 찾고 검색할 수 있도록 데이터의 의미를 설명해준다(사람에게는 사용하기 쉬운 데이터 카탈로그를 제공하며, 기계에는 어떤 데이터를 어느 시점에 가져와야 하는지 알려준다).

공유 메타데이터 모델을 사용해 모든 부분을 자동화된 방식으로 손쉽게 구성하여 상호운용성을 제공할 수도 있다. 여기서 설명하는 계층과 리소스는 조직에 기존 데이터 플랫폼과 아키텍처를 사용하여 얻을 수 없는 지식을 제공한다.

데이터 레이크와 데이터 웨어하우스는 구식이 아니다. 이제 새로운 세대의 데이터 인프라 노드다. 

* Szymon Klarman은 블랙스완 테크놀로지스(BlackSwan Technologies)의 지식 아키텍트다. ciokr@idg.co.kr

 



2021.09.10

칼럼ㅣ데이터 레이크 저물고 '데이터 패브릭' 떠오른다

Szymon Klarman | IDG Connect
데이터 레이크와 데이터 웨어하우스가 여전히 유용하긴 하지만 이제 데이터 관리에 새로운 접근법을 취할 때다. 

지난 20년 동안 CIO, CDO, 애널리스트가 기업 인프라에 저장된 데이터에 관해 의사결정을 내리면서 중앙 집중화를 강조하는 문화를 조성했다. IT 팀의 보호 아래에서 데이터를 처리할 때 (데이터가) 가장 잘 통제되고 유용하다는 것이었다. 

이 기간에는 해당 논리에 관한 논쟁이 있을 수 없었다. 이로 인해 데이터 웨어하우징을 통한 첫 번째 데이터 통합의 물결이 일었다. 1990년대에 이는 데이터를 사전 정의된 사용 사례에 맞춰 고정된 구조적 형태로 사전 처리 및 저장하여 여러 비즈니스 인텔리전스 플랫폼을 단일 솔루션으로 연결하는 효과적인 방법이었다. 
 
ⓒGetty Images

하지만 시간이 지나면서 이러한 아키텍처에 광범위한 사용자 정의 및 데이터 유지관리가 필요하다는 게 명확해졌고, 확장 요건에도 어려움을 겪었다. 게다가 데이터 프로젝트의 소유권을 부서별로 가져가기 어려웠기 때문에 데이터가 비즈니스에 미치는 전반적인 영향도 감소했다. 

그리고 이 문제를 해결하기 위해 새로운 유형의 아키텍처 ‘데이터 레이크’가 등장했다. 기업들은 데이터 레이크를 통해 모든 정형 및 비정형 데이터를 규모에 상관없이 중앙 저장소에 저장할 수 있었다. 

데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했다. 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었다. 

하지만 이런 발전에도 불구하고 한계점은 남아 있었다. 기업 내의 데이터 팀은 보유한 데이터로 더 많은 일을 할 수 있었지만 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하느라 진땀을 빼고 있었다. 

데이터 플랫폼 아키텍처의 모놀리식 특징으로 인해 데이터 팀은 관리 중인 데이터를 제대로 파악할 수 없었다. 왜일까? 데이터 레이크 아키텍처를 기반으로 하는 이러한 중앙 집중식 데이터 플랫폼은 조직 내에서 서로 다른 도메인에 속하는 데이터를 호스팅하고 소유한다. 

데이터 레이크와 데이터 웨어하우스 접근법의 핵심은 데이터를 (한 장소에서 다른 장소로) 물리적으로 이동하는 것이고, 여기서 이를 관리할 스토리지 및 컴퓨팅 성능을 모두 갖추곤 있지만 이게 기업이 (보유한) 데이터를 최대한 활용할 수 있는 최선의 방법은 아니다.

금융 서비스 조직을 예로 들어보자. 은행의 데이터 플랫폼에 수집되는 데이터에는 고객신원확인(Know Your Customer; KYC)과 같은 컴플라이언스 정보, 제품 및 서비스 기록 등의 계정 정보, 신용 등급, 수입, 부채, 은행과의 상호작용 등이 포함된다.

또한 이 플랫폼은 은행의 인프라 성능에 관한 운영 데이터와 외부 데이터(예: 부정적인 뉴스 및 소셜 미디어 분위기 등)도 수집한다. 서로 다른 부서 또는 도메인은 이러한 데이터세트를 1개 이상 사용해야 한다. 

데이터 레이크에서 데이터 팀은 다양한 도메인을 위한 분석 파이프라인을 준비하여 이러한 도메인 팀의 수많은 사용자가 데이터를 사용할 수 있도록 해야 한다. 데이터를 정제하고, 풍부하게 만들며, (다양한 고객 니즈를 해결할 수 있는) 사용 가능한 데이터로 변환하기 전에, 데이터를 수집해야 하는 데이터 팀의 부담이 너무 크다.

어떻게 모든 단일 도메인 내 데이터의 특징을 이해할 수 있을까? 때때로 데이터는 다양한 도메인에서 제공되며, 데이터 팀은 특정 사용 사례뿐 아니라 도메인 요구사항까지 알아야 한다. 즉, 많은 입력 도메인(소스)을 필요한 대상 도메인의 출력에 맞춰야 하기 때문에 광범위한 분석이 필요하다.

게다가 조직적으로 고립돼 있다는 점이 어려움을 가중시킨다. 따라서 (데이터 팀에) 데이터를 제공하는 비즈니스팀은 팀 내에 데이터 전문가가 없기 때문에 인사이트를 얻을 수 있거나 정확한 데이터를 제공하는 방법을 모를 가능성이 크다. 

그래서 가트너는 비즈니스 리더와 IT 리더가 데이터 및 애널리틱스 전략에 있어서 데이터 레이크의 효율성과 유용성을 과대평가하고 있다고 밝힌 것이다. 

기업들이 데이터를 효과적으로 사용하려면 정확한 의미 체계를 활용하여 (데이터가 생성된) 도메인에서 데이터를 성숙시켜야 한다. 또한 데이터를 본래 있던 위치에서 액세스할 수 있어야 하고, 다른 도메인의 사용자가 발견 및 활용할 수 있도록 이는 최신 상태로 유지돼야 한다. 

이를 위해 그리고 데이터 액세스의 다른 혁신을 달성하고 추가적인 맥락을 통합하며 전례 없는 데이터 수익 실현 능력을 지원하기 위해 조직 및 데이터 아키텍처의 변화가 필요하다. 

가트너에 따르면 이 변화의 열쇠는 ‘분산 네트워크 환경에서 원활한 데이터 액세스 및 공유’를 지원하기 위해 여러 데이터 관리 기술이 작동하는 디자인 개념인 ‘데이터 패브릭(Data Fabric)’이다. 

데이터 패브릭은 통합 데이터 관리 프레임워크를 활용하여 이를 달성한다. 이 프레임워크는 데이터 통합, 데이터 시각화, 데이터 관리 기술의 조합을 통합하여 데이터 준비 가속화 등의 여러 비즈니스 프로세스를 지원하는 의미 계층을 생성한다. 

데이터 패브릭이 동적으로 바뀌면서 ‘데이터 메시(Data Mesh)’로 전환하고 있다. 이는 진화된 분산 데이터 아키텍처로, 메타데이터에 초점을 맞추며 머신러닝을 통해 데이터 발견과 범주화를 가능하게 할 뿐만 아니라 시스템 성능을 최적화한다. 

데이터 메시 비전은 데이터 가상화를 기반으로 한다. 여기서 데이터는 여러 비즈니스 유닛에 걸친 소스에 위치하며 유연하고 지능적인 데이터 인프라 덕분에 기업 전반의 사용자가 셀프 서비스 방식으로 소비할 수 있다. 

데이터 패브릭과 데이터 메시 아키텍처는 기업이 도메인 데이터를 효과적으로 사용하는 데 있어 겪는 기술적 및 조직적 문제를 극복하는 데 필수적이다. 

하지만 데이터 메시 아키텍처에는 수많은 접근방식이 있고, 이는 채택한 접근법의 강도에 따라 달라질 수 있다. 데이터 메시 접근법 중 하나는 기업이 중앙 집중식 데이터 환경에 있더라도 분산 방식으로 데이터를 수집하여 도메인 데이터를 본래 위치에 그대로 유지하는 기능을 확보하는 것이다. 

이 데이터 메시 접근방식을 사용하면 데이터 팀이 도메인을 파악해야 하는 복잡성과 데이터 소스를 대상 도메인에 필요한 결과와 일치시켜야 하는 필요성이 지식 그래프와 의미론적 메타데이터 계층을 사용해 효과적으로 자동화된다. 

이 계층은 기업이 데이터를 쉽게 찾고 검색할 수 있도록 데이터의 의미를 설명해준다(사람에게는 사용하기 쉬운 데이터 카탈로그를 제공하며, 기계에는 어떤 데이터를 어느 시점에 가져와야 하는지 알려준다).

공유 메타데이터 모델을 사용해 모든 부분을 자동화된 방식으로 손쉽게 구성하여 상호운용성을 제공할 수도 있다. 여기서 설명하는 계층과 리소스는 조직에 기존 데이터 플랫폼과 아키텍처를 사용하여 얻을 수 없는 지식을 제공한다.

데이터 레이크와 데이터 웨어하우스는 구식이 아니다. 이제 새로운 세대의 데이터 인프라 노드다. 

* Szymon Klarman은 블랙스완 테크놀로지스(BlackSwan Technologies)의 지식 아키텍트다. ciokr@idg.co.kr

 

X