2021.10.26

클라우드 데이터, 처음부터 제대로 저장하는 3가지 원칙

David Linthicum | InfoWorld
기업의 데이터를 전통적인 온프레미스 시스템에서 퍼블릭 클라우드로 옮길 때 가장 중요한 것이 어떻게 데이터 작업을 할 것인지다. 많은 기업이 기존 데이터 기술과 거버넌스, 보안을 클라우드로 단순히 복제한다. 데이터를 저장, 사용하는 방법을 개선하거나 이른바 재플랫폼화하는 것에 대해서는 거의 신경 쓰지 않는다.
 
ⓒ Getty Images Bank

하지만 데이터를 저장, 사용하는 방법은 매우 다양하다. 오래된 순서로 나열하면, 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스, 데이터 매시 등이 있고 이 중 몇 가지 혹은 이들 전부를 모두 활용하는 하이브리드 방식도 있다.

이들은 모두 개념적으로 그리 어렵지 않지만, 기존 데이터를 클라우드로 단순히 옮기는 실용적인 방법을 찾는 이들에게는 오히려 혼란을 줄 수 있다. 게다가 각 방법은 별도의 기술 스택과 연동된다. 즉, 데이터 웨어하우스 데이터베이스, 오브젝트 스토리지, 마스터 데이터 관리, 데이터 시각화 등에서 차이가 있다.

그렇다면 클라우드로 이전하는 데이터를 다룰 때 더 실용적인 방법은 무엇일까. 필자는 시작 단계에서 다음과 같은 3가지를 추천한다.

먼저 클라우드로 옮길 데이터를 확정해야 한다. 집을 이사하기에 앞서 잡동사니를 정리하는 것처럼, 기업의 내부 데이터 역시 그동안 철저하게 점검하지 않았다면 클라우드 이동에 앞서 손을 봐야 한다.

문제는 대부분의 경우 마이그레이션 예산이 빠듯하고 이런 업데이트 작업은 물론 데이터 설계와 기술을 업그레이드할 투자 여력이 거의 없다는 점이다. 데이터를 옮기다 보면 스키마를 재설계하고 메타데이터 관리와 데이터 거버넌스를 추가하거나, SQL에서 NoSQL로 바꾸는 등 새로운 데이터베이스 기술 모델을 사용해야 하는데 예산 때문에 이런 작업이 하기가 쉽지 않다.

이렇게 되면 실제 이전 과정에서 데이터를 수정할 시간을 확보하지 못하고 결국 데이터를 2번 마이그레이션해야 할 가능성이 높다. 즉, 데이터를 퍼블릭 클라우드의 플랫폼/데이터베이스와 유사한 곳으로 들어 옮기고 나중에 퍼블릭 클라우드의 새로운 스키마, 데이터베이스, 데이로 전환해 데이터를 수정해야 하는 것이다. 결국은 하게 될 일이므로 처음부터 고려하는 것이 좋다.

둘째, 필요하다면 데이터 시각화를 도입해야 한다. 데이터 시각화 툴을 이용하면, 다양한 백엔드 물리 데이터베이스를 활용해 소프트웨어 내부에만 존재하는 데이터베이스 구조를 만들 수 있다. 이것은 클라우드에 맞춰 현대화된 기술 중 비교적 오래된 것인데, 이를 이용하면 물리적인 데이터베이스 디자인 관련된 다양한 문제를 백엔드 데이터베이스를 물리적으로 수정하지 않고도 해결할 수 있다.

시각화의 유용성은, 데이터에 대한 관점을 제공하는 추상화 계층이 애플리케이션과 사용자가 보고  활용하길 원하는 것과 얼마나 잘 맞는가에 따라 결정된다. 단, 이때 물리적인 데이터베이스의 문제를 해결하려고 해서는 안 된다. 이런 작업을 하면 데이터베이스 리엔지니어링이 무용지물이 될 수 있다.

마지막으로, 기존 데이터베이스에 대한 로드맵을 작성하거나 강화하라. 대부분 기업이 클라우드에 있는 데이터베이스에 대한 전망 혹은 계획을 하고 있다. 하지만 이를 문서화하거나, 개발자와 옵스팀, 보안팀 등과 공유하고 합의하는 기업은 거의 없다.

핵심은 클라우드 내외부의 데이터베이스 기술에 대한 상세한 로드맵을 만드는 것이다. 데이터베이스의 발전과 새로운 기술로의 전환, 데이터 보안과 거버넌스에 대한 계획 등 향후 5년간 발생할 수 있는 모든 것을 포함해야 한다. 이는 데이터를 저장, 활용하는 방법을 개선하기 위한 것으로, 트랜잭션 시스템과 애널리틱 시스템을 모두 포괄한다.

이 과정에서 몇 가지 주의해야 할 것이 있다. 특정 데이터 매시 등은 반드시 고려해야 한다. 베스트 프랙티스와 새로 부상하는 아키텍처 패턴도 살펴봐야 한다. 그렇다고 기술 속에서 길을 잃어서는 안 된다. 실용적이어야 한다는 것을 잊어서는 안 된다. 데이터는 기업이 가진 가장 중요한 자산이다. 그러나 종종 기업 IT의 1순위처럼 다뤄지지 않는 것이 현실이다. 이제는 기존의 잘못된 관행을 바꿀 때다. editor@itworld.co.kr



2021.10.26

클라우드 데이터, 처음부터 제대로 저장하는 3가지 원칙

David Linthicum | InfoWorld
기업의 데이터를 전통적인 온프레미스 시스템에서 퍼블릭 클라우드로 옮길 때 가장 중요한 것이 어떻게 데이터 작업을 할 것인지다. 많은 기업이 기존 데이터 기술과 거버넌스, 보안을 클라우드로 단순히 복제한다. 데이터를 저장, 사용하는 방법을 개선하거나 이른바 재플랫폼화하는 것에 대해서는 거의 신경 쓰지 않는다.
 
ⓒ Getty Images Bank

하지만 데이터를 저장, 사용하는 방법은 매우 다양하다. 오래된 순서로 나열하면, 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스, 데이터 매시 등이 있고 이 중 몇 가지 혹은 이들 전부를 모두 활용하는 하이브리드 방식도 있다.

이들은 모두 개념적으로 그리 어렵지 않지만, 기존 데이터를 클라우드로 단순히 옮기는 실용적인 방법을 찾는 이들에게는 오히려 혼란을 줄 수 있다. 게다가 각 방법은 별도의 기술 스택과 연동된다. 즉, 데이터 웨어하우스 데이터베이스, 오브젝트 스토리지, 마스터 데이터 관리, 데이터 시각화 등에서 차이가 있다.

그렇다면 클라우드로 이전하는 데이터를 다룰 때 더 실용적인 방법은 무엇일까. 필자는 시작 단계에서 다음과 같은 3가지를 추천한다.

먼저 클라우드로 옮길 데이터를 확정해야 한다. 집을 이사하기에 앞서 잡동사니를 정리하는 것처럼, 기업의 내부 데이터 역시 그동안 철저하게 점검하지 않았다면 클라우드 이동에 앞서 손을 봐야 한다.

문제는 대부분의 경우 마이그레이션 예산이 빠듯하고 이런 업데이트 작업은 물론 데이터 설계와 기술을 업그레이드할 투자 여력이 거의 없다는 점이다. 데이터를 옮기다 보면 스키마를 재설계하고 메타데이터 관리와 데이터 거버넌스를 추가하거나, SQL에서 NoSQL로 바꾸는 등 새로운 데이터베이스 기술 모델을 사용해야 하는데 예산 때문에 이런 작업이 하기가 쉽지 않다.

이렇게 되면 실제 이전 과정에서 데이터를 수정할 시간을 확보하지 못하고 결국 데이터를 2번 마이그레이션해야 할 가능성이 높다. 즉, 데이터를 퍼블릭 클라우드의 플랫폼/데이터베이스와 유사한 곳으로 들어 옮기고 나중에 퍼블릭 클라우드의 새로운 스키마, 데이터베이스, 데이로 전환해 데이터를 수정해야 하는 것이다. 결국은 하게 될 일이므로 처음부터 고려하는 것이 좋다.

둘째, 필요하다면 데이터 시각화를 도입해야 한다. 데이터 시각화 툴을 이용하면, 다양한 백엔드 물리 데이터베이스를 활용해 소프트웨어 내부에만 존재하는 데이터베이스 구조를 만들 수 있다. 이것은 클라우드에 맞춰 현대화된 기술 중 비교적 오래된 것인데, 이를 이용하면 물리적인 데이터베이스 디자인 관련된 다양한 문제를 백엔드 데이터베이스를 물리적으로 수정하지 않고도 해결할 수 있다.

시각화의 유용성은, 데이터에 대한 관점을 제공하는 추상화 계층이 애플리케이션과 사용자가 보고  활용하길 원하는 것과 얼마나 잘 맞는가에 따라 결정된다. 단, 이때 물리적인 데이터베이스의 문제를 해결하려고 해서는 안 된다. 이런 작업을 하면 데이터베이스 리엔지니어링이 무용지물이 될 수 있다.

마지막으로, 기존 데이터베이스에 대한 로드맵을 작성하거나 강화하라. 대부분 기업이 클라우드에 있는 데이터베이스에 대한 전망 혹은 계획을 하고 있다. 하지만 이를 문서화하거나, 개발자와 옵스팀, 보안팀 등과 공유하고 합의하는 기업은 거의 없다.

핵심은 클라우드 내외부의 데이터베이스 기술에 대한 상세한 로드맵을 만드는 것이다. 데이터베이스의 발전과 새로운 기술로의 전환, 데이터 보안과 거버넌스에 대한 계획 등 향후 5년간 발생할 수 있는 모든 것을 포함해야 한다. 이는 데이터를 저장, 활용하는 방법을 개선하기 위한 것으로, 트랜잭션 시스템과 애널리틱 시스템을 모두 포괄한다.

이 과정에서 몇 가지 주의해야 할 것이 있다. 특정 데이터 매시 등은 반드시 고려해야 한다. 베스트 프랙티스와 새로 부상하는 아키텍처 패턴도 살펴봐야 한다. 그렇다고 기술 속에서 길을 잃어서는 안 된다. 실용적이어야 한다는 것을 잊어서는 안 된다. 데이터는 기업이 가진 가장 중요한 자산이다. 그러나 종종 기업 IT의 1순위처럼 다뤄지지 않는 것이 현실이다. 이제는 기존의 잘못된 관행을 바꿀 때다. editor@itworld.co.kr

X