Offcanvas

BI / CIO / 애플리케이션 / 클라우드

기고 | 클라우드 데이터 가지치기를 위한 전략

2011.11.11 David Taber  |  CIO
해가 갈수록 디스크 가격이 급락하고 있다. 1TB를 50달러에 구매할 수 있기 때문에 종종 무언가 문제가 있는 것이 아닌가 하고 조심하게 되기도 한다.

하지만 클라우드에서는 이야기가 달라진다. 만약 너무 가치가 낮은 데이터나 너무 많은 수의 파일을 가지고 있다면 두 가지 방식으로 비용이 발생할 수 있다. 첫째는 월간 저장 요금이며 둘째는 검색, 보기, 보고, 대시보드 업데이트 시의 피할 수 없는 성능 하락이라 할 수 있다. 클라우드에서는 데이터 가지치기를 위한 비용도 발생한다.

우선은 문제가 문서인지 아니면 테이블 데이터(Table Data)인지 살펴 봐야 한다. 이런 것들은 일반적으로 상이한 저장 한계를 가지고 있으며 가지치기를 위한 전략과 툴도 달라지기 때문이다.

문서는 일반적으로 기록에 대한 첨부물(체결된 계약의 PDF 문서)로 제공되기 때문에 사용자들이 쉽게 못 찾을 수도 있다. 결과적으로 동일한 문서가 3~4개의 상이한 기록에 첨부될 수 있다. 또한 사람들이 급격하게 수정되는 문서의 모든 버전을 첨부하는 경우를 살펴볼 필요도 있다.

첨부된 기록 ID와 마지막 업데이트 날짜를 포함해 시스템 내 모든 문서 목록을 내보내고 스프레드시트 필터를 이용해 가능한 중복 문서를 찾아내야 한다. 파일의 내용을 검토함으로써 좀더 정확하게 작업을 처리하는 중복 파일 검색 툴이 있지만 클라우드 애플리케이션에서 직접 작동하는 툴이 있는지는 모르겠다.

세밀한 분석을 위해 자사 서버에 있는 모든 파일 콘텐츠를 다운로드할 생각이 아니라면 메타데이터(Metadata) 분석을 통해 어떤 파일을 삭제해야 하는지 찾아내야 한다. 광학 저장매체의 가격이 저렴하기 때문에 추후에 누군가 이의를 제기할 것에 대비해 클라우드에서 삭제한 모든 파일을 저장해 둘 수도 있을 것이다.

테이블 데이터의 경우 클라우드의 종류에 따라 많은 시스템 중심적인 트릭과 기술이 존재한다. 하지만 일반적인 작업 흐름은 아래와 같다:

• 어떤 클라우드 스토리지에 문제가 있는지 파악하라. 회계시스템 같은 일부 시스템은 가지치기가 그다지 용이하지 않다. 왜냐하면 회계 감사를 위해 오랜 기간 동안 모든 세부 사항을 보관해야 하기 때문이다. 마케팅 자동화 또는 로그 분석 시스템의 경우, 처리 속도를 현저하게 떨어뜨리는 엄청난 용량의 데이터를 빠른 속도로 수집한다.

• 어떤 테이블이 총 용량의 20% 이상을 차지하는지 파악하라. 여기에 초점을 맞추기 바란다.

• 각 표에서 개별적인 기록의 가치를 이해하라. 회계 또는 연락처 같은 일부 테이블은 특히 이런 테이블들이 외부 시스템과 통합 될 때의 콘텐츠와 기록 삭제의 영향 때문에 거의 가지치기가 불가능하다. 마케팅 자동화 시스템에서 ‘익명의 리드(Anonymous Lead)" 등의 테이블은 그냥 내버려 둠으로써 자연스럽게 정리할 수 있다.

• 작업에 앞서 디스크나 광학 저장매체의 데이터를 클라우드로 백업하라. 이보다 더 분명히 말할 수는 없을 것이다. 이것은 절대로 선택이 아니다.

• 자유롭게 가지치기 할 수 있는 테이블의 경우 ‘신호 대 잡음비율(Signal to Noise Ratio)’를 찾으라. 어떤 정보가 전혀 중요하지 않은지에 대한 수직적인 시간 축(Time Horizon)이 있는가? 예를 들어 마케팅 자동화나 웹 모니터링 클라우드에서 6개월 이내에 다시 방문하지 않는 익명의 방문자를 신경 쓰는가? 마이너스 점수를 가진 모든 리드(Leads)를 삭제해도 될까? 우선은 영향을 받는 모든 사용자 집단의 동의를 얻도록 하되 신호대잡음 기반의 가지치기를 통해 수백만 개의 기록을 순식간에 없앨 수 있다.

• 일부 테이블은 적절한 신호대잡음비를 갖고 있지만 저장된 세부정보의 용량만이 항상 중요한 것은 아니다. 예를 들어 많은 마케팅 자동화와 이메일 블래스팅(Blasting) 시스템은 중요한 이메일과 웹 상호작용을 기록하기 위한 활동 테이블을 사용한다. 이런 활동 테이블들은 시스템 저장소의 절반을 차지할 수 있다. 하지만 1년 후에 한 사람이 오늘 비디오 A를 보거나 어제 비디오 B를 본 것이 얼마나 중요할까? 따라서 적절한 기준을 통해 이를 판단하기 바란다.

만약 특정 세부정보가 누군가의 결정이나 행동을 실제적으로 바꾸지 않는다면 이것은 더 이상 ‘정보’가 아니다. 이런 경우에 우리는 압축(Compression) 접근방식을 사용하기를 추천한다. 정보를 보존하되 6개월 이상 된 정보를 삭제한다. 일반적으로 과거 내역은 누적 기록(Tally), 토큰(Token) 문자열, 심지어 매우 작은 저장용량을 필요로 하는 비트맵(Bitmap) 등을 포함한 커스텀 테이블로 저장된다. 이런 전략에는 신중함, 사용자 입력, 맞춤 코드 개발 등이 요구되지만 정보의 가치에 기반한 지속적인 가지치기를 제공할 수 있다.

• 일부 테이블(특히 리드와 연락처)은 특히 기업의 리드 수집 및 처리 프로세스에 문제가 있을 때 중복 콘텐츠를 빠른 속도로 수집할 수 있다. 만약 클라우드 시스템에 IT업체가 제공하는 중복제거 툴이 있다면 적절한 것을 구매해 사용하기 바란다. 가장 좋은 툴은 퍼지 논리(Fuzzy Logic) 알고리즘을 가지고 있어 사용자가 데이터를 클라우드 외부로 옮길 필요 없이 중복 콘텐츠를 찾아 병합할 수 있는 기능을 제공한다.

병합 프로세스는 가능한 많은 데이터를 보존하지만 많은 데이터 충돌(예-동일한 1인에 대한 2개의 상이한 전화번호)이 있을 경우 병합에 앞서 쉐도우 필드(Shadow Field)를 생성하고 분기하는 데이터를 통해 이것들을 사전에 덧붙여야 할 수도 있다. 여러 가지 이유 때문에 데이터 병합은 단계적으로 실행해야 한다. 10만 개의 중복 콘텐츠를 제거하기 위해서는 검토 시간뿐 아니라 많은 CPU 시간도 소요된다. 병합은 되돌릴 수 없는 결과를 초래하기 때문에 서두르지 말기를 바란다.

지금까지 언급한 대부분의 내용은 프로세스의 변화라기 보다는 한 번에 적용하는 것들이다. 데이터 관리 프로세스를 향상시키는데 투자하지 않으면 주기적을 이런 문제를 겪어야 할 것이다. 그리고 이런 문제는 영원히 반복될 소지가 크다.

*David Taber는 ‘세일즈포스닷컴 성공의 비밀’의 저자이며 세일즈포스닷컴 관련 컨설팅 기업인 세일즈로지스틱스의 CEO다.  ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.