2015.08.03

데이터 호수에 대해 CIO가 알아야 할 5가지

Bob Violino | CIO
데이터 호수는 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 대규모 스토리지 저장소다. 하지만 데이터 호수가 빅데이터 프로젝트를 위한 만병통치약은 아니다.




1. 아직 개념이 새롭다. 펜타호(Pentaho)의 CTO 제임스 딕슨이 언급했듯이 데이터 호수라는 단어는 몇 년 전부터 유행이 됐다. 하지만 IDC 애널리스트인 애쉬시 내드카니에 따르면, 기업 자원으로서 데이터 호수에 대한 생각은 여전히 초기 단계에 머물러 있다. 데이터 호수는 대용량의, 비교적 저렴한 스토리지 저장소로 정의된다. 마치 하둡처럼 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 저장소다. 데이터 호수는 처리되지 않고 관리되지 않은 가장 원초적인 형태로 데이터를 보관하고 있다. 

2. 바로 사용할 수 있는 완성된 형태의 데이터 호수를 구입할 수 없다. 관련 업체들은 빅데이터 프로젝트를 위한 만병통치약으로 데이터 호수를 판매하고 있다. 하지만 가트너에 따르면, 이는 사기다. "데이터웨어 하우스와 마찬가지로 데이터의 호수는 개념이 아니라 기술"이라고 가트너 애널리스트 닉 휴데커는 지적했다. "데이터 호수를 구축하기 위해 몇 가지 기술을 사용할 수 있다. 그 핵심은 데이터의 호수는 데이터 스토리지 전략이다"고 그는 전했다. 

3. 데이터 호수는 빅데이터에 대한 욕구를 자극할 것이다. 데이터 호수는 보관하거나 나중에 사용하기 위해 데이터를 처리하고 내보내며 모으는 등 일련의 과정을 위해 만들어 졌다. "데이터웨어하우스의 스토리지 비용 모델이 데이터 취합 대용량 데이터 취합에 적합하다면, 데이터 호수도 그렇다"라고 휴대커는 말했다. "또 데이터 호수는 데이터가 사용 가능하기 전에 스키마를 작성하는 사용자를 필요로 하지 않는다. 데이터가 쉽게 취합할 수 있도록 스키마가 생성되고 데이터가 로딩된 경우에 적용된다"고 그는 덧붙였다. 

4. CIO는 여러 이해관계자들을 개입시켜야 한다. 데이터 호수는 IT뿐 아니라 기업 전체의 자원이다. 따라서 모든 이해 관계자들은 계획 데이터 호수의 프로젝트에 개입해야 한다. "그것은 기업의 빅데이터 아키텍처에 핵심이다. 따라서 단독으로는 실현 될 수 없다"라고 내드카니는 말했다. 데이터 호수 프로젝트는 IT관리자뿐 아니라 현업 임원들과 사용자들을 참여시켜야 하며 스토리지 전문가도 중요한 역할을 해야 한다. 내드카니는 "결국 데이터 호수는 스토리지 플랫폼이기 때문에 회사는 설계 및 구현 스토리지 팀을 포함시켜야 한다"고 말했다.

5. 가장 큰 혜택은 기술에서 나오는 게 아니다. 데이터 호수의 비즈니스 가치는 어떤 기술을 선택하는 지와는 거의 관계가 없다고 휴대커는 말했다. "대신 비즈니스 가치는 CI가 호수에 접목할 수 있는 데이터 과학 기술력에서 파생된다"고 전했다. "데이터 호수는 기존의 분석 플랫폼과 인프라의 대안이 아니다. 대신 이것들은 기존 사업을 보완하고 새로운 문제 발견을 지원하고 있다"고 그는 밝혔다. 일단 이 의문점들을 발견한 다음 CIO는 답변을 위해 '최적화'한다고 그는 덧붙였다. 이어서 휴대커는 "최적화란 데이터 호수에서 데이터마트와 데이터웨어하우스(DW)로 이동하는 것을 의미할 수 있다”고 말했다. 

*Bob Violino는 자유기고가다. ciokr@idg.co.kr



2015.08.03

데이터 호수에 대해 CIO가 알아야 할 5가지

Bob Violino | CIO
데이터 호수는 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 대규모 스토리지 저장소다. 하지만 데이터 호수가 빅데이터 프로젝트를 위한 만병통치약은 아니다.




1. 아직 개념이 새롭다. 펜타호(Pentaho)의 CTO 제임스 딕슨이 언급했듯이 데이터 호수라는 단어는 몇 년 전부터 유행이 됐다. 하지만 IDC 애널리스트인 애쉬시 내드카니에 따르면, 기업 자원으로서 데이터 호수에 대한 생각은 여전히 초기 단계에 머물러 있다. 데이터 호수는 대용량의, 비교적 저렴한 스토리지 저장소로 정의된다. 마치 하둡처럼 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 저장소다. 데이터 호수는 처리되지 않고 관리되지 않은 가장 원초적인 형태로 데이터를 보관하고 있다. 

2. 바로 사용할 수 있는 완성된 형태의 데이터 호수를 구입할 수 없다. 관련 업체들은 빅데이터 프로젝트를 위한 만병통치약으로 데이터 호수를 판매하고 있다. 하지만 가트너에 따르면, 이는 사기다. "데이터웨어 하우스와 마찬가지로 데이터의 호수는 개념이 아니라 기술"이라고 가트너 애널리스트 닉 휴데커는 지적했다. "데이터 호수를 구축하기 위해 몇 가지 기술을 사용할 수 있다. 그 핵심은 데이터의 호수는 데이터 스토리지 전략이다"고 그는 전했다. 

3. 데이터 호수는 빅데이터에 대한 욕구를 자극할 것이다. 데이터 호수는 보관하거나 나중에 사용하기 위해 데이터를 처리하고 내보내며 모으는 등 일련의 과정을 위해 만들어 졌다. "데이터웨어하우스의 스토리지 비용 모델이 데이터 취합 대용량 데이터 취합에 적합하다면, 데이터 호수도 그렇다"라고 휴대커는 말했다. "또 데이터 호수는 데이터가 사용 가능하기 전에 스키마를 작성하는 사용자를 필요로 하지 않는다. 데이터가 쉽게 취합할 수 있도록 스키마가 생성되고 데이터가 로딩된 경우에 적용된다"고 그는 덧붙였다. 

4. CIO는 여러 이해관계자들을 개입시켜야 한다. 데이터 호수는 IT뿐 아니라 기업 전체의 자원이다. 따라서 모든 이해 관계자들은 계획 데이터 호수의 프로젝트에 개입해야 한다. "그것은 기업의 빅데이터 아키텍처에 핵심이다. 따라서 단독으로는 실현 될 수 없다"라고 내드카니는 말했다. 데이터 호수 프로젝트는 IT관리자뿐 아니라 현업 임원들과 사용자들을 참여시켜야 하며 스토리지 전문가도 중요한 역할을 해야 한다. 내드카니는 "결국 데이터 호수는 스토리지 플랫폼이기 때문에 회사는 설계 및 구현 스토리지 팀을 포함시켜야 한다"고 말했다.

5. 가장 큰 혜택은 기술에서 나오는 게 아니다. 데이터 호수의 비즈니스 가치는 어떤 기술을 선택하는 지와는 거의 관계가 없다고 휴대커는 말했다. "대신 비즈니스 가치는 CI가 호수에 접목할 수 있는 데이터 과학 기술력에서 파생된다"고 전했다. "데이터 호수는 기존의 분석 플랫폼과 인프라의 대안이 아니다. 대신 이것들은 기존 사업을 보완하고 새로운 문제 발견을 지원하고 있다"고 그는 밝혔다. 일단 이 의문점들을 발견한 다음 CIO는 답변을 위해 '최적화'한다고 그는 덧붙였다. 이어서 휴대커는 "최적화란 데이터 호수에서 데이터마트와 데이터웨어하우스(DW)로 이동하는 것을 의미할 수 있다”고 말했다. 

*Bob Violino는 자유기고가다. ciokr@idg.co.kr

X