2011.10.07

사례 | 클라우드로 대용량 데이터를 저장하는 기업들-1부

David Braue | Computerworld
최근 저렴한 아카이빙, 손쉬운 접근, 그리고 온라인 분석 기능을 이유로 대용량 데이터를 클라우드에 저장하는 기업들이 점점 늘어나는 추세다. 그러나 이는 너무 위험한 발상일 수도 있다.

기업들은 저마다 자사가 관리하는 데이터 양이 방대하고 생각할 것이다. 하지만 제임스 반게이만큼은 아니다.

반게이는 호주 퀸즈랜드에 위치한 유틸리티 기업인 에르곤 에너지(Ergon Energy)에서 ROME(원격 감시 자동 경제 상황 모델링, Remote Observation Automated Modeling Economic Situation) 프로젝트의 프로그램 책임자다. ROME는 무선 레이더 관측을 통해 생성되고 퀸즈랜드 전역의 모든 전력 인프라를 센티미터 단위로 매핑할 데이터를 관리하고 분석하기 위한 기본 계획과 그러한 자산의 500m 내에 위치하는 수 억 그루의 나무를 3D로 모델링하는 것이다.

센티미터 단위의 해상도를 갖는 지도는 교외 지역에서는 60m로 확대될 수 있는 지적 지도의 정확도를 크게 개선할 수 있다. 이뿐만 아니라 에르곤 에너지가 자산을 좀 더 잘 추적하고 관리해 매년 나무의 성장률을 비교해 전력망에 손상을 입힐 수 있는 장애물들을 초기에 제거할 수 있도록 해준다. 이 프로젝트로 연간 4,400만 달러(호주달러)를 절감할 것으로 목표로 하며 이에 대한 논란이 있긴 하다. 반게이의 팀은 그러한 목표를 달성하기 위해 400TB의 데이터를 생성하고 관리하며 새로운 지도 데이터가 수집될 때마다 주기적으로 데이터를 업데이트 해야만 한다.

이 400TB의 데이터가 클라우드로 저장된다.

그러한 데이터는 구글의 클라우드 지리정보 시스템용 지리 데이터를 확보하기 위한 협력 프로젝트 어스 빌더(Earth Builder)의 자료로 활용되고, 모든 사용자들은 구글 어스(Google Earth)와 구글 맵스(Google Maps) 인터페이스를 통해 그러한 데이터를 이용할 수 있다. 어스 빌더는 물고기 서식지, 코알라 서식지, 유해 잡초 지역, 그리고 민감한 생태계 등의 지역을 보여주는 서드-파티 데이터의 오버레이(overlay)를 허용하고 에르곤 에너지는 그러한 앱을 여러 개 개발해 일반 대중이 최소한의 비용으로 구글의 마켓플레이스에서 이용할 수 있도록 할 예정이다.

그러한 것들은 초기의 수익 창출원이 되고 고유의 프로세스를 개선하기 위한 방안이 될 것이다. 무엇보다도 서로 다르게 축적돼 생성된 각각의 데이터 집합을 정확하게 확인하지 않고서는 불가능한 지리 데이터베이스의 오류를 바로잡기 위한 방법이 될 것이다. 퀸즈랜드 정부는 수 년 동안 80개 이상의 지도 표준을 제작해 왔다는 점을 감안한다면, 이는 매우 획기적인 변화가 될 것이다.  

게다가 에르곤 에너지는 400TB의 내부 전용 스토리지 네트워크를 구입하고 구축해 관리할 필요 없이 그러한 것들을 가능하게 할 수 있게 됐다.

이는 다른 말로 하자면 윈-윈 전략이다. “효율적인 운영을 위해 우리는 서로 다른 정부 기관과 민간 조직이 제공하는 수 백 가지의 데이터 집합이 필요하다”라고 반게이는 말했다.

그리고 그는 “각각의 데이터 집합은 서로 다른 좌표축을 사용하는 서로 다른 지도 기관이 제공해 우리가 실제적인 상황을 파악하는 것은 매우 어려웠다”라고 과거의 어려움을 토로했다. “그것들을 클라우드에 넣음으로써 하나의 버전으로 통합된 실시간 데이터가 생성되고 지리 정보 시스템과 호환될 수 있는 오픈 포맷으로 제공될 수 있다”라고 반게이는 설명했다.  
 


눈에서 멀어지면 마음에서도 멀어진다
대규모 데이터를 클라우드로 저장하는 것은 기업들이 있는데 몇몇 사례에서 문제점들이 발견됐다. 이 기업들이 데이터를 보호할 수 있는 방법을 제공하긴 하지만 이는 그리 간단한 문제가 아니었다. 기업과 정부가 자신들의 정보를 개방하는 추세로 접어들면서 데이터 보호 이슈가 더욱 부상하게 됐다.  

의료서비스 기업인 오스트레일리안 유니티(Australian Unity)의 엔터프라이즈 아키텍트 칼 미가엘은 “온-디맨드를 확산시키는 주요 원동력은 IT의 소비자화”라고 전했다. 미가엘에 따르면, 고객 수 확대는 데이터베이스 규모와 프로세싱 속도의 증가를 의미하고, 여러 기업들 특히 소규모 기업들은 이러한 것들을 쉽게 제공할 수 없다는 것이다.
 
데이터 공유와 관련해 큰 공을 들이고 있는 호주 연방 정부는 최근 미국 정부의 data.gov와 유사한 원 데이터베이스 정보 저장소인 ‘data.gov.au’를 개설함으로써 클라우드에 호스팅되는 데이터로 크게 한 걸음 내디뎠다.

호주 Data.gov.au 사이트 규모는 미국의 data.gov에 비해 여전히 미약한 편이다. 그러나 여기에는 공공 화장실과 ACT BBQ의 위치에서부터 아틀라스 오브 리빙 오스트레일리아(Atlas of Living Australia)의 카탈로그와 내셔널 네이티브 타이틀 트리뷰널(National Native Title Tribunal)의 새로운 데이터 집합에 이르는 수백 종의 데이터 집합이 포함돼 있다. 이 가운데 상당수는 인기 있는 정부 데이터 수집 업체들로부터 공급받은 것이다. 관심이 있는 호주 시민들은 원 데이터를 다운로드하여 분석한 후 자기가 원하는 콘텐츠로 가공해 사용할 수 있다.  

그러나 이러한 데이터 집합과 관련해 더욱 흥미를 불러일으키는 것은 그러한 데이터 집합이 호스팅되는 방식이다. 전용 웹 서버를 구축하기 위해서는 계약, 서버 인프라, 그리고 복잡한 서비스 수준 협약(SLA)이 수행돼야 하지만, data.gov.au는 아마존의 EC2(Elastic Compute Cloud)에 가상 머신으로 호스팅된 웹 서버에 모두 저장되고, 사실상 0에 가까운 비용으로 높은 이용성과 확장성을 가지고 실행된다.
 
아마존 EC2는 별도의 예산 편성 없이도 사용할 수 있으며 이는 정치들에게는 구미가 당기는 제안이다. “그러한 옵션의 좋은 면은 정부가 막대한 예산을 지출하지 않아도 된다는 것이다”라고 호주 정부 정보 관리 사무소(AGIMO) 기관 서비스실의 수석 비서실장 존 셰리담은 설명했다.
 
그리고 그는 “우리는 이미 데이터를 가지고 있다. 우리는 그러한 데이터를 자체적으로 저장하는 대신 사람들이 바로 사용할 수 있는 형태로 제공할 준비를 갖출 것이다. 퍼블릭 클라우드는 구축 비용이 적게 들고 소모성 지출 경비며 탄력적인데다가 사용한 만큼 비용을 지불할 수 있다. 또한, 우리가 공공에 제공할 데이터 집합은 퍼블릭 클라우드에 저장해도 문제가 발생하지 않는다. 대중이 그러한 데이터 집합의 사용처를 발견하게 된다면 그것은 잘 된 일이다”라고 말했다.
 
쓸모없는 데이터의 저장소가 되는 대신, 이러한 데이터 집합은 정부가 제공하는 정보를 새롭게 생각할 수 있도록 해주고 여러 사례에서 그것에 대한 반응은 놀라울 정도였다.

예를 들어, 월드 뱅크 오픈 데이터(World Bank Open Data) 프로젝트는 주요 글로벌 재정과 다른 데이터가 들어있는 7,000개 이상의 데이터 집합을 포함하며 450만 명 이상의 사용자들이 이용하고 있다.

월드 뱅크의 데이터 큐레이터는 최근 뉴욕타임즈와의 인터뷰에서 “우리의 데이터가 공개되기를 기다리고 있는 사람의 수를 보고 깜짝 놀랐다. 그렇게 많을 것이라고는 생각하지 못했었다”라고 말했다.

위험과 보상
그러나 데이터 자유화 철학의 이론적인 매력에도 불구하고, 데이터의 클라우드 저장을 고려하는 기업과 정부 기관들은 그러한 경향에 대해 매우 실제적인 문제를 불러일으키고 있다. 그러한 문제점들로는 데이터 집합을 자유롭게 제공하는 것은 괜찮으나 경중의 차이가 있겠지만 잠재적으로 민감한 정보가 포함될 수 있다는 것이다. 그리고 확대하여 생각해보면 기밀 정보를 클라우드에 공개한 조직이 이용, 보전, 그리고 정확성에 대한 책임을 져야 한다는 것이다.

만약 클라우드 스토리지 서비스가 해킹된다면, 서비스에 저장된 데이터 소비자는 정보를 제공한 조직에 법적 책임을 물을 수도 있을 것이다. 핵심 데이터 집합이 온라인으로 배포된다면, 조직의 내부 구조 또는 사업 개발과 매우 동떨어지게 될 수도 있다. 그리고 공개된 데이터 집합에 우연찮게 개인 정보가 포함됐다면, 그것과 관련된 사람들에게 어떠한 결과와 영향이 나타나게 될까?

데이터 관리와 관련된 정책은 데이터의 온라인 배포에 대한 전략적인 가치를 면밀히 검토하고 올바른 정보만이 온라인으로 배포되도록 엄격한 통제를 명시할 것이다. 게다가, 기존의 거버넌스는 클라우드에 저장된 데이터가 사본이어야 한다는 것을 요구한다. 그러므로 클라우드에 저장된 데이터가 여전히 정확한가를 보장하기 위해 그것의 완전성을 감사하는 것이 가능하다.

에르곤 에너지처럼 온라인으로 사용자에게 가치 있는 정보를 온라인으로 제공해 상업적인 이익 창출을 목표로 하는 기업이라면 상황은 좀더 복잡해진다. 반게이는 “공간 데이터 산업이 가지고 있는 독특한 면은 대규모 사용자 기반에서 공유되는 데이터의 양이 막대하다는 것”이라며 “내부적으로 이러한 프로젝트를 진행한다면 이러한 전략 시장을 창출한다는 전략적 목적을 달성할 수 없을 수도 있고, 내부 개발되는 경우 데이터의 가격과 제공 방법이 완전히 바뀔 것이다”라고 말했다.

그리고 반게이는 “우리가 사용하기 위해 구글에 데이터를 제공하기도 하겠지만 그보다는 사람들이 사용할 수 있도록 공간 데이터를 공개할 것이다. 그리고 그러한 환경에 어떤 정보를 제공할 것인지에 대해 우리는 매우 신중히 결정할 것이다. 우리의 내부 고객, 과금 정보, 또는 다른 운영 데이터는 제공되지 않을 것이다”라고 덧붙였다.  

해결돼야 하는 문제는 개인정보만이 아니다. 대규모 데이터를 구글로 옮기기 위해서는 견고한 인터페이스를 통해 데이터를 관리해야 하고, 최종 사용자에게 제품 판매 시 에르곤 에너지와 다른 업체들은 법률 문제를 수행하기 위한 대표를 구축할 것이다. 잠재적인 부정확성이나 오용으로 미래의 이익 창출이 수포로 돌아가지 않도록 하려면, 보호의 의무가 세밀하게 고려돼야 한다. ciokr@idg.co.kr




2011.10.07

사례 | 클라우드로 대용량 데이터를 저장하는 기업들-1부

David Braue | Computerworld
최근 저렴한 아카이빙, 손쉬운 접근, 그리고 온라인 분석 기능을 이유로 대용량 데이터를 클라우드에 저장하는 기업들이 점점 늘어나는 추세다. 그러나 이는 너무 위험한 발상일 수도 있다.

기업들은 저마다 자사가 관리하는 데이터 양이 방대하고 생각할 것이다. 하지만 제임스 반게이만큼은 아니다.

반게이는 호주 퀸즈랜드에 위치한 유틸리티 기업인 에르곤 에너지(Ergon Energy)에서 ROME(원격 감시 자동 경제 상황 모델링, Remote Observation Automated Modeling Economic Situation) 프로젝트의 프로그램 책임자다. ROME는 무선 레이더 관측을 통해 생성되고 퀸즈랜드 전역의 모든 전력 인프라를 센티미터 단위로 매핑할 데이터를 관리하고 분석하기 위한 기본 계획과 그러한 자산의 500m 내에 위치하는 수 억 그루의 나무를 3D로 모델링하는 것이다.

센티미터 단위의 해상도를 갖는 지도는 교외 지역에서는 60m로 확대될 수 있는 지적 지도의 정확도를 크게 개선할 수 있다. 이뿐만 아니라 에르곤 에너지가 자산을 좀 더 잘 추적하고 관리해 매년 나무의 성장률을 비교해 전력망에 손상을 입힐 수 있는 장애물들을 초기에 제거할 수 있도록 해준다. 이 프로젝트로 연간 4,400만 달러(호주달러)를 절감할 것으로 목표로 하며 이에 대한 논란이 있긴 하다. 반게이의 팀은 그러한 목표를 달성하기 위해 400TB의 데이터를 생성하고 관리하며 새로운 지도 데이터가 수집될 때마다 주기적으로 데이터를 업데이트 해야만 한다.

이 400TB의 데이터가 클라우드로 저장된다.

그러한 데이터는 구글의 클라우드 지리정보 시스템용 지리 데이터를 확보하기 위한 협력 프로젝트 어스 빌더(Earth Builder)의 자료로 활용되고, 모든 사용자들은 구글 어스(Google Earth)와 구글 맵스(Google Maps) 인터페이스를 통해 그러한 데이터를 이용할 수 있다. 어스 빌더는 물고기 서식지, 코알라 서식지, 유해 잡초 지역, 그리고 민감한 생태계 등의 지역을 보여주는 서드-파티 데이터의 오버레이(overlay)를 허용하고 에르곤 에너지는 그러한 앱을 여러 개 개발해 일반 대중이 최소한의 비용으로 구글의 마켓플레이스에서 이용할 수 있도록 할 예정이다.

그러한 것들은 초기의 수익 창출원이 되고 고유의 프로세스를 개선하기 위한 방안이 될 것이다. 무엇보다도 서로 다르게 축적돼 생성된 각각의 데이터 집합을 정확하게 확인하지 않고서는 불가능한 지리 데이터베이스의 오류를 바로잡기 위한 방법이 될 것이다. 퀸즈랜드 정부는 수 년 동안 80개 이상의 지도 표준을 제작해 왔다는 점을 감안한다면, 이는 매우 획기적인 변화가 될 것이다.  

게다가 에르곤 에너지는 400TB의 내부 전용 스토리지 네트워크를 구입하고 구축해 관리할 필요 없이 그러한 것들을 가능하게 할 수 있게 됐다.

이는 다른 말로 하자면 윈-윈 전략이다. “효율적인 운영을 위해 우리는 서로 다른 정부 기관과 민간 조직이 제공하는 수 백 가지의 데이터 집합이 필요하다”라고 반게이는 말했다.

그리고 그는 “각각의 데이터 집합은 서로 다른 좌표축을 사용하는 서로 다른 지도 기관이 제공해 우리가 실제적인 상황을 파악하는 것은 매우 어려웠다”라고 과거의 어려움을 토로했다. “그것들을 클라우드에 넣음으로써 하나의 버전으로 통합된 실시간 데이터가 생성되고 지리 정보 시스템과 호환될 수 있는 오픈 포맷으로 제공될 수 있다”라고 반게이는 설명했다.  
 


눈에서 멀어지면 마음에서도 멀어진다
대규모 데이터를 클라우드로 저장하는 것은 기업들이 있는데 몇몇 사례에서 문제점들이 발견됐다. 이 기업들이 데이터를 보호할 수 있는 방법을 제공하긴 하지만 이는 그리 간단한 문제가 아니었다. 기업과 정부가 자신들의 정보를 개방하는 추세로 접어들면서 데이터 보호 이슈가 더욱 부상하게 됐다.  

의료서비스 기업인 오스트레일리안 유니티(Australian Unity)의 엔터프라이즈 아키텍트 칼 미가엘은 “온-디맨드를 확산시키는 주요 원동력은 IT의 소비자화”라고 전했다. 미가엘에 따르면, 고객 수 확대는 데이터베이스 규모와 프로세싱 속도의 증가를 의미하고, 여러 기업들 특히 소규모 기업들은 이러한 것들을 쉽게 제공할 수 없다는 것이다.
 
데이터 공유와 관련해 큰 공을 들이고 있는 호주 연방 정부는 최근 미국 정부의 data.gov와 유사한 원 데이터베이스 정보 저장소인 ‘data.gov.au’를 개설함으로써 클라우드에 호스팅되는 데이터로 크게 한 걸음 내디뎠다.

호주 Data.gov.au 사이트 규모는 미국의 data.gov에 비해 여전히 미약한 편이다. 그러나 여기에는 공공 화장실과 ACT BBQ의 위치에서부터 아틀라스 오브 리빙 오스트레일리아(Atlas of Living Australia)의 카탈로그와 내셔널 네이티브 타이틀 트리뷰널(National Native Title Tribunal)의 새로운 데이터 집합에 이르는 수백 종의 데이터 집합이 포함돼 있다. 이 가운데 상당수는 인기 있는 정부 데이터 수집 업체들로부터 공급받은 것이다. 관심이 있는 호주 시민들은 원 데이터를 다운로드하여 분석한 후 자기가 원하는 콘텐츠로 가공해 사용할 수 있다.  

그러나 이러한 데이터 집합과 관련해 더욱 흥미를 불러일으키는 것은 그러한 데이터 집합이 호스팅되는 방식이다. 전용 웹 서버를 구축하기 위해서는 계약, 서버 인프라, 그리고 복잡한 서비스 수준 협약(SLA)이 수행돼야 하지만, data.gov.au는 아마존의 EC2(Elastic Compute Cloud)에 가상 머신으로 호스팅된 웹 서버에 모두 저장되고, 사실상 0에 가까운 비용으로 높은 이용성과 확장성을 가지고 실행된다.
 
아마존 EC2는 별도의 예산 편성 없이도 사용할 수 있으며 이는 정치들에게는 구미가 당기는 제안이다. “그러한 옵션의 좋은 면은 정부가 막대한 예산을 지출하지 않아도 된다는 것이다”라고 호주 정부 정보 관리 사무소(AGIMO) 기관 서비스실의 수석 비서실장 존 셰리담은 설명했다.
 
그리고 그는 “우리는 이미 데이터를 가지고 있다. 우리는 그러한 데이터를 자체적으로 저장하는 대신 사람들이 바로 사용할 수 있는 형태로 제공할 준비를 갖출 것이다. 퍼블릭 클라우드는 구축 비용이 적게 들고 소모성 지출 경비며 탄력적인데다가 사용한 만큼 비용을 지불할 수 있다. 또한, 우리가 공공에 제공할 데이터 집합은 퍼블릭 클라우드에 저장해도 문제가 발생하지 않는다. 대중이 그러한 데이터 집합의 사용처를 발견하게 된다면 그것은 잘 된 일이다”라고 말했다.
 
쓸모없는 데이터의 저장소가 되는 대신, 이러한 데이터 집합은 정부가 제공하는 정보를 새롭게 생각할 수 있도록 해주고 여러 사례에서 그것에 대한 반응은 놀라울 정도였다.

예를 들어, 월드 뱅크 오픈 데이터(World Bank Open Data) 프로젝트는 주요 글로벌 재정과 다른 데이터가 들어있는 7,000개 이상의 데이터 집합을 포함하며 450만 명 이상의 사용자들이 이용하고 있다.

월드 뱅크의 데이터 큐레이터는 최근 뉴욕타임즈와의 인터뷰에서 “우리의 데이터가 공개되기를 기다리고 있는 사람의 수를 보고 깜짝 놀랐다. 그렇게 많을 것이라고는 생각하지 못했었다”라고 말했다.

위험과 보상
그러나 데이터 자유화 철학의 이론적인 매력에도 불구하고, 데이터의 클라우드 저장을 고려하는 기업과 정부 기관들은 그러한 경향에 대해 매우 실제적인 문제를 불러일으키고 있다. 그러한 문제점들로는 데이터 집합을 자유롭게 제공하는 것은 괜찮으나 경중의 차이가 있겠지만 잠재적으로 민감한 정보가 포함될 수 있다는 것이다. 그리고 확대하여 생각해보면 기밀 정보를 클라우드에 공개한 조직이 이용, 보전, 그리고 정확성에 대한 책임을 져야 한다는 것이다.

만약 클라우드 스토리지 서비스가 해킹된다면, 서비스에 저장된 데이터 소비자는 정보를 제공한 조직에 법적 책임을 물을 수도 있을 것이다. 핵심 데이터 집합이 온라인으로 배포된다면, 조직의 내부 구조 또는 사업 개발과 매우 동떨어지게 될 수도 있다. 그리고 공개된 데이터 집합에 우연찮게 개인 정보가 포함됐다면, 그것과 관련된 사람들에게 어떠한 결과와 영향이 나타나게 될까?

데이터 관리와 관련된 정책은 데이터의 온라인 배포에 대한 전략적인 가치를 면밀히 검토하고 올바른 정보만이 온라인으로 배포되도록 엄격한 통제를 명시할 것이다. 게다가, 기존의 거버넌스는 클라우드에 저장된 데이터가 사본이어야 한다는 것을 요구한다. 그러므로 클라우드에 저장된 데이터가 여전히 정확한가를 보장하기 위해 그것의 완전성을 감사하는 것이 가능하다.

에르곤 에너지처럼 온라인으로 사용자에게 가치 있는 정보를 온라인으로 제공해 상업적인 이익 창출을 목표로 하는 기업이라면 상황은 좀더 복잡해진다. 반게이는 “공간 데이터 산업이 가지고 있는 독특한 면은 대규모 사용자 기반에서 공유되는 데이터의 양이 막대하다는 것”이라며 “내부적으로 이러한 프로젝트를 진행한다면 이러한 전략 시장을 창출한다는 전략적 목적을 달성할 수 없을 수도 있고, 내부 개발되는 경우 데이터의 가격과 제공 방법이 완전히 바뀔 것이다”라고 말했다.

그리고 반게이는 “우리가 사용하기 위해 구글에 데이터를 제공하기도 하겠지만 그보다는 사람들이 사용할 수 있도록 공간 데이터를 공개할 것이다. 그리고 그러한 환경에 어떤 정보를 제공할 것인지에 대해 우리는 매우 신중히 결정할 것이다. 우리의 내부 고객, 과금 정보, 또는 다른 운영 데이터는 제공되지 않을 것이다”라고 덧붙였다.  

해결돼야 하는 문제는 개인정보만이 아니다. 대규모 데이터를 구글로 옮기기 위해서는 견고한 인터페이스를 통해 데이터를 관리해야 하고, 최종 사용자에게 제품 판매 시 에르곤 에너지와 다른 업체들은 법률 문제를 수행하기 위한 대표를 구축할 것이다. 잠재적인 부정확성이나 오용으로 미래의 이익 창출이 수포로 돌아가지 않도록 하려면, 보호의 의무가 세밀하게 고려돼야 한다. ciokr@idg.co.kr


X