Offcanvas

데이터센터 / 비즈니스|경제 / 빅데이터 | 애널리틱스

'대용량 데이터의 대두', IT 역할 및 기술 변화 이끈다

2011.05.16 Lucas Mearian  |  Computerworld
기업 데이터 저장용량이 매년 50% 이상씩 증가함에 따라 방대한 정보를 찾고 데이터를 저장해야 하는 업무의 특성 때문에 IT 종사자들을 훈련시키는 방법이 바뀌어야 한다.
 
지난 주 소위 말하는 ‘빅 데이터’ 문제를 다루기 위해 EMC 월드 유저 컨퍼런스(EMC World User Conference)에 참가하는 24개 기업에 소속된 IT 관리자들도 같은 생각이다.
 
이 논의는 단일 도메인 이름 공간(Domain Name Space)하에서 대용량 데이터를 저장하기 위해 사용하는 소규모 네트워크 어태치드 스토리지(Clustered Network Attached Storage, 이하 NAS)를 제조하는 EMC의 아이실론(Isilon)부서가 후원한다.
 
IT 호스팅 벤더 선가드(Sungard)의 저장장치 설계자 크리스 맥낼리는 “직원들에게 더 큰 IT 환경에 다양한 시스템을 맞추는 방법을 교육하는 것을 돕고 있다”라고 말했다.
 
맥낼리는 “AIX와 백업 관리자들이 선가드의 스토리지 에어리어 네트워크(Storage Area Network, 이하 SAN)와 클라우드 스토리지(Cloud Storage) 교육에 자원해서 참가했다”라고 설명했다.
 
"이 덕분에 내가 전문가들에게 이것이 어떻게 작동하고 우리가 해야 할 일은 무엇인지에 대해 가르치는 대신에 그들 스스로 스토리지에 관한 지적인 논의를 할 수 있게 되었다. 결국 더 나은 제품을 만들어내게 될 것이다"라고 맥낼리가 덧붙였다.
 
유전자 염기 서열 분석기기(Genome Sequencer) 벤더인 트랜스레이셔널 지노믹스 인스티튜트(Translational Genomics Institute, 이하 TGen)의 네트워크 및 컴퓨터 시스템 책임자 제임스 로웨이는 “자사의 전통적인 IT샵의 직원들은 네트워크와 운영체제, 스토리지가 어떻게 상호작용하는지를 배워야 한다”라고 말했다.
 
로웨이는 “인간 게놈지도를 만들면서 매주 2TB분량의 새로운 데이터가 생성되며 올해 말부터는 주당 10TB수준으로 증가할 것”이라고 전했다. 게놈 데이터는 사람의 유전자 프로파일로 인해 발생하는 특정 질병을 치료하는 맞춤형 의약품을 만드는데 사용된다.
 
로웨이는 “중요한 정보의 데이터를 찾아내는 최고의 방법을 제시하는 것이야말로 끝없는 난제”라고 지적했다.
 
이 문제에 대한 해결책을 제시하기 위해 EMC는 지난 해 30억 달러 이상을 들여 아이실론과 같은 회사와 DW 어플라이언스 벤더 그린플럼(Greenplum)에 투자했다.
 
"[데이터를] 저장하느냐 마느냐는 다년간의 현안이었다"라고 아이실론의 CTO 폴 루더포드가 말했다.
 
TGen의 경우 생성된 모든 데이터를 보관하는 문제와 씨름하고 있다. 한편으로는 게놈 데이터보다 더 개인적인 정보는 없을 것으로 생각된다. 따라서 모든 것을 보관한다는 것은 모든 데이터를 안전하게 보관해야 한다는 의미도 된다. 맞춤형 의약품 개발의 과학적 값어치를 생각해 볼 때 저장된 데이터가 정보의 유용한 출처가 될 수 있을 것이다.
 
"우리가 모든 것을 끊임없이 보관하는 이유는 우리가 갖고 있는 것이 무엇인지 확실히 알지 못하기 때문이다. 생명과학 분야에는 아직 배워야 할 것도, 알려지지 않은 것들도 너무나 많다"라고 루더포드는 강조했다.
 
EMC는 이 행사에서 "데이터 과학자(Data Scientist)"들을 교육하고 자격을 시험하기 위해 프로그램을 증가시켰다고 밝혔다. 데이터 과학자들은 기업의 데이터의 가치를 평가한다.
 
클라우드 스토리지 제공업체인 라이브오피스(LiveOffice)의 CEO 닉 메타는 “데이터가 제대로 저장되었는지 여부에 상관없이 지속된다”라고 말했다.
 
"우리의 문제는 어떻게 모든 것을 비용효율적으로 저장하느냐다. 우리는 모든 것을 보관하고 보관된 것들을 가치 있게 할 수 있는 방법을 원한다. 모든 데이터를 갖고 있으면 더 능률적으로 일을 할 수 있다"라고 메타는 전했다.
 
라이브오피스는 현재 약 4PT의 데이터를 디스크에 저장하며 해당 풀(Pool)에 매일 5TB씩 추가로 지원한다. 라이브오피스는 고객안전을 위해 모든 데이터를 암호화한다.
 
라이브오피스는 하둡(Hadoop)과 같은 맵 축소 기술과 아이실론 배열(Array)에 저장된 대용량 데이터를 찾아내는 카산드라(Cassandra)와 같은 분산된 데이터 베이스 등의 데이터 분석툴을 사용한다. 이것은 고객의 습관을 분석할 뿐만 아니라 규정을 준수하면서 합법적으로 데이터를 검색하는 방법이다.
 
하버드 의대에서 생산관리를 담당하는 스티픈 마르티노는 “기업 사용자들로부터 마이닝 서비스에 대한 수요가 발생할 때가 바로 적기”라고 말했다.
 
마르티노는 “IT 관리자들에게 필요한 것은 누가 무엇을 사용하고 있는지 추적하는 수단이며 아직까지 그 어떤 툴 벤더도 그런 수단을 제공하지 못하고 있다”라고 말했다.
 
"연구원에게 저장할 수 있는 한계라는 것은 없다. 심지어 하루에 1TB 또는 2TB도 가능하다. 가장 큰 문제는 당신이 연구실의 누군가가 차지백(Chargeback)을 위해 데이터를 소모하고 있는지 설명할 수 있는 데이터를 수집할 필요가 있다고 생각한다"라고 마르티노는 강조했다.
 
재생 에너지 기업에 독자적인 날씨데이터를 제공하는 쓰리티어(3TIER)의 IT 책임자 폴 잉글리쉬는 “자사의 IT 직원이 데이터가 어디로 이동하고 누가 그에 대한 관리책임을 맡고 있는지 알아내기 위해 하루에 몇 시간씩 회의에 참석한 적이 있었다”라고 말했다. "우리는 항상 대용량 데이터를 취급해 왔다. "우리는 10년 내지는 20년치의 기후학적 데이터를 보관하기를 원한다. 우리는 수 페타바이트의 데이터를 추가로 확보할 수 있을 것이다"라고 마르티노는 덧붙였다.
 
데이터 폭주에 대비하는 차원에서 확장할 수 있는 풀을 생성하기 위해 쓰리티어는 자사의 임직원 모두가 접속할 수 있는 14개의 아이실론 NAS 어레이를 설치했다. "이제 [데이터 저장 용량은] 하나의 필수 투입요소가 되었다"라고 마르티노가 밝혔다.
 
IT 관리자들은 데이터 이동 즉, 데이터를 정확한 스토리지 티어로 이동하고 이 데이터를 사용하는 사람들에게 가능한 한 가깝게 보관하는 것을 또 하나의 문제로 꼽았다.
 
"사람들은 말로 하루에 TB 분량의 데이터를 쏟아낸다. 이는 운영측면에서 절대 따라잡을 수 없는 용량이다. 그런 데이터를 한 곳에서 다른 곳으로 옮기는 것은 불가능하다"라고 마르티노는 지적했다.
 
하버드 의대는 이에 대한 대안으로 어떤 그룹이든 데이터를 저장하고 접속할 수 있는 단일 이름 공간을 제공하는 EMC의 아이실론 소규모 NAS 어레이를 사용하는 방법을 택했다.
 
로웨이는 “Tgen의 피닉스(Phoenix)에 위치한 유전자 배열을 밝히는 컴퓨터와 결과를 처리하기 위해 사용되는 템피(Tempe)의 슈퍼컴퓨터 사이에 끊임없는 데이터 교환이 이루어진다”라고 말했다.
 
"우리는 1GB의 전용선을 사용했다. 하지만 오래지 않아 한계를 느꼈다. 현재는 10Gibit의 [이더넷] 전용선을 사용하고 있으며, 사실 인피니밴드(InfiniBand)의 사용을 고려 중이다"라고 로웨이는 말했다.
 
모든 IT 관리자들이 동의하는 오늘날의 가장 큰 고민거리는' 얼마나 큰 데이터가 정보저장에 관한 그들의 사고 방식을 바꿀 것인가'이다. 대부분은 차후에 데이터가 어떤 식으로 회사에 이득이 될지 모르기 때문에 모든 것을 보관하고 싶어한다.
 
"우리는 모두 한 배를 탔다"라고 로웨이는 강조했다. editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.