Offcanvas

BI / 빅데이터 | 애널리틱스

하둡에 대한 수요•투자•관심 ↑

2012.02.15 Ann Bednarz  |  Network World
초대용량 데이터의 저장, 처리, 분석에 자사의 능력을 쏟고자 하는 IT 업체들에서 하둡이 생산적인 역할을 하고 있다. 그러나 오픈소스 플랫폼이 비교적 새로운 영역인데다 하둡에 대한 경험을 가진 인재들이 부족한 탓에 기업 IT 팀들이 해결해야 할 기술적인 문제들이 제기되고 있다.

하둡은 더그 커팅과 마이크 카파렐라의 작업에서 비롯됐으며, 그들은 애초에 오픈소스 검색엔진인 아파치 넛치(Apache Nutch)를 지원하려는 목적으로 그것을 개발했다. 커팅과 야후의 엔지니어팀이 하둡을 만들기 위해 넛치 크롤러(crawler)에서 나온 분산 컴퓨팅 코드를 나누면서 아파치의 프로젝트가 됐다.

오늘날 하둡은 하둡 생산환경을 4만 2,000 노드도 넘게 확장시킨 야후에서 모든 클릭을 관리하고 있다. 이런 종류의 확장성은 하둡의 가장 큰 장점으로, 하둡은 수천 개의 노드들과 엑사바이트 단위의 데이터에 걸쳐 있는 데이터 집약적인 분산형 애플리케이션을 처리하기 위해 설계됐다.

이베이, 페이스북, 링크드인, 넷플릭스(Netflix), 트위터 등을 비롯한 온라인에서 주로 활동하던 하둡의 개척자들은 다른 데이터 집약적 산업들, 예를 들면 금융, 기술, 통신, 정부 등으로 진출하고 있다. 점점 더 많은 IT 업체들이 자신들의 데이터 아키텍처 전략에서 하둡의 자리를 마련해 놓고 있다. 간단히 말하자면 하둡의 장점은 저렴한 상용 서비스들에서도 대규모로 병렬 컴퓨팅을 할 수 있게 해준다는 점이다. 기업들은 더 많은 데이터를 수집할 수 있고, 더 오래 데이터를 보유할 수 있으며, 과거에는 비용, 복잡성, 도구의 부족 때문에 불가능했던 분석들을 처리할 수 있게 된다.

주문형 비디오(VOD) 시스템 제공업체 컨커런트 컴퓨터(Concurrent Computer)가 하둡을 이용하기로 결정한 것은 많은 부분 그것의 엄청난 용량에 기인하고 있었다.

컨커런트는 시청자와 콘텐츠 소비, 플랫폼 운영과 관련해 하루에 수십억 개의 기록들을 처리하고 있다. 컨커런트의 엔지니어링 책임자 윌 라자로는 “확장성이 가장 중요한 문제다. 과거의 관계형 데이터베이스(RDB)로는 확장하거나 규모를 늘리고 싶을 때마다 프리미엄 요금을 지불해야 했다”라고 전했다.

라자로는 “어제의 데이터를 시스템에 대규모로 입력하거나 기가비트 용량의 로그 파일을 통해 플러깅할 때, 하둡은 정형 데이터이든, 반정형 혹은 비정형 데이터든 그것을 시스템에 들여오기에 아주 적합한 기술이다”라고 덧붙였다.

빅데이터 처리에 ‘탁월’
하둡은 기업들이 이전에는 사용하지 못하고 버렸던 데이터를 저장하고 처리할 수 있게 해준다. 예를 들면 로그 파일 같은 데이터는 처리하기가 너무 어렵고 기존의 데이터베이스 스키마에 깔끔하게 들어맞지 않았기 때문에 기업에서는 그 동안 버렸다. 451리서치(451 Research)의 데이터관리분석 리서치 책임자인 맷 애슬렛은 “빅데이터야말로 가장 핵심적인 난관이다. 이전에는 그냥 내던지던 데이터를 가지고 무언가를 해야 할 때다. 새로운 애플리케이션과 새로운 프로젝트를 시작하던 것과 마찬가지의 방식으로 말이다”라고 주장했다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.