2012.01.05

아파치 하둡 정식 버전, 드디어 나왔다

Joab Jackson | IDG News Service
거의 7년에 이르는 긴 개발과 세부 조정 작업을 거쳐 아파치 하둡 데이터 프로세싱 프레임워크가 마침내 완전한 버전으로 발표됐다.
 
아파치 하둡 프로젝트 팀은 정식 1.0 버전을 발표했다. 아파치 하둡 부사장 아룬 머시는 “사용자들은 이번 발표 버전이 오픈소스 커뮤니티의 지원을 받는다는 것에 대해 더욱 확실하게 알게 됐다”라며, “더 이상 어떤 기능을 위해 하둡의 어떤 버전을 사용해야 하는지에 대한 혼란은 없다”고 강조했다.
 
머시는 특히 이번 버전을 정식 1.0 버전으로 정하는 데는 세 가지 추가 기능이 한몫을 했다고 설명했다. 가장 대표적인 것은 엔드 투 엔드 보안이다. 하둡은 이제 케베로스 네트워크 인증 프로토콜을 사용해 네트워크 전체에 걸쳐 보안을 확보할 수 있다. 결과적으로 기업들은 민감하고 개인적인 데이터에 적용된 하둡을 신뢰할 수 있다는 것.
 
두 번째 기능은 WebHDFS REST(representational state transfer) API로, 많은 관리자와 프로그래머가 쉽게 이해할 수 있는 웹 기술을 사용해 하둡과 인터랙션을 할 수 있게 해준다. 이를 통해 기업의 하둡 적용이 한층 촉진될 것으로 기대된다.
 
마지막으로 이번 버전은 처음으로 HBase를 완전하게 구동해 관리자들이 친숙한 관계형 데이터베이스 같은 구조로 데이터를 저장할 수 있다.
 
하둡은 지난 2005년 루센 개발자인 더그 커팅과 마이크 카파렐라가 구글의 맵리듀스 알고리즘을 구현하면서 만들어졌다. 맵리듀스는 여러 대의 다른 서버에 걸쳐 분포되어 있는 데이터를 분석하기 위한 기법이다. 커팅은 이후 야후로 옮겨가 검색 서비스에 하둡 기술을 적용하는 작업에 참여했으며, 최종적으로는 약 4만여 대의 서버에 걸쳐 하둡을 구현했다.
 
하둡을 흔히 빅 데이터라고 부르는 대규모 데이터를 저장하고 분석하는데 주로 사용된다. 비록 원래 목적은 대규모 검색 서비스를 지원하기 위한 것이었지만, 갈수록 기업 환경에서 그 유용성이 높아지고 있다. 머시는 하둡 프로젝트에 최소한 35명의 코드 커미터와 수백 명의 코드 기증자가 참여했다고 밝혔다.
 
데이터 분석에 하둡을 사용하면 전통적인 관계형 데이터베이스에서 처리하기에 너무 큰 데이터를 손쉽게 처리할 수 있으며, 기업이 엄청난 데이터를 모았지만 아직 어떤 분석 작업이 필요한지를 파악하지 못했을 때도 유용하다. 이미 JP모건은 이 기술을 사기 탐지와 위험 관리에 사용하고 있으며, 이베이도 자사의 경매 서비스용 새로운 검색 엔진 구축에 적용하고 있다.
 
하둡은 이미 수많은 상용 지원 서비스가 나와 있다. 신생업체인 클라우데라를 필두로 야후에서 분사한 호튼웍스, MapR 등이 하둡의 상용 배포판을 제공하고 있다. IBM은 자사의 인포스피어 빅인사이트 데이터 분석 패키지에 하둡을 통합했으며, 마이크로소프트는 자사의 윈도우 애저 클라우드 서비스에서 구동하는 하둡 카피를 보유하고 있다.  editor@itworld.co.kr



2012.01.05

아파치 하둡 정식 버전, 드디어 나왔다

Joab Jackson | IDG News Service
거의 7년에 이르는 긴 개발과 세부 조정 작업을 거쳐 아파치 하둡 데이터 프로세싱 프레임워크가 마침내 완전한 버전으로 발표됐다.
 
아파치 하둡 프로젝트 팀은 정식 1.0 버전을 발표했다. 아파치 하둡 부사장 아룬 머시는 “사용자들은 이번 발표 버전이 오픈소스 커뮤니티의 지원을 받는다는 것에 대해 더욱 확실하게 알게 됐다”라며, “더 이상 어떤 기능을 위해 하둡의 어떤 버전을 사용해야 하는지에 대한 혼란은 없다”고 강조했다.
 
머시는 특히 이번 버전을 정식 1.0 버전으로 정하는 데는 세 가지 추가 기능이 한몫을 했다고 설명했다. 가장 대표적인 것은 엔드 투 엔드 보안이다. 하둡은 이제 케베로스 네트워크 인증 프로토콜을 사용해 네트워크 전체에 걸쳐 보안을 확보할 수 있다. 결과적으로 기업들은 민감하고 개인적인 데이터에 적용된 하둡을 신뢰할 수 있다는 것.
 
두 번째 기능은 WebHDFS REST(representational state transfer) API로, 많은 관리자와 프로그래머가 쉽게 이해할 수 있는 웹 기술을 사용해 하둡과 인터랙션을 할 수 있게 해준다. 이를 통해 기업의 하둡 적용이 한층 촉진될 것으로 기대된다.
 
마지막으로 이번 버전은 처음으로 HBase를 완전하게 구동해 관리자들이 친숙한 관계형 데이터베이스 같은 구조로 데이터를 저장할 수 있다.
 
하둡은 지난 2005년 루센 개발자인 더그 커팅과 마이크 카파렐라가 구글의 맵리듀스 알고리즘을 구현하면서 만들어졌다. 맵리듀스는 여러 대의 다른 서버에 걸쳐 분포되어 있는 데이터를 분석하기 위한 기법이다. 커팅은 이후 야후로 옮겨가 검색 서비스에 하둡 기술을 적용하는 작업에 참여했으며, 최종적으로는 약 4만여 대의 서버에 걸쳐 하둡을 구현했다.
 
하둡을 흔히 빅 데이터라고 부르는 대규모 데이터를 저장하고 분석하는데 주로 사용된다. 비록 원래 목적은 대규모 검색 서비스를 지원하기 위한 것이었지만, 갈수록 기업 환경에서 그 유용성이 높아지고 있다. 머시는 하둡 프로젝트에 최소한 35명의 코드 커미터와 수백 명의 코드 기증자가 참여했다고 밝혔다.
 
데이터 분석에 하둡을 사용하면 전통적인 관계형 데이터베이스에서 처리하기에 너무 큰 데이터를 손쉽게 처리할 수 있으며, 기업이 엄청난 데이터를 모았지만 아직 어떤 분석 작업이 필요한지를 파악하지 못했을 때도 유용하다. 이미 JP모건은 이 기술을 사기 탐지와 위험 관리에 사용하고 있으며, 이베이도 자사의 경매 서비스용 새로운 검색 엔진 구축에 적용하고 있다.
 
하둡은 이미 수많은 상용 지원 서비스가 나와 있다. 신생업체인 클라우데라를 필두로 야후에서 분사한 호튼웍스, MapR 등이 하둡의 상용 배포판을 제공하고 있다. IBM은 자사의 인포스피어 빅인사이트 데이터 분석 패키지에 하둡을 통합했으며, 마이크로소프트는 자사의 윈도우 애저 클라우드 서비스에서 구동하는 하둡 카피를 보유하고 있다.  editor@itworld.co.kr

X