2014.10.02

추천! 최고의 오픈소스 빅 데이터 툴 20선

Infoworld Staff | InfoWorld
하둡은 그 어느 때보다 더 많은 인기를 누리고 있지만, 맵리듀스에 대한 수요는 감소하는 것으로 보인다. 누구나 더 빠른 대답을 원한다. SQL 쿼리의 대답 역시 이런 경우가 많다. 올해 최고 오픈소스 소프트웨어 시상인 보시(Bossies)의 빅 데이터 부문은 하둡 기술군의 새로운 발전상을 보여주고, NoSQL이 성숙해지고 있음을 강조하며, 데이터 랭글링(Wrangling), 데이터 분석, 기계 학습 분야에 유용한 툴이 많이 있음을 제시했다. 오픈소스 빅 데이터 툴을 소개한다.



아이파이썬(IPython)
데이터 과학을 포함해 과학 연구와 업무에서 중요한 2가지 요소는 결과 공유와 검증이다. 당신이 최초의 저온 핵융합(Cold fusion) 데이터 과학자가 되고 싶지는 않을 것이다. 아이파이썬 노트북스(Notebooks)는 연구원이 데이터 분석 업무를 문서화하고 자동화할 수 있는 환경을 제공한다. 노트는 연구원이 코드, 문서, 아이디어, 시각화 데이터를 공유하고, 여러 다양한 환경에서 이를 이용할 수 있는 하나의 공간이다.

이런 기능들은 현대 데이터 과학에서 아주 중요한 역할을 한다. 데이터 산물을 구축해 관리하는 것은 아주 복잡한 작업이다. 운영과 모니터링 등 조직의 여러 기능이 정보를 입력해야 한다. 분석력 공유 역시 마찬가지다. 아이파이썬은 아이파이썬 노트북스보다 더 많은 기능을 제공한다. 예를 들어, 데이터 파이프라인, 병렬 컴퓨팅 등을 여러 언어로 지원하고 있다.
-스티븐 누네즈(Steven Nunez)



판다스(Pandas)
판다스는 테이블 데이터 조작에 사용되는 파이썬 DSL(Domain-Specific Language)이다. 헷지펀드 산업에 뿌리를 두고 있기 때문에, 높은 성능과 쉬운 사용 편의성을 특징으로 하고 있다.

판다스는 상대적으로 신기술에 해당되지만, 그 저변이 크게 확대되고 있는 추세다. R 언어와 유사한 측면이 많으며, 동일한 데이터 랭글링 작업 다수에 이용할 수 있다. 다만 R과 비교해 라이브러리의 종합성이나 테스트가 부족하다. 긍정적인 부분은 (2008년부터 시작된) 이후 판다스 개발에는 R의 아이디어와 패키지 일부를 가져와 기본 판다스 패키지에 통합시켰다는 것이다. 파이썬을 이용하는 데이터 과학 분야에서 판다스는 '스위스 아미 나이프(만능 칼)' 역할을 한다.
-스티븐 누네즈(Steven Nunez)



R클라우드(RCloud)
AT&T 연구소(AT&T Labs)가 R 기반의 협업 데이터 분석 환경 필요성 문제를 다루기 위해 개발한 기술이 R클라우드다. R클라우드는 아이파이썬과 유사하게 연구원들이 전사적으로 데이터를 분석해 그 결과를 공유할 수 있도록 돕는다. 예를 들어, 데이터 과학자 한 그룹이 R클라우드를 이용해 웹 문서 의미 분석에 목적을 두고, 데이터 워크플로우를 기록한다고 가정하자. 그럼 같은 회사의 기계 학습 그룹이 이 노트북에 추가 기록을 적으면서 재사용할 수 있다.

개념적으로, R클라우드는 R CRAN(Comprehensive R Archive Network) 패키지와 유사하다. 여기에 위키(wiki) 같은 협업 기능이 보강되어 있다. 노트북과 코드는 깃허브(GitHub)에 저장된다. AT&T 외에는 정보가 많지 않은 비교적 새로운 기술이지만, R클라우드는 많은 잠재력을 보여준다.
-스티븐 누네즈



R 프로젝트(R Project)
통계 분석용 컴퓨터 전문 언어인 R은 새로운 도전에 맞춰 계속 진화하고 있다. R은 2000년대 초 '퇴역'한 LISP를 대신하는 통계 처리 언어였다. 크고 활발한 커뮤니티로, 툴과 IDE를 지원하는 건강한 생태계인 CRAN에는 수천 종의 고품질 알고리즘이 있다. R 3.0에서는 메모리 제한이 없어졌다. 64비트라면 호스트 운영 시스템에서 허락되는 만큼 많은 RAM을 할당할 수 있다.

전통적으로 R은 멀티코어를 활용하면서 로컬 RAM에 가장 잘 부합하는 문제 해결에 중로 사용됐다. 그러나 빅 데이터가 부상하면서, 대규모의 데이터 세트를 처리할 수 있는 옵션(선택권)들이 등장했다. 표준 R 환경에 설치할 수 있는 패키지, 하둡과 스파크 등 빅 데이터 시스템에 통합할 수 있는 방법 등이 있다(RHive와 SparkR).
-스티븐 누네즈
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.



2014.10.02

추천! 최고의 오픈소스 빅 데이터 툴 20선

Infoworld Staff | InfoWorld
하둡은 그 어느 때보다 더 많은 인기를 누리고 있지만, 맵리듀스에 대한 수요는 감소하는 것으로 보인다. 누구나 더 빠른 대답을 원한다. SQL 쿼리의 대답 역시 이런 경우가 많다. 올해 최고 오픈소스 소프트웨어 시상인 보시(Bossies)의 빅 데이터 부문은 하둡 기술군의 새로운 발전상을 보여주고, NoSQL이 성숙해지고 있음을 강조하며, 데이터 랭글링(Wrangling), 데이터 분석, 기계 학습 분야에 유용한 툴이 많이 있음을 제시했다. 오픈소스 빅 데이터 툴을 소개한다.



아이파이썬(IPython)
데이터 과학을 포함해 과학 연구와 업무에서 중요한 2가지 요소는 결과 공유와 검증이다. 당신이 최초의 저온 핵융합(Cold fusion) 데이터 과학자가 되고 싶지는 않을 것이다. 아이파이썬 노트북스(Notebooks)는 연구원이 데이터 분석 업무를 문서화하고 자동화할 수 있는 환경을 제공한다. 노트는 연구원이 코드, 문서, 아이디어, 시각화 데이터를 공유하고, 여러 다양한 환경에서 이를 이용할 수 있는 하나의 공간이다.

이런 기능들은 현대 데이터 과학에서 아주 중요한 역할을 한다. 데이터 산물을 구축해 관리하는 것은 아주 복잡한 작업이다. 운영과 모니터링 등 조직의 여러 기능이 정보를 입력해야 한다. 분석력 공유 역시 마찬가지다. 아이파이썬은 아이파이썬 노트북스보다 더 많은 기능을 제공한다. 예를 들어, 데이터 파이프라인, 병렬 컴퓨팅 등을 여러 언어로 지원하고 있다.
-스티븐 누네즈(Steven Nunez)



판다스(Pandas)
판다스는 테이블 데이터 조작에 사용되는 파이썬 DSL(Domain-Specific Language)이다. 헷지펀드 산업에 뿌리를 두고 있기 때문에, 높은 성능과 쉬운 사용 편의성을 특징으로 하고 있다.

판다스는 상대적으로 신기술에 해당되지만, 그 저변이 크게 확대되고 있는 추세다. R 언어와 유사한 측면이 많으며, 동일한 데이터 랭글링 작업 다수에 이용할 수 있다. 다만 R과 비교해 라이브러리의 종합성이나 테스트가 부족하다. 긍정적인 부분은 (2008년부터 시작된) 이후 판다스 개발에는 R의 아이디어와 패키지 일부를 가져와 기본 판다스 패키지에 통합시켰다는 것이다. 파이썬을 이용하는 데이터 과학 분야에서 판다스는 '스위스 아미 나이프(만능 칼)' 역할을 한다.
-스티븐 누네즈(Steven Nunez)



R클라우드(RCloud)
AT&T 연구소(AT&T Labs)가 R 기반의 협업 데이터 분석 환경 필요성 문제를 다루기 위해 개발한 기술이 R클라우드다. R클라우드는 아이파이썬과 유사하게 연구원들이 전사적으로 데이터를 분석해 그 결과를 공유할 수 있도록 돕는다. 예를 들어, 데이터 과학자 한 그룹이 R클라우드를 이용해 웹 문서 의미 분석에 목적을 두고, 데이터 워크플로우를 기록한다고 가정하자. 그럼 같은 회사의 기계 학습 그룹이 이 노트북에 추가 기록을 적으면서 재사용할 수 있다.

개념적으로, R클라우드는 R CRAN(Comprehensive R Archive Network) 패키지와 유사하다. 여기에 위키(wiki) 같은 협업 기능이 보강되어 있다. 노트북과 코드는 깃허브(GitHub)에 저장된다. AT&T 외에는 정보가 많지 않은 비교적 새로운 기술이지만, R클라우드는 많은 잠재력을 보여준다.
-스티븐 누네즈



R 프로젝트(R Project)
통계 분석용 컴퓨터 전문 언어인 R은 새로운 도전에 맞춰 계속 진화하고 있다. R은 2000년대 초 '퇴역'한 LISP를 대신하는 통계 처리 언어였다. 크고 활발한 커뮤니티로, 툴과 IDE를 지원하는 건강한 생태계인 CRAN에는 수천 종의 고품질 알고리즘이 있다. R 3.0에서는 메모리 제한이 없어졌다. 64비트라면 호스트 운영 시스템에서 허락되는 만큼 많은 RAM을 할당할 수 있다.

전통적으로 R은 멀티코어를 활용하면서 로컬 RAM에 가장 잘 부합하는 문제 해결에 중로 사용됐다. 그러나 빅 데이터가 부상하면서, 대규모의 데이터 세트를 처리할 수 있는 옵션(선택권)들이 등장했다. 표준 R 환경에 설치할 수 있는 패키지, 하둡과 스파크 등 빅 데이터 시스템에 통합할 수 있는 방법 등이 있다(RHive와 SparkR).
-스티븐 누네즈
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.

X