2012.10.26

파이썬, 빅 데이터 시대의 비밀병기 될까?

Joab Jackson | IDG News Service
빅 데이터 분석 업무를 어떻게 처리할 것인가 생각해 보면 하둡 같은 소프트웨어 패키지나 R 통계 언어가 가장 먼저 떠오른다. 그러나 온라인 광고 플랫폼 업체 앱넥서스(AppNexus)는 파이썬을 이용해 대용량 데이터를 분석하고 있다.
 
오는 27일 미국 뉴욕에서 열릴 파이데이타(PyData) 컨퍼런스에서는 앱넥서스의 전문가 두명이 참석해 이 회사가 파이썬을 이용해 어떻게 데이터 분석 작업을 개선했는지 설명할 예정이다. 앱넥서스가 이 분야에 관심을 가진 것은 회사가 급속히 성장했기 때문이다. 3년전 만해도 직원수가 30여명 정도였지만 지금은 350명까지 늘어났다. 인력 수요를 줄일 수 있는 기술에 관심을 갖게 된 것도 이 때문이다.
 
앱넥서스의 최적화와 분석 담당 이사 데이빗 힘로드에 따르면 파이썬이 유용한 가장 중요한 이유는 단순함이다. 앱넥서스가 직면한 가장 어려운 문제는 엔지니어, 수학자, 분석가 등 서로 역할의 직원들이 같은 기술로 업무를 수행하도록 통일하는 것이었다.

파이썬은 지식배경이 다른 직원들 누구나 쉽게 이해할 수 있는 언어이기 때문에 새로운 기능의 프로토타입을 개발할 때 사용할 수 있다. 힘로드는 "파이썬은 매우 가르치고 배우기 쉬운 언어"라며 "이 때문에 특정 프로그래밍 기술을 갖고 있는 직원을 새로 채용할 필요가 없다"고 말했다.


실제로 파이썬은 배우기 매우 쉽다. 이 회사에서는 인턴 사원이 새로 입사한 직원에게 파이썬을 가르치고 프로그래밍 경험이 전혀 없는 직원도 단기간에 파이썬을 익힐 수 있었다. 게다가 SciPy와 같은 파이썬 라이브러리와 i파이선, 그리고 판다스(Pandas) 등은 R프로그래밍 언어에서 일반적으로 사용하는 다양한 수학 함수를 제공한다.

앱넥서스는 업무를 처리할 때 마이SQL과 IBM의 네티자, HP의 버티카, 아파치 하둡, H베이스 등 데이터 저장과 파싱 관련된 다양한 기술을 이용한다. 이 회사가 광고 서비스를 제공하기 위해 처리하는 데이터량만 하루에 15TB에 달한다. 힘로드는 "우리 회사는 모든 종류의 다양한 데이터 소스로부터 손쉽게 데이터를 수집해 처리할 수 있는 프레임워크를 개발해 왔다"며 "파이썬을 활용함에 따라 직원들이 데이터베이스 연결 코드를 개발하는데 시간을 보대는 대신 간단한 설정만으로 작업을 마칠 수 있게 됐다"고 말했다.

이썬에 능숙해 지면서 개발에서 결과물을 내기까지의 시간도 더 빨라졌다. 프로토타입으로 만든 동일한 코드는 손쉽게 재활용할 수 있기 때문이다. 토론회에서 힘로드는 단지 컴퓨터 공학을 부전공한 한 분석 담당자가 어떻게 실제 알고리즘까지 개발할 수 있었는지 소개할 예정이다. 
 
1980년대 후반에 만들어진 파이썬은 신속한 프로그램 개발이 가능해 시스템 관리자와 개발자들 사이에서 널리 사용되는 매우 유연하고 강력한 언어다. 이번 파이데이터 컨퍼런스에서는 전문적인 데이터 분석 작업에 파이썬이 어떻게 활용될 수 있는지 논의한다. 데이터 스트림 처리와 데이터셋의 가시화, 과학적 연산 수행 관련 파이썬 라이브러리에 대한 논의도 진행될 예정이다. editor@idg.co.kr



2012.10.26

파이썬, 빅 데이터 시대의 비밀병기 될까?

Joab Jackson | IDG News Service
빅 데이터 분석 업무를 어떻게 처리할 것인가 생각해 보면 하둡 같은 소프트웨어 패키지나 R 통계 언어가 가장 먼저 떠오른다. 그러나 온라인 광고 플랫폼 업체 앱넥서스(AppNexus)는 파이썬을 이용해 대용량 데이터를 분석하고 있다.
 
오는 27일 미국 뉴욕에서 열릴 파이데이타(PyData) 컨퍼런스에서는 앱넥서스의 전문가 두명이 참석해 이 회사가 파이썬을 이용해 어떻게 데이터 분석 작업을 개선했는지 설명할 예정이다. 앱넥서스가 이 분야에 관심을 가진 것은 회사가 급속히 성장했기 때문이다. 3년전 만해도 직원수가 30여명 정도였지만 지금은 350명까지 늘어났다. 인력 수요를 줄일 수 있는 기술에 관심을 갖게 된 것도 이 때문이다.
 
앱넥서스의 최적화와 분석 담당 이사 데이빗 힘로드에 따르면 파이썬이 유용한 가장 중요한 이유는 단순함이다. 앱넥서스가 직면한 가장 어려운 문제는 엔지니어, 수학자, 분석가 등 서로 역할의 직원들이 같은 기술로 업무를 수행하도록 통일하는 것이었다.

파이썬은 지식배경이 다른 직원들 누구나 쉽게 이해할 수 있는 언어이기 때문에 새로운 기능의 프로토타입을 개발할 때 사용할 수 있다. 힘로드는 "파이썬은 매우 가르치고 배우기 쉬운 언어"라며 "이 때문에 특정 프로그래밍 기술을 갖고 있는 직원을 새로 채용할 필요가 없다"고 말했다.


실제로 파이썬은 배우기 매우 쉽다. 이 회사에서는 인턴 사원이 새로 입사한 직원에게 파이썬을 가르치고 프로그래밍 경험이 전혀 없는 직원도 단기간에 파이썬을 익힐 수 있었다. 게다가 SciPy와 같은 파이썬 라이브러리와 i파이선, 그리고 판다스(Pandas) 등은 R프로그래밍 언어에서 일반적으로 사용하는 다양한 수학 함수를 제공한다.

앱넥서스는 업무를 처리할 때 마이SQL과 IBM의 네티자, HP의 버티카, 아파치 하둡, H베이스 등 데이터 저장과 파싱 관련된 다양한 기술을 이용한다. 이 회사가 광고 서비스를 제공하기 위해 처리하는 데이터량만 하루에 15TB에 달한다. 힘로드는 "우리 회사는 모든 종류의 다양한 데이터 소스로부터 손쉽게 데이터를 수집해 처리할 수 있는 프레임워크를 개발해 왔다"며 "파이썬을 활용함에 따라 직원들이 데이터베이스 연결 코드를 개발하는데 시간을 보대는 대신 간단한 설정만으로 작업을 마칠 수 있게 됐다"고 말했다.

이썬에 능숙해 지면서 개발에서 결과물을 내기까지의 시간도 더 빨라졌다. 프로토타입으로 만든 동일한 코드는 손쉽게 재활용할 수 있기 때문이다. 토론회에서 힘로드는 단지 컴퓨터 공학을 부전공한 한 분석 담당자가 어떻게 실제 알고리즘까지 개발할 수 있었는지 소개할 예정이다. 
 
1980년대 후반에 만들어진 파이썬은 신속한 프로그램 개발이 가능해 시스템 관리자와 개발자들 사이에서 널리 사용되는 매우 유연하고 강력한 언어다. 이번 파이데이터 컨퍼런스에서는 전문적인 데이터 분석 작업에 파이썬이 어떻게 활용될 수 있는지 논의한다. 데이터 스트림 처리와 데이터셋의 가시화, 과학적 연산 수행 관련 파이썬 라이브러리에 대한 논의도 진행될 예정이다. editor@idg.co.kr

X