Offcanvas

������������

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (10)

데이터 과학팀 리더의 리더십 (5) – 머리와 가슴을 조화시켜라 (집중할 수 있는 환경 만들기) 지난 스물아홉번째, 서른번째 글에서 데이터 과학팀을 이끄는 리더가 자주 범하는 실수인 리더 자신이 걸림돌이 되는 리더십의 문제점, 팀의 문제 해결 역량과 시너지를 높이기 위한 팀 내 투명한 소통, 팀원 간 케미 및 관계, 팀의 집중력을 유지하는 문제를 다루었다. 이번 글에서는 데이터 과학자 및 데이터 과학팀 구성원 개개인의 역량을 최대로 끌어내기 위해 필요한 리 더십 요소들을 같이 생각해보자.   데이터 과학자들은 과학자의 호기심을 보통 사람들보다 강하게 가지고 있는 사람들이어서, 데이터 과학자가 자신의 흥미와 아이디어를 좇다가 팀의 미션과 목표에서 벗어나지 않고 팀이 팀 전체의 집중력을 잃지 않게끔, 팀 리더가 각 데이터 과학자의 업무 집중력을 세심하게 점검하고 부드럽게 조율해줄 필요가 있다고 얘기하였다. 호기심이 원동력이 되는 데이터 과학자들의 자율성과 자발적 헌신을 해치지 않으면서 각 데이터 과학자가 팀의 미션과 업무에 집중하게끔 하여 팀 수준의 집중력을 높이는 것도 중요하지만, 이들 각각이 업무에 집중할 수 있는 환경을 만드는 것도 매우 중요하다. 데이터 과학팀 구성원들이 업무에 집중할 수 있는 환경이란 단순히 조용하고 방해받지 않는 업무 공간을 만드는 것만을 의미하지 않는다. 데이터 과학팀 구성원들이 업무에 집중할 수 있는 환경이란 정서적, 감정적으로 안전하게 느끼고 팀의 미션을 위해 집중해서 풀어야 하는 문제 이외에 스트레스를 주는 다른 문제에 마음을 빼앗겨 온전히 집중하지 못하는 일이 없도록 팀 분위기를 유지하는 일을 포함한다.  많은 리더는 데이터 과학자와 같은 과학자를 마치 데이터와 자료만 주면 뭔가 대단한 것을 기계적으로 만들어 내는 기계처럼 생각하는 것 같다. 데이터 과학자들도 보통 사람들과 같은 감정과 정서를 지닌 사람이라는 것을 종종 간과하는 것이다. 데이터 과학자들이 보통 사람들보다 더 이성적이고 논리적인 사고에 ...

CIO 알파고 웨이모 김진철 빅테이블 데이터 과학팀 따돌림 아인슈타인의 보스 – 천재들을 지휘하는 10가지 법칙 쿠버네티스 텐서플로 구글 빅데이터 이직 컨테이너 맵리듀스 KPI 데이터 과학 딥마인드 직장내 괴롭힘

2019.07.23

데이터 과학팀 리더의 리더십 (5) – 머리와 가슴을 조화시켜라 (집중할 수 있는 환경 만들기) 지난 스물아홉번째, 서른번째 글에서 데이터 과학팀을 이끄는 리더가 자주 범하는 실수인 리더 자신이 걸림돌이 되는 리더십의 문제점, 팀의 문제 해결 역량과 시너지를 높이기 위한 팀 내 투명한 소통, 팀원 간 케미 및 관계, 팀의 집중력을 유지하는 문제를 다루었다. 이번 글에서는 데이터 과학자 및 데이터 과학팀 구성원 개개인의 역량을 최대로 끌어내기 위해 필요한 리 더십 요소들을 같이 생각해보자.   데이터 과학자들은 과학자의 호기심을 보통 사람들보다 강하게 가지고 있는 사람들이어서, 데이터 과학자가 자신의 흥미와 아이디어를 좇다가 팀의 미션과 목표에서 벗어나지 않고 팀이 팀 전체의 집중력을 잃지 않게끔, 팀 리더가 각 데이터 과학자의 업무 집중력을 세심하게 점검하고 부드럽게 조율해줄 필요가 있다고 얘기하였다. 호기심이 원동력이 되는 데이터 과학자들의 자율성과 자발적 헌신을 해치지 않으면서 각 데이터 과학자가 팀의 미션과 업무에 집중하게끔 하여 팀 수준의 집중력을 높이는 것도 중요하지만, 이들 각각이 업무에 집중할 수 있는 환경을 만드는 것도 매우 중요하다. 데이터 과학팀 구성원들이 업무에 집중할 수 있는 환경이란 단순히 조용하고 방해받지 않는 업무 공간을 만드는 것만을 의미하지 않는다. 데이터 과학팀 구성원들이 업무에 집중할 수 있는 환경이란 정서적, 감정적으로 안전하게 느끼고 팀의 미션을 위해 집중해서 풀어야 하는 문제 이외에 스트레스를 주는 다른 문제에 마음을 빼앗겨 온전히 집중하지 못하는 일이 없도록 팀 분위기를 유지하는 일을 포함한다.  많은 리더는 데이터 과학자와 같은 과학자를 마치 데이터와 자료만 주면 뭔가 대단한 것을 기계적으로 만들어 내는 기계처럼 생각하는 것 같다. 데이터 과학자들도 보통 사람들과 같은 감정과 정서를 지닌 사람이라는 것을 종종 간과하는 것이다. 데이터 과학자들이 보통 사람들보다 더 이성적이고 논리적인 사고에 ...

2019.07.23

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (2)

지난 칼럼에 이어 이번에는 빅데이터 주요 기술 조건 가운데 빅데이터 분석 플랫폼의 요건에 대해 알아보자. LHC 실험의 공식 데이터 분석 플랫폼 - ROOT LHC 실험을 비롯한 과학실험은 항상 데이터 분석 과정이 필수다. 특히, 실험을 통해 얻은 데이터가 어느 정도로 유의미하고 믿을 만한 것인지, 실험을 수행했을 때 세웠던 가설과 이론적인 연구를 통해 예측했던 결과가 어느 정도로 실험 결과를 잘 설명하는지 확인하기 위해서는 데이터를 정밀하게 수집하고 분석해야 한다. 이런 이유로 데이터 분석은 과학 실험과 연구의 기본이라고 할 수 있고, 언제나 과학자들은 데이터 분석을 효과적으로 할 수 있는 도구를 개발해왔다. 컴퓨터 기술이 개발된 배경에는 여러 가지가 있지만, 무엇보다도 물리학자들과 수학자들이 많이 하게 되는 수치 계산을 빠르고 자동화하려는 목적이 컸다. 컴퓨터 과학과 기술이 발전하면서 컴퓨터 과학 자체의 발전으로 새로운 컴퓨팅 기술과 기술이 등장하기도 했지만, 컴퓨팅 기술의 가장 큰 동인 중의 하나는 더 많은 계산을 더 신속하게 처리할 수 있는 컴퓨터를 만들고, 이렇게 컴퓨터가 더 많은 계산을 신속하게 처리할 수 있도록 명령하는 프로그램, 또는 소프트웨어를 얼마나 빠른 시간에 효과적으로 만드느냐 하는 것이었다. LHC 가속기 전에 CERN이 수행했던 실험을 위한 가속기인 LEP가 운영되던 1980년대 후반만 해도 과학 분야에서 데이터 분석 소프트웨어가 비중 있게 여겨지지 않았다. 물론 1980년대 들어와 개인용 컴퓨터 기술과 그래픽 프로세서 기술이 발전하면서, MATLAB과 같은 과학기술 계산 전용 소프트웨어와 그래프를 그리는 데이터 분석 도구로 유명한 오리진(Origin)과 같은 소프트웨어가 등장하기는 했지만, 오늘날 생각하는 데이터 분석 소프트웨어와는 거리가 멀었다. LHC 가속기 전에 물리학자들의 데이터 분석 도구는 프로그래밍 언어였다. 1980년대까지만 해도 과학기술 계산에는 포트란이 많이 쓰였다. 데이터 분석...

CIO 포트란 LHC 김진철 물리학 스파크 실험 파이썬 SPSS 하둡 맵리듀스 데이터 과학자 빅데이터 SAS MATLAB

2018.04.24

지난 칼럼에 이어 이번에는 빅데이터 주요 기술 조건 가운데 빅데이터 분석 플랫폼의 요건에 대해 알아보자. LHC 실험의 공식 데이터 분석 플랫폼 - ROOT LHC 실험을 비롯한 과학실험은 항상 데이터 분석 과정이 필수다. 특히, 실험을 통해 얻은 데이터가 어느 정도로 유의미하고 믿을 만한 것인지, 실험을 수행했을 때 세웠던 가설과 이론적인 연구를 통해 예측했던 결과가 어느 정도로 실험 결과를 잘 설명하는지 확인하기 위해서는 데이터를 정밀하게 수집하고 분석해야 한다. 이런 이유로 데이터 분석은 과학 실험과 연구의 기본이라고 할 수 있고, 언제나 과학자들은 데이터 분석을 효과적으로 할 수 있는 도구를 개발해왔다. 컴퓨터 기술이 개발된 배경에는 여러 가지가 있지만, 무엇보다도 물리학자들과 수학자들이 많이 하게 되는 수치 계산을 빠르고 자동화하려는 목적이 컸다. 컴퓨터 과학과 기술이 발전하면서 컴퓨터 과학 자체의 발전으로 새로운 컴퓨팅 기술과 기술이 등장하기도 했지만, 컴퓨팅 기술의 가장 큰 동인 중의 하나는 더 많은 계산을 더 신속하게 처리할 수 있는 컴퓨터를 만들고, 이렇게 컴퓨터가 더 많은 계산을 신속하게 처리할 수 있도록 명령하는 프로그램, 또는 소프트웨어를 얼마나 빠른 시간에 효과적으로 만드느냐 하는 것이었다. LHC 가속기 전에 CERN이 수행했던 실험을 위한 가속기인 LEP가 운영되던 1980년대 후반만 해도 과학 분야에서 데이터 분석 소프트웨어가 비중 있게 여겨지지 않았다. 물론 1980년대 들어와 개인용 컴퓨터 기술과 그래픽 프로세서 기술이 발전하면서, MATLAB과 같은 과학기술 계산 전용 소프트웨어와 그래프를 그리는 데이터 분석 도구로 유명한 오리진(Origin)과 같은 소프트웨어가 등장하기는 했지만, 오늘날 생각하는 데이터 분석 소프트웨어와는 거리가 멀었다. LHC 가속기 전에 물리학자들의 데이터 분석 도구는 프로그래밍 언어였다. 1980년대까지만 해도 과학기술 계산에는 포트란이 많이 쓰였다. 데이터 분석...

2018.04.24

'임금 인상 주춤하지만 대체로 만족' 美 IT연봉 현황

첫 직장을 찾든 이직을 고려하든 IT분야에서 구직 활동 중이라면 IT급여는 아마도 중요한 관심사 중 하나일 것이다. 미국의 취업정보 회사인 다이스(Dice)는 2018년 기술 연봉 보고서에서 정보 기술 연봉 데이터를 모든 방법으로 분리했다. 여기서 현재 미국 내 가장 인상적인 기술 분야, 지역, 산업을 정리했다. 평균 IT급여 추세 IT급여는 2008년 경기 침체기에 1~2년 동안 정체된 바 있다. 그러다 2012년부터 2015년까지 가파른 증가세를 보였고 2017년은 2016년보다 0.7% 인상에 그쳐 평균 9만 2,712달러를 기록했다. IT종사자의 급여 만족 다이스에 따르면 평균 IT임금 인상이 침체돼 있는데도 만족도 52%로 안정적으로 나타났다. 이같은 수치는 2014년 임금이 인상됐다고 말한 응답자(52%)와 동일하다. 동시에, 이 만족도는 다소 강요된 것일 수도 있다. IT종사자는 1년 전보다 더 나은 곳으로의 이직에 관한 자신감이 떨어졌기 때문이다. IT연봉 상승 요인 임금 인상을 원한다면, 그것을 위해 일해야 한다는 것은 자명하다. 급여 인상을 받은 IT종사자의 경우 가장 흔한 이유는 각종 혜택이었다. 약 1/4은 이직으로, 10명 중 1명은 승진으로 각각 임금을 올렸다고 밝혔다. 안타깝게도 새로운 기술력을 인증받는 것은 확실한 방법이 아니다. 자격증 획득으로 인한 임금 상승은 1%에 불과했다. 이직 이유 이직할 만한 특별한 이유가 있나? 하지만 IT종사자들 가운데 특히 연봉이 낮은 사람들에게 이직은 주된 수단이다. 흥미롭게도 현재 직장을 잃을까 봐 두려워하는 이유는 월급이 높은 사람들에게서 가장 흔한 일이었다. 다른 이직 사유로는 더 높은 자리에 오르거나 출퇴근 시간을 줄이거나 새로운 업무 할당받기 등으로 나타났다.   IT임금 높은 美 대도시 실리콘밸리 IT종사자의 평균 연봉은 다른 지역보다 상승률이 다...

원격근무 다이나모DB 다이스 레드시프트 급여 클라우데라 하둡 맵리듀스 연봉 IT종사자 오픈스택 재택근무 취업 이직 만족도 빅데이터 HR 2018 기술 연봉 보고서

2018.04.02

첫 직장을 찾든 이직을 고려하든 IT분야에서 구직 활동 중이라면 IT급여는 아마도 중요한 관심사 중 하나일 것이다. 미국의 취업정보 회사인 다이스(Dice)는 2018년 기술 연봉 보고서에서 정보 기술 연봉 데이터를 모든 방법으로 분리했다. 여기서 현재 미국 내 가장 인상적인 기술 분야, 지역, 산업을 정리했다. 평균 IT급여 추세 IT급여는 2008년 경기 침체기에 1~2년 동안 정체된 바 있다. 그러다 2012년부터 2015년까지 가파른 증가세를 보였고 2017년은 2016년보다 0.7% 인상에 그쳐 평균 9만 2,712달러를 기록했다. IT종사자의 급여 만족 다이스에 따르면 평균 IT임금 인상이 침체돼 있는데도 만족도 52%로 안정적으로 나타났다. 이같은 수치는 2014년 임금이 인상됐다고 말한 응답자(52%)와 동일하다. 동시에, 이 만족도는 다소 강요된 것일 수도 있다. IT종사자는 1년 전보다 더 나은 곳으로의 이직에 관한 자신감이 떨어졌기 때문이다. IT연봉 상승 요인 임금 인상을 원한다면, 그것을 위해 일해야 한다는 것은 자명하다. 급여 인상을 받은 IT종사자의 경우 가장 흔한 이유는 각종 혜택이었다. 약 1/4은 이직으로, 10명 중 1명은 승진으로 각각 임금을 올렸다고 밝혔다. 안타깝게도 새로운 기술력을 인증받는 것은 확실한 방법이 아니다. 자격증 획득으로 인한 임금 상승은 1%에 불과했다. 이직 이유 이직할 만한 특별한 이유가 있나? 하지만 IT종사자들 가운데 특히 연봉이 낮은 사람들에게 이직은 주된 수단이다. 흥미롭게도 현재 직장을 잃을까 봐 두려워하는 이유는 월급이 높은 사람들에게서 가장 흔한 일이었다. 다른 이직 사유로는 더 높은 자리에 오르거나 출퇴근 시간을 줄이거나 새로운 업무 할당받기 등으로 나타났다.   IT임금 높은 美 대도시 실리콘밸리 IT종사자의 평균 연봉은 다른 지역보다 상승률이 다...

2018.04.02

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (5)

CMS 검출기에 영혼을 주는 CMS 온라인 소프트웨어 지난 열두번째 글에서 소개한 Level-1 트리거는 CMS를 비롯한 LHC 검출기에서 원시 데이터 처리를 위해 데이터 스트림이 가장 먼저 만나는 시스템이다. 초당 1TB 이상 검출기 센서에서 쏟아져 나오는 많은 데이터 중에서 물리학적으로 의미 있는 이벤트 데이터만 선별하는 데 필요한 빠른 데이터 처리를 위해 FPGA를 써서 연산을 가속한다고 소개하였다. 오늘 소개할 고수준 트리거(high-level trigger)는 Level-1 트리거에서 1차로 선별된 원시 데이터를 받아 물리학 분석이 가능하도록 자동으로 메타데이터를 덧붙이고 실제 사용할 수 있는 데이터로 원시 데이터를 가공하는 시스템이다. LHC 가속기와 검출기 실험 장치의 규모가 크다 보니, LHC 모든 서브 시스템이 하나의 시스템으로 통합되어 동작하려면 필연적으로 각 모듈이 네트워크를 통해 정보를 주고받으면서 데이터를 처리하는 분산 컴퓨팅 시스템으로 개발될 수밖에 없다. 분산 컴퓨팅 시스템이 하나의 시스템으로 통합되기 위해서는 시스템내의 각 서브 시스템의 동작을 표준화된 프로그래밍 모델과 통신 방식으로 프로그램할 수 있는 소프트웨어 기술이 필요하다. LHC 검출기별로 실험의 목적과 동작 특성, 요구 사항이 다르고, 네 대의 검출기에 필요한 요구사항을 모두 만족시킬 수 있는 소프트웨어를 만들기에는 LHC 검출기 시스템이 너무 복잡하기 때문에 LHC의 물리학자와 컴퓨터 과학자들은 검출기마다 고유의 분산 컴퓨팅 소프트웨어를 개발하여 검출기 기능을 통합하였다. 검출기 기능 통합에 사용된 분산 컴퓨팅 소프트웨어는 여러 대의 노드로 기능이 분산되어 네트워크 통신을 통해 이들 기능에서 처리된 데이터를 통합하는 미들웨어의 형태로 개발되었다. 필자가 건설에 참여하였던 CMS 검출기의 경우 XDAQ이라는 미들웨어를 사용하였다. XDAQ은 크로스 플랫폼 분산 데이터 수집, 처리 미들웨어(Cr운영체제(OS)s-platform(X)...

CIO 제프리 딘 LHS CERN 김진철 스파크 인피니밴드 CMS API 하둡 맵리듀스 미들웨어 빅데이터 구글 검색 샌제이 게마왓

2018.01.29

CMS 검출기에 영혼을 주는 CMS 온라인 소프트웨어 지난 열두번째 글에서 소개한 Level-1 트리거는 CMS를 비롯한 LHC 검출기에서 원시 데이터 처리를 위해 데이터 스트림이 가장 먼저 만나는 시스템이다. 초당 1TB 이상 검출기 센서에서 쏟아져 나오는 많은 데이터 중에서 물리학적으로 의미 있는 이벤트 데이터만 선별하는 데 필요한 빠른 데이터 처리를 위해 FPGA를 써서 연산을 가속한다고 소개하였다. 오늘 소개할 고수준 트리거(high-level trigger)는 Level-1 트리거에서 1차로 선별된 원시 데이터를 받아 물리학 분석이 가능하도록 자동으로 메타데이터를 덧붙이고 실제 사용할 수 있는 데이터로 원시 데이터를 가공하는 시스템이다. LHC 가속기와 검출기 실험 장치의 규모가 크다 보니, LHC 모든 서브 시스템이 하나의 시스템으로 통합되어 동작하려면 필연적으로 각 모듈이 네트워크를 통해 정보를 주고받으면서 데이터를 처리하는 분산 컴퓨팅 시스템으로 개발될 수밖에 없다. 분산 컴퓨팅 시스템이 하나의 시스템으로 통합되기 위해서는 시스템내의 각 서브 시스템의 동작을 표준화된 프로그래밍 모델과 통신 방식으로 프로그램할 수 있는 소프트웨어 기술이 필요하다. LHC 검출기별로 실험의 목적과 동작 특성, 요구 사항이 다르고, 네 대의 검출기에 필요한 요구사항을 모두 만족시킬 수 있는 소프트웨어를 만들기에는 LHC 검출기 시스템이 너무 복잡하기 때문에 LHC의 물리학자와 컴퓨터 과학자들은 검출기마다 고유의 분산 컴퓨팅 소프트웨어를 개발하여 검출기 기능을 통합하였다. 검출기 기능 통합에 사용된 분산 컴퓨팅 소프트웨어는 여러 대의 노드로 기능이 분산되어 네트워크 통신을 통해 이들 기능에서 처리된 데이터를 통합하는 미들웨어의 형태로 개발되었다. 필자가 건설에 참여하였던 CMS 검출기의 경우 XDAQ이라는 미들웨어를 사용하였다. XDAQ은 크로스 플랫폼 분산 데이터 수집, 처리 미들웨어(Cr운영체제(OS)s-platform(X)...

2018.01.29

'머신러닝 활용을 더 쉽게' 오픈소스 툴 11선

스팸 필터링, 안면 인식, 추천 엔진 등, 방대한 분량의 데이터 셋을 상대로 예측 분석이나 패턴 인식을 하고자 한다면 머신러닝만한 방법이 없다. 무료 오픈소스 소프트웨어가 많아지면서 단일 기기 및 여러 대의 기기에, 널리 쓰이는 프로그래밍 언어로 확장하여 머신러닝을 활용하기가 훨씬 쉬워졌다. 오늘 소개할 11가지 오픈소스 툴은 파이썬, R, C++, 자바, 스칼라, 클로쥬어, 자바스크립트, 고 등의 라이브러리를 포함하고 있다.  ciokr@idg.co.kr

구글 사이킷-런 쇼군 어코드닷넷 아파치 머하웃 스파크 MLlib 클라우데라 오릭스 고런 웨카 Deeplearn.js ConvNetJS H2o 텐서플로 자바 자바스크립트 맵리듀스 하둡 데이터 마이닝 기계학습 파이썬 C++ 스칼라 R 클로쥬어

2017.10.11

스팸 필터링, 안면 인식, 추천 엔진 등, 방대한 분량의 데이터 셋을 상대로 예측 분석이나 패턴 인식을 하고자 한다면 머신러닝만한 방법이 없다. 무료 오픈소스 소프트웨어가 많아지면서 단일 기기 및 여러 대의 기기에, 널리 쓰이는 프로그래밍 언어로 확장하여 머신러닝을 활용하기가 훨씬 쉬워졌다. 오늘 소개할 11가지 오픈소스 툴은 파이썬, R, C++, 자바, 스칼라, 클로쥬어, 자바스크립트, 고 등의 라이브러리를 포함하고 있다.  ciokr@idg.co.kr

2017.10.11

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (1)

클라우드 컴퓨팅의 서막 – CERN은 왜 클라우드 컴퓨팅이 필요했나? LHC 실험과 인공지능 기술에 대한 내용을 더 다루기 전에, 독자들의 이해를 더 쉽게 돕기 위해 클라우드 컴퓨팅과 LHC 실험과의 관계를 살펴보고 지나가려 한다. 오늘은 CERN에서 어떻게 클라우드 컴퓨팅이 시작되었는지 같이 살펴보도록 하자. 흔히 많은 클라우드 컴퓨팅은 구글이 제일 먼저 시작했다고 알고 있다. 이 말은 반은 맞고, 반은 틀리다. 클라우드 컴퓨팅의 기반이 되는 기술은 사실 구글이 클라우드 컴퓨팅이라는 말을 사용하기 전에 이미 CERN과 IBM 등의 회사들을 통해서 많이 개발되어 있었기 때문에 반은 틀린 말이라는 것이고, 클라우드 컴퓨팅이라는 용어가 처음 생겨나서 업계에 자리 잡게끔 한 것이 구글이기 때문에 반은 맞는 사실이다. 클라우드 컴퓨팅이라는 말이 처음 나왔을 때는 그 의미가 명확하지 않아서, 오라클의 회장 래리 엘리슨은 클라우드 컴퓨팅이 무엇인지 잘 모르겠다고 혹독한 비판을 하기도 했다[2-7]. 1992년 CERN의 과학자들은 LHC 가속기와 네 개의 검출기의 개념 설계를 진행하면서 연간 약 1PB의 데이터가 생성될 것임을 알게 된 후, 과연 이 빅데이터를 어떻게 분석할 것인지 고민하기 시작했다. 검출기 데이터 처리를 자동화하기 위해 Level-1 트리거와 고수준 트리거(high-level trigger)에서 데이터 처리를 자동화하는 분산컴퓨팅 시스템을 만드는 것과는 별개로, 효과적인 데이터 분석을 하기 위해서는 또 다른 기술적인 난관을 해결해야 했다. 먼저, 분석하게 될 물리학자들이 CERN에 모두 모여 있지 않다는 것이다. LHC 데이터 분석을 수행할 물리학자들은 전 세계의 다양한 연구소에 소속되어 본인들이 소속된 연구기관에서 분석을 수행하게 될 것이었다. 이렇게 전 세계에 걸쳐 일하는 사람들이 어떻게 LHC 데이터를 전송받고, 전송받은 데이터를 분석하기 위한 막대한 양의 계산을 할 수 있도록 컴퓨팅 시스템을 만들어야 할 것인가? ...

오라클 힉스 입자 스파크 물리학 김진철 CERN LHC 메타컴퓨팅 자율컴퓨팅 아마존 웹 서비스 하둡 빅데이터 IBM AWS 오픈스택 미들웨어 래리 엘리슨 맵리듀스 수퍼컴퓨터 빅테이블

2017.09.25

클라우드 컴퓨팅의 서막 – CERN은 왜 클라우드 컴퓨팅이 필요했나? LHC 실험과 인공지능 기술에 대한 내용을 더 다루기 전에, 독자들의 이해를 더 쉽게 돕기 위해 클라우드 컴퓨팅과 LHC 실험과의 관계를 살펴보고 지나가려 한다. 오늘은 CERN에서 어떻게 클라우드 컴퓨팅이 시작되었는지 같이 살펴보도록 하자. 흔히 많은 클라우드 컴퓨팅은 구글이 제일 먼저 시작했다고 알고 있다. 이 말은 반은 맞고, 반은 틀리다. 클라우드 컴퓨팅의 기반이 되는 기술은 사실 구글이 클라우드 컴퓨팅이라는 말을 사용하기 전에 이미 CERN과 IBM 등의 회사들을 통해서 많이 개발되어 있었기 때문에 반은 틀린 말이라는 것이고, 클라우드 컴퓨팅이라는 용어가 처음 생겨나서 업계에 자리 잡게끔 한 것이 구글이기 때문에 반은 맞는 사실이다. 클라우드 컴퓨팅이라는 말이 처음 나왔을 때는 그 의미가 명확하지 않아서, 오라클의 회장 래리 엘리슨은 클라우드 컴퓨팅이 무엇인지 잘 모르겠다고 혹독한 비판을 하기도 했다[2-7]. 1992년 CERN의 과학자들은 LHC 가속기와 네 개의 검출기의 개념 설계를 진행하면서 연간 약 1PB의 데이터가 생성될 것임을 알게 된 후, 과연 이 빅데이터를 어떻게 분석할 것인지 고민하기 시작했다. 검출기 데이터 처리를 자동화하기 위해 Level-1 트리거와 고수준 트리거(high-level trigger)에서 데이터 처리를 자동화하는 분산컴퓨팅 시스템을 만드는 것과는 별개로, 효과적인 데이터 분석을 하기 위해서는 또 다른 기술적인 난관을 해결해야 했다. 먼저, 분석하게 될 물리학자들이 CERN에 모두 모여 있지 않다는 것이다. LHC 데이터 분석을 수행할 물리학자들은 전 세계의 다양한 연구소에 소속되어 본인들이 소속된 연구기관에서 분석을 수행하게 될 것이었다. 이렇게 전 세계에 걸쳐 일하는 사람들이 어떻게 LHC 데이터를 전송받고, 전송받은 데이터를 분석하기 위한 막대한 양의 계산을 할 수 있도록 컴퓨팅 시스템을 만들어야 할 것인가? ...

2017.09.25

美 스토리지 전문가 연봉은?

기업 내 스토리지 용량 수요가 늘어나고 비즈니스 요구 사항이 진화하면서 숙련된 스토리지 전문가 수요가 증가하고 있다. 특히 기업은 하드웨어 기반 스토리지에서 클라우드 스토리지로 이전해본 경험이 있는 사람을 찾고 있으며, 그 결과 이들의 급여도 올라가는 추세다. IT업계 구직 사이트인 다이스(Dice)가 발표한 미국 내 기술 연봉 보고서에 따르면, IT업계 평균 임금은 2015년 9만 3,328달러에서 지난해 9만 2,081달러로 약간 떨어졌다. 하지만 기술전담팀의 61%는 1년 전보다 급여가 인상됐다고 밝혔고, 9%만이 감소했다고 답했다. 전체 IT분야에서 가장 큰 급여 인상률을 나타낸 전문가는 델의 컴펠런트(Compellent) 엔터프라이즈 스토리지 플랫폼 경력자였다. 다이스의 급여 조사에 따르면 컴펠런트 기술을 보유한 IT전문가는 지난해 11%나 상승한 평균 연봉 11만 1,457달러를 받았다. 다음은 올해 조사에서 고액 연봉을 받는 것으로 집계된 15가지 스토리지 기술력과 경력이다. FCoE : 11만 6,145달러(전년 대비 7.2% 증가) 컴펠런트(델) : 11만 1,457달러(11.4%) 3Par(HPE) : 10만 9,654(2.8%) EMC : 10만 9,032(-0.2%) 파이버 채널 : 10만 8,668달러(-0.9%) 퓨어스토리지 : 10만 7,260달러(5.3%) 재해복구 : 10만 7,260달러(2.7%) 님블스토리지 : 10만 4,854(6.1%) HP 에바 : 10만 2,079달러(-5.6%) 히타치 : 10만 3,570달러(-3.2%) 넷앱 : 10만 3,289달러(-3.1%) SAN : 10만 3,015달러(0.9%) iSCSI : 10만 406달러(1.1%) VSAM : 9만 8,568(1.0%) 박스 : 9만 8,565(-0.7%) 다이스 사장인 밥 멜크는 "1년 전에 인기 있던 기술력이 현재까지 인기까지 두각을 나타내지 않을 수 있다. 현재 관련된 기술은 향후 발전...

퓨어스토리지 클라우드 파운드리 다이스 HPE 3PAR 님블 H베이스 파이버 채널 급여 카산드라 히타치 재해복구 조사 컴펠런트 EMC 연봉 맵리듀스 넷앱 HANA 님블스토리지

2017.06.05

기업 내 스토리지 용량 수요가 늘어나고 비즈니스 요구 사항이 진화하면서 숙련된 스토리지 전문가 수요가 증가하고 있다. 특히 기업은 하드웨어 기반 스토리지에서 클라우드 스토리지로 이전해본 경험이 있는 사람을 찾고 있으며, 그 결과 이들의 급여도 올라가는 추세다. IT업계 구직 사이트인 다이스(Dice)가 발표한 미국 내 기술 연봉 보고서에 따르면, IT업계 평균 임금은 2015년 9만 3,328달러에서 지난해 9만 2,081달러로 약간 떨어졌다. 하지만 기술전담팀의 61%는 1년 전보다 급여가 인상됐다고 밝혔고, 9%만이 감소했다고 답했다. 전체 IT분야에서 가장 큰 급여 인상률을 나타낸 전문가는 델의 컴펠런트(Compellent) 엔터프라이즈 스토리지 플랫폼 경력자였다. 다이스의 급여 조사에 따르면 컴펠런트 기술을 보유한 IT전문가는 지난해 11%나 상승한 평균 연봉 11만 1,457달러를 받았다. 다음은 올해 조사에서 고액 연봉을 받는 것으로 집계된 15가지 스토리지 기술력과 경력이다. FCoE : 11만 6,145달러(전년 대비 7.2% 증가) 컴펠런트(델) : 11만 1,457달러(11.4%) 3Par(HPE) : 10만 9,654(2.8%) EMC : 10만 9,032(-0.2%) 파이버 채널 : 10만 8,668달러(-0.9%) 퓨어스토리지 : 10만 7,260달러(5.3%) 재해복구 : 10만 7,260달러(2.7%) 님블스토리지 : 10만 4,854(6.1%) HP 에바 : 10만 2,079달러(-5.6%) 히타치 : 10만 3,570달러(-3.2%) 넷앱 : 10만 3,289달러(-3.1%) SAN : 10만 3,015달러(0.9%) iSCSI : 10만 406달러(1.1%) VSAM : 9만 8,568(1.0%) 박스 : 9만 8,565(-0.7%) 다이스 사장인 밥 멜크는 "1년 전에 인기 있던 기술력이 현재까지 인기까지 두각을 나타내지 않을 수 있다. 현재 관련된 기술은 향후 발전...

2017.06.05

기고 | DIY vs. 완전 통합형 하둡, 어느 쪽이 최적의 선택일까?

* 본 기고문은 벤더가 작성한 것으로 네트워크 월드 편집진의 수정을 거쳤지만 일부 벤더의 시각이 남아 있을 수 있다. 빅데이터 기술은 이미 기업 환경에 다양한 변화를 가져왔다. 기업들은 기존 거래 기록에서 소셜 미디어 등 다른 소스들까지, 다양한 영역에서 수집된 정보를 통해 고객에 대한 전방위적 시각을 구축해가고 있다. 수천 개의 프로세스를 분석해 기능 문제나 비효율의 원인을 이해하는 것도, 분리된 데이터 소스들을 결합해 행간의 숨겨진 관계를 읽어내는 것도 모두 빅데이터를 통해 발굴된 가치들이다. 이러한 혁신이 가능하기 위해선 우선 자사 전반의 정보를 한데 모아 거기에 데이터 과학을 적용할 수 있어야 한다. 빅데이터의 세계에 뛰어들려는 기업들은 하나의 선택지와 마주하게 된다. 사전 통합된 ‘완성형’ 플랫폼을 사용할지, 아니면 오픈소스 하둡 소프트웨어를 다운로드 해 우리 기업만의 솔루션을 자체 구축할지 여부다. 어느 쪽이 더 우리 회사에 적합할까? 여기 선택을 위한 힌트들을 살펴보자. 퍼즐 조각 맞추기 우선 DIY 방식을 원하는 경우라면, 하이브(Hive), 얀(Yarn), 맵리듀스(MapReduce) 등 스톡 하둡과 통합할 여러 컴포넌트를 살펴봐야 한다. (주요 하둡 배포판 중 하나는 23개의 서로 다른 패키지를 포함한다.) 다양한 컴포넌트(와 그 소프트웨어 버전) 가운데 어떤 것이 당신의 배치에 적합한지, 또 그것들을 어떻게 조합해 기업 환경에서 동작하게 할지를 고민해보자. 이는 일회성 작업이 아니다. 모든 툴들은 계속해서 업데이트해야 하며, 따라서 사용자에겐 솔루션의 지원 및 유지 방법을 명확히 이해하는 과정이 요구된다. 이 과정에는 상당한 난이도의 작업 역시 포함되기에, 대부분의 기업은 자체 플랫폼 구축 과정에 전문 써드파티 서비스를 이용하고 있다. 그렇다면 DIY의 이점은 무엇일까? 사용자의 활용 요구 사항을 명확히 반영한 솔루션을 얻을 수 있으며, IT 부서가 플랫폼의 프로세스와 기능 전반에 대한...

빅데이터 완전 통합형 하둡 MapReduce Hive YARN 맞춤 개발 하이브 DIY 자체 개발 하둡 맵리듀스 개발 DIY 프로젝트

2016.12.26

* 본 기고문은 벤더가 작성한 것으로 네트워크 월드 편집진의 수정을 거쳤지만 일부 벤더의 시각이 남아 있을 수 있다. 빅데이터 기술은 이미 기업 환경에 다양한 변화를 가져왔다. 기업들은 기존 거래 기록에서 소셜 미디어 등 다른 소스들까지, 다양한 영역에서 수집된 정보를 통해 고객에 대한 전방위적 시각을 구축해가고 있다. 수천 개의 프로세스를 분석해 기능 문제나 비효율의 원인을 이해하는 것도, 분리된 데이터 소스들을 결합해 행간의 숨겨진 관계를 읽어내는 것도 모두 빅데이터를 통해 발굴된 가치들이다. 이러한 혁신이 가능하기 위해선 우선 자사 전반의 정보를 한데 모아 거기에 데이터 과학을 적용할 수 있어야 한다. 빅데이터의 세계에 뛰어들려는 기업들은 하나의 선택지와 마주하게 된다. 사전 통합된 ‘완성형’ 플랫폼을 사용할지, 아니면 오픈소스 하둡 소프트웨어를 다운로드 해 우리 기업만의 솔루션을 자체 구축할지 여부다. 어느 쪽이 더 우리 회사에 적합할까? 여기 선택을 위한 힌트들을 살펴보자. 퍼즐 조각 맞추기 우선 DIY 방식을 원하는 경우라면, 하이브(Hive), 얀(Yarn), 맵리듀스(MapReduce) 등 스톡 하둡과 통합할 여러 컴포넌트를 살펴봐야 한다. (주요 하둡 배포판 중 하나는 23개의 서로 다른 패키지를 포함한다.) 다양한 컴포넌트(와 그 소프트웨어 버전) 가운데 어떤 것이 당신의 배치에 적합한지, 또 그것들을 어떻게 조합해 기업 환경에서 동작하게 할지를 고민해보자. 이는 일회성 작업이 아니다. 모든 툴들은 계속해서 업데이트해야 하며, 따라서 사용자에겐 솔루션의 지원 및 유지 방법을 명확히 이해하는 과정이 요구된다. 이 과정에는 상당한 난이도의 작업 역시 포함되기에, 대부분의 기업은 자체 플랫폼 구축 과정에 전문 써드파티 서비스를 이용하고 있다. 그렇다면 DIY의 이점은 무엇일까? 사용자의 활용 요구 사항을 명확히 반영한 솔루션을 얻을 수 있으며, IT 부서가 플랫폼의 프로세스와 기능 전반에 대한...

2016.12.26

블로그 | 2017년에 버려질 빅데이터 도구 7가지

빅데이터라는 모험이 시작된 지 꽤 됐다. 그러다 보니, 이제 더 이상 새롭지 않은 것들도 있다. 더 나아가 방해가 될 수도 있는 기술도 있다.  Image Credit: Getty Images Bank 향후 수년 동안 기술들의 업그레이드와 교체가 빅데이터 도입의 성공과 실패를 좌지우지 할 수도 있다. 이에 교체를 고려해야 할 기술들을 정리해봤다. 1. 맵리듀스(MapReduce) 맵리듀스는 느리다. 문제 해결에 가장 적합한 도구 역할을 하는 경우가 정말 드물다. 맵리듀스를 '부분 집합'으로 간주할 수 있는 가장 흔한 DAG(Directed Acyclic Graph) 기술 등 선택할 수 있는 알고리즘들이 많다. 맞춤형 맵리듀스 작업을 많이 했다면, 스파크(Spark)와의 성능 차이만으로도 교체에 수반되는 비용과 노력을 정당화할 수 있을 것이다. 2. 스톰(Storm) 스파크가 스트리밍 세상을 집어 삼킬 것이라고 말하지는 않겠다. 그러나 아마 그럴 것이다. 또 에이펙스(Apex)와 플린크(Flink) 등 성능과 레이턴시가 스톰보다 우수한 스파크 대안들이 존재한다. 또한 레이턴시 허용 한도를 평가하고, 저 수준에서의 한층 복잡한 코드의 버그가 몇 ms의 가치가 있는지 생각해봐야 한다. 스톰은 지원이 미흡하다. 호튼웍스(Hortonworks)가 유일하다. 그렇지만 호튼웍스가 직면하는 시장 압력이 높아지고 있다는 점을 감안하면, 스톰이 더 큰 주목을 끌 확률은 낮다. 3. 피그(Pig) 스파크 등 완벽한 대안 기술이 많다. 처음에는 피그가 빅데이터에 꽤 좋은 'PL/SQL'로 보일지 모르겠다. 그러나 곧 조금 이상하다는 점을 발견할 것이다. 4. 자바(Java) JVM(Java virtual machine)이 아닌 언어를 의미한다. 빅데이터 용으로는 신택스(syntax)가 무겁다. 또한 람다(Lambda)와 같은 새로운 아키텍처가 이상한 방식으로 결합되었다. 빅데이터의...

자바 테즈 우지 MapReduce 스톰 도구 피그 맵리듀스 빅데이터 플룸

2016.10.20

빅데이터라는 모험이 시작된 지 꽤 됐다. 그러다 보니, 이제 더 이상 새롭지 않은 것들도 있다. 더 나아가 방해가 될 수도 있는 기술도 있다.  Image Credit: Getty Images Bank 향후 수년 동안 기술들의 업그레이드와 교체가 빅데이터 도입의 성공과 실패를 좌지우지 할 수도 있다. 이에 교체를 고려해야 할 기술들을 정리해봤다. 1. 맵리듀스(MapReduce) 맵리듀스는 느리다. 문제 해결에 가장 적합한 도구 역할을 하는 경우가 정말 드물다. 맵리듀스를 '부분 집합'으로 간주할 수 있는 가장 흔한 DAG(Directed Acyclic Graph) 기술 등 선택할 수 있는 알고리즘들이 많다. 맞춤형 맵리듀스 작업을 많이 했다면, 스파크(Spark)와의 성능 차이만으로도 교체에 수반되는 비용과 노력을 정당화할 수 있을 것이다. 2. 스톰(Storm) 스파크가 스트리밍 세상을 집어 삼킬 것이라고 말하지는 않겠다. 그러나 아마 그럴 것이다. 또 에이펙스(Apex)와 플린크(Flink) 등 성능과 레이턴시가 스톰보다 우수한 스파크 대안들이 존재한다. 또한 레이턴시 허용 한도를 평가하고, 저 수준에서의 한층 복잡한 코드의 버그가 몇 ms의 가치가 있는지 생각해봐야 한다. 스톰은 지원이 미흡하다. 호튼웍스(Hortonworks)가 유일하다. 그렇지만 호튼웍스가 직면하는 시장 압력이 높아지고 있다는 점을 감안하면, 스톰이 더 큰 주목을 끌 확률은 낮다. 3. 피그(Pig) 스파크 등 완벽한 대안 기술이 많다. 처음에는 피그가 빅데이터에 꽤 좋은 'PL/SQL'로 보일지 모르겠다. 그러나 곧 조금 이상하다는 점을 발견할 것이다. 4. 자바(Java) JVM(Java virtual machine)이 아닌 언어를 의미한다. 빅데이터 용으로는 신택스(syntax)가 무겁다. 또한 람다(Lambda)와 같은 새로운 아키텍처가 이상한 방식으로 결합되었다. 빅데이터의...

2016.10.20

하둡과 아파치 스파크, 무엇이 어떻게 다른가? 5가지 궁금증

종종 하둡과 아파치 스파크가 빅데이터 영역에서 경쟁관계 있는 것처럼 보이기도 했지만 최근 들어 이 둘이 서로 조화를 이룬다는 생각이 점점 더 확산되고 있다. 하둡과 아파치 스파크 둘 다 빅데이터 프레임워크다. 이미지 출처 : IDGNS 빅데이터를 다루는 대화나 기사를 접하다 보면 하둡과 아파치 스파크라는 이름을 어렵잖게 들을 수 있다. 그렇다면 이들의 정체는 무엇이고, 둘 사이에는 어떤 차이점이 있을까? 1. 하둡과 아파치 스파크의 역할은 다르다. 하둡과 아파치 스파크는 모두 빅데이터 프레임워크라는 점에서는 공통 분모를 가지지만, 그 용도에는 상당한 차이가 있다. 먼저 하둡은 기본적으로 분산형 데이터 인프라스트럭처로써, 대량의 데이터 컬랙션을 상용 서버 클러스터 내 복수의 노드들에 분산시키는 역할을 한다. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다는 점이 이 방식의 장점이다. 또 하둡은 데이터를 인덱싱하고 추적해 빅데이터 프로세싱 및 애널리틱스 활동의 효율성을 큰 폭으로 개선한다는 점에서도 많은 시장의 지지를 얻고 있다. 이와 달리 스파크는 이러한 분산형 데이터 컬랙션 상부에서 동작하는 데이터 프로세싱 툴이며, 분산형 스토리지로서의 역할은 수행하지 않는다.   2. 하둡과 아파치 스파크는 상호 독립적이다. 하둡은 하둡 분산형 파일 시스템(HDFS, Hadoop Distributed File System)이라는 이름의 스토리지 컴포넌트와 더불어 프로세싱 컴포넌트인 맵리듀스도 제공한다. 즉 프로세싱 작업을 위해 스파크를 필수적으로 필요로 하지 않는 것이다. 반대로 스파크도 하둡 없이 이용할 수 있다. 스파크에 자체 파일 관리 시스템이 포함되진 않고 그것을 필요로 하는 것은 사실이지만, 굳이 HDFS가 아니더라도 여타 클라우드 기반 데이터 플랫폼과도 융합될 수 있기 때문이다. 그러나 스파크 자체가 본래 하둡용으로 설계된 솔루션인만큼 둘이 함께할 때 가장 좋은 궁합을 보여주긴 한다. 3. 스...

빅데이터 데이터 과학자 맵리듀스 하둡 HDFS 아파치 스파크 빅데이터 프레임워크

2015.12.15

종종 하둡과 아파치 스파크가 빅데이터 영역에서 경쟁관계 있는 것처럼 보이기도 했지만 최근 들어 이 둘이 서로 조화를 이룬다는 생각이 점점 더 확산되고 있다. 하둡과 아파치 스파크 둘 다 빅데이터 프레임워크다. 이미지 출처 : IDGNS 빅데이터를 다루는 대화나 기사를 접하다 보면 하둡과 아파치 스파크라는 이름을 어렵잖게 들을 수 있다. 그렇다면 이들의 정체는 무엇이고, 둘 사이에는 어떤 차이점이 있을까? 1. 하둡과 아파치 스파크의 역할은 다르다. 하둡과 아파치 스파크는 모두 빅데이터 프레임워크라는 점에서는 공통 분모를 가지지만, 그 용도에는 상당한 차이가 있다. 먼저 하둡은 기본적으로 분산형 데이터 인프라스트럭처로써, 대량의 데이터 컬랙션을 상용 서버 클러스터 내 복수의 노드들에 분산시키는 역할을 한다. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다는 점이 이 방식의 장점이다. 또 하둡은 데이터를 인덱싱하고 추적해 빅데이터 프로세싱 및 애널리틱스 활동의 효율성을 큰 폭으로 개선한다는 점에서도 많은 시장의 지지를 얻고 있다. 이와 달리 스파크는 이러한 분산형 데이터 컬랙션 상부에서 동작하는 데이터 프로세싱 툴이며, 분산형 스토리지로서의 역할은 수행하지 않는다.   2. 하둡과 아파치 스파크는 상호 독립적이다. 하둡은 하둡 분산형 파일 시스템(HDFS, Hadoop Distributed File System)이라는 이름의 스토리지 컴포넌트와 더불어 프로세싱 컴포넌트인 맵리듀스도 제공한다. 즉 프로세싱 작업을 위해 스파크를 필수적으로 필요로 하지 않는 것이다. 반대로 스파크도 하둡 없이 이용할 수 있다. 스파크에 자체 파일 관리 시스템이 포함되진 않고 그것을 필요로 하는 것은 사실이지만, 굳이 HDFS가 아니더라도 여타 클라우드 기반 데이터 플랫폼과도 융합될 수 있기 때문이다. 그러나 스파크 자체가 본래 하둡용으로 설계된 솔루션인만큼 둘이 함께할 때 가장 좋은 궁합을 보여주긴 한다. 3. 스...

2015.12.15

컴스코어 CTO가 전하는 빅데이터 교훈

이미지 출처 : Thinkstock 컴스코어(comScore)는 빅데이터 분야에서 신출내기 회사는 아니다. 이 디지털 분석 회사는 1999년 온라인에서 무슨 일이 일어나는지에 대해 인텔리전스를 제공하려는 목표를 가지고 설립됐다. 초창기 이 회사가 관리하던 데이터의 양은 비교적 적당했지만 그런 상황이 오래가지 않았다. 컴스코어의 첫번째 소프트웨어 엔지니어이자 현재 CTO를 역임하고 있는 마이크 브라운은 “2009년부터 데이터 양 측면에 있어서 문제가 상당히 재미있어지기 시작했다”는 말로 설명을 시작했다. 이어서 그는 “그 이전까지는 한달 동안 500억에서 1000억 이벤트 수준이었다”고 전했다. --------------------------------------------------------------- 빅 데이터와 분석 인기기사 -> 칼럼 | 일기예보와 경영예측 -> "CAO(최고 분석 책임자) 직책이 필요한 시점" -> '승부, 데이터를 만나다'··· 애널리틱스로 변화하는 스포츠 산업 -> CIO의 새로운 미션 '데이터 분석 전문가를 찾아라!' -> “애널리틱스 인재 태부족” 몇몇 CIO들의 극복방안 -> "빅 데이터 시각화로 직원 통찰력을 증대시켜라" 이베이의 과제 -> 빅 데이터 애널리틱스, 콜센터에겐 '금광' --------------------------------------------------------------- 빅데이터를 흐르게 하라 2009년 여름부터는 마치 누군가 댐 수문을 연 것처럼 데이터 양이 급속도로 증가했고 그 추세가 계속 지금까지 이어져오고 있다. 작년 12월 브라운은 컴스코어가 1조 9,000억 이벤트 이상을 기록했는데, 이는 ...

CIO 맵알 애널리틱스 분석 컴스코어 하둡 CTO 맵리듀스 빅데이터 comScore

2015.07.01

이미지 출처 : Thinkstock 컴스코어(comScore)는 빅데이터 분야에서 신출내기 회사는 아니다. 이 디지털 분석 회사는 1999년 온라인에서 무슨 일이 일어나는지에 대해 인텔리전스를 제공하려는 목표를 가지고 설립됐다. 초창기 이 회사가 관리하던 데이터의 양은 비교적 적당했지만 그런 상황이 오래가지 않았다. 컴스코어의 첫번째 소프트웨어 엔지니어이자 현재 CTO를 역임하고 있는 마이크 브라운은 “2009년부터 데이터 양 측면에 있어서 문제가 상당히 재미있어지기 시작했다”는 말로 설명을 시작했다. 이어서 그는 “그 이전까지는 한달 동안 500억에서 1000억 이벤트 수준이었다”고 전했다. --------------------------------------------------------------- 빅 데이터와 분석 인기기사 -> 칼럼 | 일기예보와 경영예측 -> "CAO(최고 분석 책임자) 직책이 필요한 시점" -> '승부, 데이터를 만나다'··· 애널리틱스로 변화하는 스포츠 산업 -> CIO의 새로운 미션 '데이터 분석 전문가를 찾아라!' -> “애널리틱스 인재 태부족” 몇몇 CIO들의 극복방안 -> "빅 데이터 시각화로 직원 통찰력을 증대시켜라" 이베이의 과제 -> 빅 데이터 애널리틱스, 콜센터에겐 '금광' --------------------------------------------------------------- 빅데이터를 흐르게 하라 2009년 여름부터는 마치 누군가 댐 수문을 연 것처럼 데이터 양이 급속도로 증가했고 그 추세가 계속 지금까지 이어져오고 있다. 작년 12월 브라운은 컴스코어가 1조 9,000억 이벤트 이상을 기록했는데, 이는 ...

2015.07.01

빅데이터 분석에 스파크를 이용해야 하는 5가지 이유

아파치 스파크(Apache Spark)는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 빅데이터의 차세대 '빅씽(Big Thing)'으로 가장 빨리 자리를 굳히고 있다. 지난 몇 년간 하둡이 빅데이터 처리의 가장 지배적인 패러다임으로 부상하면서 몇 가지가 분명해졌다. 첫째, 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS)은 빅데이터에 적합한 스토리지 플랫폼이다. 둘째, YARN은 빅데이터 환경에 도입할 수 있는 자원 할당 및 관리 프레임워크다. 가장 중요할 것으로 판단되는 셋째는 모든 문제를 해결하는 하나의 프로세싱 프레임워크는 없다는 것이다. 맵 리듀스는 놀라운 기술이지만 모든 문제를 해결하지 못한다. 하둡에 의지하는 기업들은 중요한 질문에 대한 해답을 찾기 위해 다양한 분석 인프라와 프로세스를 필요로 한다. 또한 데이터 준비, 기술적 분석(Descriptive analysis), 검색, 예측 분석, 기타 머신 학습과 그래프 프로세싱 등 고급 분석도 요구된다. 여기에서 그치지 않는다. 이런 요소들과 연동되어, 이미 보유한 기능과 자원을 이용할 수 있게끔 지원하는 툴 세트가 필요하다. 현재까지는 이런 기준 모두를 만족시키는 하나의 프로세싱 프레임워크는 존재하지 않는다. 이 부분이 스파크의 기본적인 장점이다. 스파크는 상대적으로 역사가 짧은 데이터 프로젝트지만 앞선 요건을 모두 충족하고 있다. 다음은 스파크의 시대에 접어들었음을 설득시키는 5가지 이유다. 1. 고급 분석을 '현실'로 만드는 스파크 유수 대기업과 혁신 기업의 상당수가 고급 분석 기능 확대 방안을 모색하고 있다. 그러나 최근 뉴욕에서 열린 데이터 분석 관련 이벤트에서 실시된 조사결과에 따르면, 전사적으로 고급 분석 기술을 도입해 활용하고 있는 기업의 비율은 20%에 불과했다. 나머지 80%는 데이터 준비와 기본 분석 작업만도 벅차다고 말하고 있다. 이들 기업의 몇 안 되...

빅데이터 아파치 맵리듀스 하둡 스파크

2015.03.20

아파치 스파크(Apache Spark)는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 빅데이터의 차세대 '빅씽(Big Thing)'으로 가장 빨리 자리를 굳히고 있다. 지난 몇 년간 하둡이 빅데이터 처리의 가장 지배적인 패러다임으로 부상하면서 몇 가지가 분명해졌다. 첫째, 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS)은 빅데이터에 적합한 스토리지 플랫폼이다. 둘째, YARN은 빅데이터 환경에 도입할 수 있는 자원 할당 및 관리 프레임워크다. 가장 중요할 것으로 판단되는 셋째는 모든 문제를 해결하는 하나의 프로세싱 프레임워크는 없다는 것이다. 맵 리듀스는 놀라운 기술이지만 모든 문제를 해결하지 못한다. 하둡에 의지하는 기업들은 중요한 질문에 대한 해답을 찾기 위해 다양한 분석 인프라와 프로세스를 필요로 한다. 또한 데이터 준비, 기술적 분석(Descriptive analysis), 검색, 예측 분석, 기타 머신 학습과 그래프 프로세싱 등 고급 분석도 요구된다. 여기에서 그치지 않는다. 이런 요소들과 연동되어, 이미 보유한 기능과 자원을 이용할 수 있게끔 지원하는 툴 세트가 필요하다. 현재까지는 이런 기준 모두를 만족시키는 하나의 프로세싱 프레임워크는 존재하지 않는다. 이 부분이 스파크의 기본적인 장점이다. 스파크는 상대적으로 역사가 짧은 데이터 프로젝트지만 앞선 요건을 모두 충족하고 있다. 다음은 스파크의 시대에 접어들었음을 설득시키는 5가지 이유다. 1. 고급 분석을 '현실'로 만드는 스파크 유수 대기업과 혁신 기업의 상당수가 고급 분석 기능 확대 방안을 모색하고 있다. 그러나 최근 뉴욕에서 열린 데이터 분석 관련 이벤트에서 실시된 조사결과에 따르면, 전사적으로 고급 분석 기술을 도입해 활용하고 있는 기업의 비율은 20%에 불과했다. 나머지 80%는 데이터 준비와 기본 분석 작업만도 벅차다고 말하고 있다. 이들 기업의 몇 안 되...

2015.03.20

추천! 최고의 오픈소스 빅 데이터 툴 20선

하둡은 그 어느 때보다 더 많은 인기를 누리고 있지만, 맵리듀스에 대한 수요는 감소하는 것으로 보인다. 누구나 더 빠른 대답을 원한다. SQL 쿼리의 대답 역시 이런 경우가 많다. 올해 최고 오픈소스 소프트웨어 시상인 보시(Bossies)의 빅 데이터 부문은 하둡 기술군의 새로운 발전상을 보여주고, NoSQL이 성숙해지고 있음을 강조하며, 데이터 랭글링(Wrangling), 데이터 분석, 기계 학습 분야에 유용한 툴이 많이 있음을 제시했다. 오픈소스 빅 데이터 툴을 소개한다. 아이파이썬(IPython) 데이터 과학을 포함해 과학 연구와 업무에서 중요한 2가지 요소는 결과 공유와 검증이다. 당신이 최초의 저온 핵융합(Cold fusion) 데이터 과학자가 되고 싶지는 않을 것이다. 아이파이썬 노트북스(Notebooks)는 연구원이 데이터 분석 업무를 문서화하고 자동화할 수 있는 환경을 제공한다. 노트는 연구원이 코드, 문서, 아이디어, 시각화 데이터를 공유하고, 여러 다양한 환경에서 이를 이용할 수 있는 하나의 공간이다. 이런 기능들은 현대 데이터 과학에서 아주 중요한 역할을 한다. 데이터 산물을 구축해 관리하는 것은 아주 복잡한 작업이다. 운영과 모니터링 등 조직의 여러 기능이 정보를 입력해야 한다. 분석력 공유 역시 마찬가지다. 아이파이썬은 아이파이썬 노트북스보다 더 많은 기능을 제공한다. 예를 들어, 데이터 파이프라인, 병렬 컴퓨팅 등을 여러 언어로 지원하고 있다. -스티븐 누네즈(Steven Nunez) 판다스(Pandas) 판다스는 테이블 데이터 조작에 사용되는 파이썬 DSL(Domain-Specific Language)이다. 헷지펀드 산업에 뿌리를 두고 있기 때문에, 높은 성능과 쉬운 사용 편의성을 특징으로 하고 있다. 판다스는 상대적으로 신기술에 해당되지만, 그 저변이 크게 확대되고 있는 추세다. R 언어와 유사한 측면이 많으며, 동일한 데이터 랭글링 작업 다수에 이용할 수 있다. 다만 R과 비교해 라이브러...

오픈소스 빅데이터 맵리듀스 하둡 파이썬

2014.10.02

하둡은 그 어느 때보다 더 많은 인기를 누리고 있지만, 맵리듀스에 대한 수요는 감소하는 것으로 보인다. 누구나 더 빠른 대답을 원한다. SQL 쿼리의 대답 역시 이런 경우가 많다. 올해 최고 오픈소스 소프트웨어 시상인 보시(Bossies)의 빅 데이터 부문은 하둡 기술군의 새로운 발전상을 보여주고, NoSQL이 성숙해지고 있음을 강조하며, 데이터 랭글링(Wrangling), 데이터 분석, 기계 학습 분야에 유용한 툴이 많이 있음을 제시했다. 오픈소스 빅 데이터 툴을 소개한다. 아이파이썬(IPython) 데이터 과학을 포함해 과학 연구와 업무에서 중요한 2가지 요소는 결과 공유와 검증이다. 당신이 최초의 저온 핵융합(Cold fusion) 데이터 과학자가 되고 싶지는 않을 것이다. 아이파이썬 노트북스(Notebooks)는 연구원이 데이터 분석 업무를 문서화하고 자동화할 수 있는 환경을 제공한다. 노트는 연구원이 코드, 문서, 아이디어, 시각화 데이터를 공유하고, 여러 다양한 환경에서 이를 이용할 수 있는 하나의 공간이다. 이런 기능들은 현대 데이터 과학에서 아주 중요한 역할을 한다. 데이터 산물을 구축해 관리하는 것은 아주 복잡한 작업이다. 운영과 모니터링 등 조직의 여러 기능이 정보를 입력해야 한다. 분석력 공유 역시 마찬가지다. 아이파이썬은 아이파이썬 노트북스보다 더 많은 기능을 제공한다. 예를 들어, 데이터 파이프라인, 병렬 컴퓨팅 등을 여러 언어로 지원하고 있다. -스티븐 누네즈(Steven Nunez) 판다스(Pandas) 판다스는 테이블 데이터 조작에 사용되는 파이썬 DSL(Domain-Specific Language)이다. 헷지펀드 산업에 뿌리를 두고 있기 때문에, 높은 성능과 쉬운 사용 편의성을 특징으로 하고 있다. 판다스는 상대적으로 신기술에 해당되지만, 그 저변이 크게 확대되고 있는 추세다. R 언어와 유사한 측면이 많으며, 동일한 데이터 랭글링 작업 다수에 이용할 수 있다. 다만 R과 비교해 라이브러...

2014.10.02

맵알의 새로운 하둡 배포판으로 안전하게 업그레이드

맵알의 최신 하둡 배포판에는 YARNN과 함께 하둡 2.2 지원 기능이 들어 있다. 게다가 최신 하둡 아키텍처로 안전하게 업그레이드하면서 맵리듀스 1.x 스케줄러와도 호환된다. 맵알 테크놀로지(MapR Technologies)가 자사의 배포판을 경쟁사인 클라우데라(Cloudera)나 호튼웍스(Hortonworks)와는 차별화하였다. 맵알은 하위 호환성을 지원하여 기업이 클러스터의 동일한 노드에서 하둡 맵리듀스(Hadoop MapReduce) 1.x와 YARN 스케줄러(Scheduler)를 동시에 사용할 수 있다. 맵알의 CMO 잭 노리스는 “맵리듀스 1.x와 YARN 스케줄러가 공존할 수 있도록 함으로써 맵리듀스 1.x 사용자들이 쉽고 안전하게 새로운 스케줄러로 업그레이드할 수 있는 길을 제공하고 있다”고 강조했다. "다른 종류의 애플리케이션에도 프로세싱을 개방하고 싶을 경우에 단순히 하둡을 활용하겠다는 이유로 애플리케이션을 재 작성하지는 않을 것이다." -- 잭 노리스, 맵알 테크놀로지 CMO "우리는 하둡의 생산에 초점을 맞추고 있다"고 노리스는 말했다. "일단 생산을 시작하면 이용성, 가동시간, 기존 앱과의 통합이 중요해 진다. 생산 환경을 변화시키는 것이 그리 쉽지 않기 때문에 우리는 이전의 배포판부터 현 배포판까지 하위 호환성을 지원하고 있다. 고객들은 'YARN이 좋기는 하지만 일단 한 번 해보고 싶다. 이미 모든 것이 잘 되고 있다'고 말한다. 우리의 고객들은 플랫폼에서 하루 2만 개 이상의 작업을 처리하고 있다"라고 노리스는 설명했다. 아파치 하둡(Apache Hadoop) YARN(Yet Another Resource Negotiator)은 지난 10월에 공개된 하둡 2.0의 기초다. YARN은 하둡 운영체제로 동작하면서 과거 배치 처리를 위한 일회용 데이터 플랫폼이었던 것을 여러 번 사용할 수 있는 플랫...

CIO 빅데이터 맵리듀스 하둡 맴알 MapR

2014.02.19

맵알의 최신 하둡 배포판에는 YARNN과 함께 하둡 2.2 지원 기능이 들어 있다. 게다가 최신 하둡 아키텍처로 안전하게 업그레이드하면서 맵리듀스 1.x 스케줄러와도 호환된다. 맵알 테크놀로지(MapR Technologies)가 자사의 배포판을 경쟁사인 클라우데라(Cloudera)나 호튼웍스(Hortonworks)와는 차별화하였다. 맵알은 하위 호환성을 지원하여 기업이 클러스터의 동일한 노드에서 하둡 맵리듀스(Hadoop MapReduce) 1.x와 YARN 스케줄러(Scheduler)를 동시에 사용할 수 있다. 맵알의 CMO 잭 노리스는 “맵리듀스 1.x와 YARN 스케줄러가 공존할 수 있도록 함으로써 맵리듀스 1.x 사용자들이 쉽고 안전하게 새로운 스케줄러로 업그레이드할 수 있는 길을 제공하고 있다”고 강조했다. "다른 종류의 애플리케이션에도 프로세싱을 개방하고 싶을 경우에 단순히 하둡을 활용하겠다는 이유로 애플리케이션을 재 작성하지는 않을 것이다." -- 잭 노리스, 맵알 테크놀로지 CMO "우리는 하둡의 생산에 초점을 맞추고 있다"고 노리스는 말했다. "일단 생산을 시작하면 이용성, 가동시간, 기존 앱과의 통합이 중요해 진다. 생산 환경을 변화시키는 것이 그리 쉽지 않기 때문에 우리는 이전의 배포판부터 현 배포판까지 하위 호환성을 지원하고 있다. 고객들은 'YARN이 좋기는 하지만 일단 한 번 해보고 싶다. 이미 모든 것이 잘 되고 있다'고 말한다. 우리의 고객들은 플랫폼에서 하루 2만 개 이상의 작업을 처리하고 있다"라고 노리스는 설명했다. 아파치 하둡(Apache Hadoop) YARN(Yet Another Resource Negotiator)은 지난 10월에 공개된 하둡 2.0의 기초다. YARN은 하둡 운영체제로 동작하면서 과거 배치 처리를 위한 일회용 데이터 플랫폼이었던 것을 여러 번 사용할 수 있는 플랫...

2014.02.19

고액 연봉 美 IT종사자 10명 중 9명은 '빅 데이터' 전문가

미국에서 빅 데이터 언어, 데이터베이스, 기술을 마스터한 IT전문가의 연봉이 가장 높은 것으로 조사됐다. 지난해 IT전문가들의 급여가 약 3% 상승한 가운데 빅 데이터 관련 언어, 데이터베이스, 기술에 대한 전문성을 갖춘 IT전문가들이 가장 연봉의 높았던 것으로 나타났다. IT전문 헤드헌팅 기업인 다이스닷컴(Dice.com)의 2013-2014 급여 소자에 따르면, 미국 IT전문가들의 평균 연봉은 2013년 8만 7,811달러로 전년의 8만 5,519달러보다 상승했다. 더욱 놀라운 조사 결과는 연봉이 높은 상위 10대 IT직종 9개가 모두 빅 데이터와 관련한 것들로 조사됐다. 다이스닷컴의 조사 결과 가장 많은 연봉을 받은 것으로 나타난 IT직종은 통계 컴퓨팅과 그래픽용 소프트웨어 환경인 R이었다. 다음은 IT분야에서 평균 연봉이 높은 상위 10대 직종이다. 1. R : 11만 5,531달러 2. NoSQL : 11만 4,796달러 3. 맵리듀스 : 11만 4396달러 4. PMBoK : 11만 2,382달러 5. 카산드라 : 11만 2,382달러 6. 옴니그래플(Omnigraffle) : 11만 1,039달러 7. 피그 : 10만 9,561달러 8. 서비스 지향 아키텍처 : 10만 8,997달러 9. 하둡 : 10만 8,669달러 10 . 몽고DB : 10만 7,825달러 다이스닷컴의 사장 슈라반 골리는 "데이터 활용이 기업의 경쟁우위 전략에 중요한 역할을 할 수 있다는 여기며 크게 투자하고 있고 그 결과 핵심 빅 데이터 전문가들이 고액 연봉을 받을 수 있게 됐다"라고 성명에서 밝혔다. "기술 전문가는 현재의 고용주에게 자신들이 훨씬 더 많은 가치를, 그리고 다른 고용주들에게 시장 경쟁력을 보여줄 수 있는 빅 데이터 프로젝트에 적극적으로 나서야 한다"라고 골리는 덧붙였다. ---------------------------------------------------...

IT전문가 조사 연봉 맵리듀스 하둡 급여 다이스닷컴 R

2014.02.10

미국에서 빅 데이터 언어, 데이터베이스, 기술을 마스터한 IT전문가의 연봉이 가장 높은 것으로 조사됐다. 지난해 IT전문가들의 급여가 약 3% 상승한 가운데 빅 데이터 관련 언어, 데이터베이스, 기술에 대한 전문성을 갖춘 IT전문가들이 가장 연봉의 높았던 것으로 나타났다. IT전문 헤드헌팅 기업인 다이스닷컴(Dice.com)의 2013-2014 급여 소자에 따르면, 미국 IT전문가들의 평균 연봉은 2013년 8만 7,811달러로 전년의 8만 5,519달러보다 상승했다. 더욱 놀라운 조사 결과는 연봉이 높은 상위 10대 IT직종 9개가 모두 빅 데이터와 관련한 것들로 조사됐다. 다이스닷컴의 조사 결과 가장 많은 연봉을 받은 것으로 나타난 IT직종은 통계 컴퓨팅과 그래픽용 소프트웨어 환경인 R이었다. 다음은 IT분야에서 평균 연봉이 높은 상위 10대 직종이다. 1. R : 11만 5,531달러 2. NoSQL : 11만 4,796달러 3. 맵리듀스 : 11만 4396달러 4. PMBoK : 11만 2,382달러 5. 카산드라 : 11만 2,382달러 6. 옴니그래플(Omnigraffle) : 11만 1,039달러 7. 피그 : 10만 9,561달러 8. 서비스 지향 아키텍처 : 10만 8,997달러 9. 하둡 : 10만 8,669달러 10 . 몽고DB : 10만 7,825달러 다이스닷컴의 사장 슈라반 골리는 "데이터 활용이 기업의 경쟁우위 전략에 중요한 역할을 할 수 있다는 여기며 크게 투자하고 있고 그 결과 핵심 빅 데이터 전문가들이 고액 연봉을 받을 수 있게 됐다"라고 성명에서 밝혔다. "기술 전문가는 현재의 고용주에게 자신들이 훨씬 더 많은 가치를, 그리고 다른 고용주들에게 시장 경쟁력을 보여줄 수 있는 빅 데이터 프로젝트에 적극적으로 나서야 한다"라고 골리는 덧붙였다. ---------------------------------------------------...

2014.02.10

'얀'이 왔다··· 하둡 앱 범람에 대비할 시점

최근에 공개된 아파치 하둡(Apache Hadoop) 코드에는 새로운 작업 관리 툴이 포함돼 있다. 하둡 프로젝트 지지자들은 이 툴의 등장으로 인해 빅 데이터 애플리케이션을 더욱 쉽게 개발할 수 있을 것으로 기대하고 있다. 야후와 구글 등의 세계적인 기술 기업이 대용량의 데이터를 관리하는데 하둡을 사용하고 있다. 즉 하둡의 가치와 유용성은 이미 그 효과가 입증된 상태다. 하둡 시스템은 현재까지 맵리듀스(MapReduce)에 의존해 데이터를 처리해왔다. 그러나 최근 이 오픈소스 코드에는 맵리듀스와 함께 다른 애플리케이션을 운용할 수 있는 플랫폼인 얀(Yarn)이 추가됐다. 얀은 애플리케이션이 필요로 하는 자원을 모니터링해 분산된 컴퓨팅 시스템 내에서 이를 제공해주는 플랫폼이다. 열렬한 하둡 지지자들은 얀 플랫폼의 등장으로 인해 더 많은 애플리케이션이 빅 데이터 개방 시스템 내에서 운용될 수 있을 것이며, 이는 하둡용 새로운 분석 앱의 범람으로 이어질 수 있을 것으로 기대하고 있다. 하둡을 담당하는 가트너의 정보관리 애널리스트 머브 에이드리언은 " 하둡이 더 나은 자원 관리 및 혼합 작업 지원을 지원할 수 있도록 하는 최상의 경로가 바로 얀이다”라며, “몇몇 주요 간극이 메워졌다. 앞으로 장족의 발전이 예상된다”라고 말했다. 2.0 버전에서는 사용성을 높이기 위한 설계를 포함해 여러 구성요소가 추가됐다. 또 개별 클러스터에 스케일(Scale)을 추가하여 4,000대의 머신까지 확장할 수 있다 (하둡 배치는 복수의 클러스터로 구성할 수 있다). 하지만 가장 큰 변화는 4년의 계획을 거쳐 2년 동안 개발된, 차세대 맵리듀스 아키텍처라 불리는 얀의 추가다. 얀은 현재 맵리듀스가 하나로 통합하고 있는 주요 기능들을 작업 일정관리/모니터링과 자원관리 등 2개로 분리시켰다. 얀은 애플리케이션이 어떤 자원을 필요로 하는지 모니터링하고 이런 앱들을 위한 CPU와 RAM 노드(Node...

맵리듀스 하둡

2013.06.05

최근에 공개된 아파치 하둡(Apache Hadoop) 코드에는 새로운 작업 관리 툴이 포함돼 있다. 하둡 프로젝트 지지자들은 이 툴의 등장으로 인해 빅 데이터 애플리케이션을 더욱 쉽게 개발할 수 있을 것으로 기대하고 있다. 야후와 구글 등의 세계적인 기술 기업이 대용량의 데이터를 관리하는데 하둡을 사용하고 있다. 즉 하둡의 가치와 유용성은 이미 그 효과가 입증된 상태다. 하둡 시스템은 현재까지 맵리듀스(MapReduce)에 의존해 데이터를 처리해왔다. 그러나 최근 이 오픈소스 코드에는 맵리듀스와 함께 다른 애플리케이션을 운용할 수 있는 플랫폼인 얀(Yarn)이 추가됐다. 얀은 애플리케이션이 필요로 하는 자원을 모니터링해 분산된 컴퓨팅 시스템 내에서 이를 제공해주는 플랫폼이다. 열렬한 하둡 지지자들은 얀 플랫폼의 등장으로 인해 더 많은 애플리케이션이 빅 데이터 개방 시스템 내에서 운용될 수 있을 것이며, 이는 하둡용 새로운 분석 앱의 범람으로 이어질 수 있을 것으로 기대하고 있다. 하둡을 담당하는 가트너의 정보관리 애널리스트 머브 에이드리언은 " 하둡이 더 나은 자원 관리 및 혼합 작업 지원을 지원할 수 있도록 하는 최상의 경로가 바로 얀이다”라며, “몇몇 주요 간극이 메워졌다. 앞으로 장족의 발전이 예상된다”라고 말했다. 2.0 버전에서는 사용성을 높이기 위한 설계를 포함해 여러 구성요소가 추가됐다. 또 개별 클러스터에 스케일(Scale)을 추가하여 4,000대의 머신까지 확장할 수 있다 (하둡 배치는 복수의 클러스터로 구성할 수 있다). 하지만 가장 큰 변화는 4년의 계획을 거쳐 2년 동안 개발된, 차세대 맵리듀스 아키텍처라 불리는 얀의 추가다. 얀은 현재 맵리듀스가 하나로 통합하고 있는 주요 기능들을 작업 일정관리/모니터링과 자원관리 등 2개로 분리시켰다. 얀은 애플리케이션이 어떤 자원을 필요로 하는지 모니터링하고 이런 앱들을 위한 CPU와 RAM 노드(Node...

2013.06.05

빅 데이터를 위한 하둡, 그 이상의 방법은 없는가

하둡과 맵리듀스(MapReduce)는 오랫동안 빅 데이터의 중심이었지만, 일부 기업들은 이제 거대하고 지속적으로 성장해가는 데이터세트에서 비즈니스 가치를 뽑아내는 새롭고 더 빠른 방법을 찾고 있다.    많은 대형 조직들이 여전히 오픈소스 하둡 빅 데이터 프레임워크로 돌아서고 있지만, 이를 창시한 구글과 다른 이들은 이미 좀더 새로운 기술로 움직이고 있다.   아파치 하둡 플랫폼은 구글 파일 시스템과 구글 맵리듀스 기술의 오픈소스 버전이다. 이는 거대 검색엔진업체가 상용 하드웨어 상의 막대한 볼륨의 데이터를 관리하기 위한 목적으로 개발된 것이다.   아파치 하둡은 구글이 웹을 훑고 검색하는데 사용된 처리 기술의 핵심이었다. 지난 3년동안 수백 개의 기업들이 빠르게 성장하는 구조적 데이터, 반-구조적 데이터, 비구조적 데이터를 관리하기 위해 하둡을 채택했다.   오픈소스 기술은 로그나 이벤트 데이터 분석, 보안 이벤트 관리, 소셜 미디어 분석, 그리고 페타바이트급 데이터 세트를 포함하는 애플리케이션 등에서, 전통적인 기업 데이터웨어하우징 기술보다 더 값싼 옵션임이 증명됐다. 하둡 설계의 한계가 새로운 빅 데이터 기술 요구 애널리스트들은 일부 기업들이 기술의 제한때문이 아니라, 설계된 목적때문에, 하둡 이후를 생각하기 시작했다고 주장했다.   하둡은 데이터가 배치로 수집되고 처리되는 경우에 배치-프로세싱(batch-processing) 작업을 맡기 위해 만들어졌다. 하둡 환경에서의 데이터는 쪼개져서 고도로 분산된 상품 서버나 노드에 저장된다.   데이터로부터 보고서를 받기 위해서는, 사용자는 우선 업무를 쓰고, 제출한 후, 모든 노드에 분산되고 처리될 때까지 기다려야 한다.   데이터베이스와 분석 전문가인 커트 모내시는 "하둡 플랫폼이 잘 작동하고 있지만, 몇몇 핵심...

구글 맵리듀스 하둡 빅쿼리 드레멜 메타마켓 스트림리듀스 임팔라

2012.11.02

하둡과 맵리듀스(MapReduce)는 오랫동안 빅 데이터의 중심이었지만, 일부 기업들은 이제 거대하고 지속적으로 성장해가는 데이터세트에서 비즈니스 가치를 뽑아내는 새롭고 더 빠른 방법을 찾고 있다.    많은 대형 조직들이 여전히 오픈소스 하둡 빅 데이터 프레임워크로 돌아서고 있지만, 이를 창시한 구글과 다른 이들은 이미 좀더 새로운 기술로 움직이고 있다.   아파치 하둡 플랫폼은 구글 파일 시스템과 구글 맵리듀스 기술의 오픈소스 버전이다. 이는 거대 검색엔진업체가 상용 하드웨어 상의 막대한 볼륨의 데이터를 관리하기 위한 목적으로 개발된 것이다.   아파치 하둡은 구글이 웹을 훑고 검색하는데 사용된 처리 기술의 핵심이었다. 지난 3년동안 수백 개의 기업들이 빠르게 성장하는 구조적 데이터, 반-구조적 데이터, 비구조적 데이터를 관리하기 위해 하둡을 채택했다.   오픈소스 기술은 로그나 이벤트 데이터 분석, 보안 이벤트 관리, 소셜 미디어 분석, 그리고 페타바이트급 데이터 세트를 포함하는 애플리케이션 등에서, 전통적인 기업 데이터웨어하우징 기술보다 더 값싼 옵션임이 증명됐다. 하둡 설계의 한계가 새로운 빅 데이터 기술 요구 애널리스트들은 일부 기업들이 기술의 제한때문이 아니라, 설계된 목적때문에, 하둡 이후를 생각하기 시작했다고 주장했다.   하둡은 데이터가 배치로 수집되고 처리되는 경우에 배치-프로세싱(batch-processing) 작업을 맡기 위해 만들어졌다. 하둡 환경에서의 데이터는 쪼개져서 고도로 분산된 상품 서버나 노드에 저장된다.   데이터로부터 보고서를 받기 위해서는, 사용자는 우선 업무를 쓰고, 제출한 후, 모든 노드에 분산되고 처리될 때까지 기다려야 한다.   데이터베이스와 분석 전문가인 커트 모내시는 "하둡 플랫폼이 잘 작동하고 있지만, 몇몇 핵심...

2012.11.02

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9