2012.10.19

데이터 과학자란?··· 애매한 요건들, 그러나 역할은 '명백'

Allen Bernard | CIO
데이터 과학자(data scientist)란 정확히 뭘까? 현재 IT 분야에 종사하는 많은 이들이 갖는 궁금증이다. 데이터 과학자가 되기 위해 어떤 전문성과 역량이 필요한지는 딱 꼬집어 말하기 어렵다. 아직 발전을 거듭하고 있는 분야이기 때문이다. 그러나 데이터 과학자가 맡는 일은 생각만큼 새롭지 않을 수 있다.

최근 하버드 비즈니스 리뷰(Harvard Business Review, HBR)에 이와 관련해 '데이터 과학자: 21세기에 가장 '섹시한' 직업(Data Scientist: The Sexiest Job of the 21st Century)이라는 제목의 저술 하나가 게재돼  눈길을 끌고 있다.

사실 '데이터', '과학자'라는 단어와 '섹시'라는 단어는 한 문단을 이루는 데 어울리는 단어들이 아니다. 불과 몇 년 전까지도 그랬다. 그런데 미국에서 가장 권위 있는 경영 전문지에 헤드라인으로 등장했다. 이는 기업의 규모가 작든 크든 모두가 빅 데이터라는 물결에 휩쓸리고 있음을 시사한다.

데이터 과학과 현대의 대학 교육
전국의 대학들은 이 분야의 인력 수요 증가에 대비해 커리큘럼을 개발하고 있고, 자신의 학생들의 취업문을 열어줄 기회를 포착하고 있다. 첨단 애널리틱스와 통계를 이해하고, 기업의 일상 업무에서 써먹을 수 있는 프로그래밍 기술을 갖춘 인력을 양성하는 것이 목표다.

예를 들어, 콜롬비아 대학은 이런 부분들을 집대성해 '데이터 과학'이라는 과정을 최초로 개설했다. 이 대학의 강사이자 교육 과정을 개발한 레이첼 슈트에 따르면, 지난 7월에는 데이터 과학 및 공학 연구소(Insitute for Data Science and Engineering)를 설립하기도 했다. 슈트는 구글의 선임 통계학자로 이 대학 통계학과의 조교수로 재직 중이다.

슈트는 HBR에 실린 글에 대한 답변의 일환으로 블로그에 올린 글에서 "나는 일반 대학 환경에서는 기업에서 원하는 그런 데이터 과학자를 양성할 수 없다는 말을 들었고, 이를 하나의 도전으로 받아들였다. 이 과정은 데이터 과학 이론을 정통 과학으로 발전시키는 기회를 창출하는데 목표를 두고 있다"라고 말했다.

페이스북 데이터 팀 책임자를 거쳐 지금은 클라우데라(Cloudera)의 수석 과학자를 맡고 있는 제프 해머바체르와 UC 버클리 컴퓨터사이언스학과의 마이크 프랭클린 교수도 올해 봄 데이터 과학이라는 과정을 개설했다.

구글을 검색해보면 스탠포드에서 스티븐스, 하버드(2013년 봄), 신시내티 대학 등 많은 학교들이 '데이터 과학자' 양성을 위한 과정을 제공하고 있음을 확인할 수 있다. 그러나 데이터 과학자를 용어를 사용하는 경우는 많지 않다. 대부분은 첨단 애널리틱스 학위 과정이다.

사실 이 표현이 적합하다. 기업의 관점에서 보자면 이 직업은 기업이 수익 창출을 위해 데이터에서 실제 이용할 수 있는 정보를 수집하는데 초점을 맞추고 있기 때문이다.

BDaaS(Big Data as a Service) 서비스 전문업체 오페라 솔루션스의 세일즈 담당 총괄 매니저이자 수석 부사장인 숀 블레빈스는 "대부분의 기업들에 있어 가장 큰 어려움은 SAS 툴을 이용해 통계 분석을 하고, 클러스터링과 세그멘테이션을 할 수 있는 인력을 채용하는 것이 아니다. 이런 업무가 나머지 기업 활동과 단절된 활동이라는 점에서 어려움이 비롯되곤 한다"라고 말했다.

기업들이 원하는 '데이터 과학자'의 인재상은 대개 하둡(Hadoop)과 R 같은 툴로 인해 방대해지고 다양해진 데이터를 이해하고 분석할 수 있는 종합적인 역량을 갖춘 사람들이다.

그러나 블레빈스는 이에 대해 “이는 정작 수익창출로 이어지지 않기 때문에, 데이터 과학자를 전문지식이나 기업의 재무제표(Balance sheet, BS)를 작성할 때나 데이터를 운용하는 사람으로만 국한한 생각에 불과하다.”라고 지적했다.

더 강력해지는 데이터 과학자 직종
구인 사이트나 게시판을 살펴보면 많은 기업들이 데이터 과학자 채용을 희망하고 있음을 알 수 있다. 몬스터닷컴(Monster.com)에는 49개, 다이스(Dice)에는 224개, 링크드인(LinkedIn)에는 477개의 구인광고가 실려있다. 물론 링크드인에서 DBA와 시스템 관리자를 각각 검색하면 764개와 1,827개의 구인광고가 나온다. 그러나 데이터 과학자에 대한 수요가 증가하고 있는 것은 분명하다.

당연히 빅 데이터 때문이다. 과거 사람들이 빅 데이터 분야에서 일을 하지 않은 것은 아니다. 또 빅 데이터가 새로운 개념도 아니다. 가트너의 더그 라니가 10여년 전에 처음 주장한 볼륨(Volume), 벨로시티(Velocity, 속도), 버라이어티(Variety, 다양성) 등 3가지 V가 여전히 빅 데이터의 기본 개념을 구성하고 있다.

빅 데이터 프로젝트 이면의 주된 목표는 고객과 기업, 제품의 상호관계, 앞으로의 추세 등 고객을 이해하는 것이다. 즉 박사 학위를 소지한 통계 전문가의 회귀 분석 능력은 제대로 된 데이터 과학자가 터득해야 할 전문성 가운데 하나에 불과하다.

마이크로소프트 비즈니스 플랫폼 그룹(Business Platform Group)의 헤라인 오베로이 디렉터는 "데이터 과학자라는 명칭은 새로운 명칭이다. 그러나 역할은 그렇지 않다. 과거에도 있었던 역할이다. 다만 지난 2~3년 동안 하둡 같은 신기술이 보급되면서 분산형 처리에 드는 비용이 줄어들고, 통계 프로그래밍 같은 작업 능력이 개선되고 쉬워진 것이다. 즉 새로운 형태의 데이터에서 정보를 추출하는 기준이 낮아진 것이다"라고 설명했다.

다시 설명하면, 전문적인 기술이 없어도 전문적인 정보를 수집할 수 있게 됐다. 최소한 혁신적인 제품과 서비스를 창출하는데 도움을 주는 지식을 발견하고 모델링 하는 단계에서는 그렇다. 빅 데이터 컨설팅 회사인 뉴 밴티지 파트너스(New Vantage Partners)의 폴 바스 공동 설립자 겸 파트너는 "거대 데이터 스트림과 데이터 세트의 정보를 누구나가 조사해 수집할 수 있는 상태가 됐다"라고 말했다.

분석: 데이터 과학자를 찾는 이유
바스는 "현재 기업들은 질문을 던지고 6주 동안 답변을 기다린다. 그리고 답변이 나오면 '내 질문에 대한 답이 아니다'라고 말하곤 한다. 이런 부분이 크게 달라질 것"이라고 말했다.

빅 데이터 과학자의 가장 강력한 후보자인 빅 데이터 애널리스트들은 기업이 계속해서 질문을 하도록 유도하고, 짧은 시간 내에 그 질문에 대한 답을 제시한다. 이런 식으로 시간을 단축한다. 또 '무어의 법칙'과 애널리틱스에 따른 혜택을 일반 기업 사용자에게도 제공한다.

"그럼 어떤 사람들이 이런 일을 할까? 데이터 과학자는 어떤 능력을 갖춰야 할까?" 토마스 데이븐 포트와 D.J 파틸은 HBR에서 이와 같은 질문을 던지고 있다. 그리고  "데이터 해커, 애널리스트, 커뮤니케이터, 어드바이저의 하이브리드 유형 인재로 생각하면 된다. 이런 인재는 아주 대단한 역량을 발휘하지만 그만큼 드물기도 하다"고 답변하고 있다.

이 질문의 답변은 한 동안 앞으로도 그럴 것이다. ciokr@idg.co.kr



2012.10.19

데이터 과학자란?··· 애매한 요건들, 그러나 역할은 '명백'

Allen Bernard | CIO
데이터 과학자(data scientist)란 정확히 뭘까? 현재 IT 분야에 종사하는 많은 이들이 갖는 궁금증이다. 데이터 과학자가 되기 위해 어떤 전문성과 역량이 필요한지는 딱 꼬집어 말하기 어렵다. 아직 발전을 거듭하고 있는 분야이기 때문이다. 그러나 데이터 과학자가 맡는 일은 생각만큼 새롭지 않을 수 있다.

최근 하버드 비즈니스 리뷰(Harvard Business Review, HBR)에 이와 관련해 '데이터 과학자: 21세기에 가장 '섹시한' 직업(Data Scientist: The Sexiest Job of the 21st Century)이라는 제목의 저술 하나가 게재돼  눈길을 끌고 있다.

사실 '데이터', '과학자'라는 단어와 '섹시'라는 단어는 한 문단을 이루는 데 어울리는 단어들이 아니다. 불과 몇 년 전까지도 그랬다. 그런데 미국에서 가장 권위 있는 경영 전문지에 헤드라인으로 등장했다. 이는 기업의 규모가 작든 크든 모두가 빅 데이터라는 물결에 휩쓸리고 있음을 시사한다.

데이터 과학과 현대의 대학 교육
전국의 대학들은 이 분야의 인력 수요 증가에 대비해 커리큘럼을 개발하고 있고, 자신의 학생들의 취업문을 열어줄 기회를 포착하고 있다. 첨단 애널리틱스와 통계를 이해하고, 기업의 일상 업무에서 써먹을 수 있는 프로그래밍 기술을 갖춘 인력을 양성하는 것이 목표다.

예를 들어, 콜롬비아 대학은 이런 부분들을 집대성해 '데이터 과학'이라는 과정을 최초로 개설했다. 이 대학의 강사이자 교육 과정을 개발한 레이첼 슈트에 따르면, 지난 7월에는 데이터 과학 및 공학 연구소(Insitute for Data Science and Engineering)를 설립하기도 했다. 슈트는 구글의 선임 통계학자로 이 대학 통계학과의 조교수로 재직 중이다.

슈트는 HBR에 실린 글에 대한 답변의 일환으로 블로그에 올린 글에서 "나는 일반 대학 환경에서는 기업에서 원하는 그런 데이터 과학자를 양성할 수 없다는 말을 들었고, 이를 하나의 도전으로 받아들였다. 이 과정은 데이터 과학 이론을 정통 과학으로 발전시키는 기회를 창출하는데 목표를 두고 있다"라고 말했다.

페이스북 데이터 팀 책임자를 거쳐 지금은 클라우데라(Cloudera)의 수석 과학자를 맡고 있는 제프 해머바체르와 UC 버클리 컴퓨터사이언스학과의 마이크 프랭클린 교수도 올해 봄 데이터 과학이라는 과정을 개설했다.

구글을 검색해보면 스탠포드에서 스티븐스, 하버드(2013년 봄), 신시내티 대학 등 많은 학교들이 '데이터 과학자' 양성을 위한 과정을 제공하고 있음을 확인할 수 있다. 그러나 데이터 과학자를 용어를 사용하는 경우는 많지 않다. 대부분은 첨단 애널리틱스 학위 과정이다.

사실 이 표현이 적합하다. 기업의 관점에서 보자면 이 직업은 기업이 수익 창출을 위해 데이터에서 실제 이용할 수 있는 정보를 수집하는데 초점을 맞추고 있기 때문이다.

BDaaS(Big Data as a Service) 서비스 전문업체 오페라 솔루션스의 세일즈 담당 총괄 매니저이자 수석 부사장인 숀 블레빈스는 "대부분의 기업들에 있어 가장 큰 어려움은 SAS 툴을 이용해 통계 분석을 하고, 클러스터링과 세그멘테이션을 할 수 있는 인력을 채용하는 것이 아니다. 이런 업무가 나머지 기업 활동과 단절된 활동이라는 점에서 어려움이 비롯되곤 한다"라고 말했다.

기업들이 원하는 '데이터 과학자'의 인재상은 대개 하둡(Hadoop)과 R 같은 툴로 인해 방대해지고 다양해진 데이터를 이해하고 분석할 수 있는 종합적인 역량을 갖춘 사람들이다.

그러나 블레빈스는 이에 대해 “이는 정작 수익창출로 이어지지 않기 때문에, 데이터 과학자를 전문지식이나 기업의 재무제표(Balance sheet, BS)를 작성할 때나 데이터를 운용하는 사람으로만 국한한 생각에 불과하다.”라고 지적했다.

더 강력해지는 데이터 과학자 직종
구인 사이트나 게시판을 살펴보면 많은 기업들이 데이터 과학자 채용을 희망하고 있음을 알 수 있다. 몬스터닷컴(Monster.com)에는 49개, 다이스(Dice)에는 224개, 링크드인(LinkedIn)에는 477개의 구인광고가 실려있다. 물론 링크드인에서 DBA와 시스템 관리자를 각각 검색하면 764개와 1,827개의 구인광고가 나온다. 그러나 데이터 과학자에 대한 수요가 증가하고 있는 것은 분명하다.

당연히 빅 데이터 때문이다. 과거 사람들이 빅 데이터 분야에서 일을 하지 않은 것은 아니다. 또 빅 데이터가 새로운 개념도 아니다. 가트너의 더그 라니가 10여년 전에 처음 주장한 볼륨(Volume), 벨로시티(Velocity, 속도), 버라이어티(Variety, 다양성) 등 3가지 V가 여전히 빅 데이터의 기본 개념을 구성하고 있다.

빅 데이터 프로젝트 이면의 주된 목표는 고객과 기업, 제품의 상호관계, 앞으로의 추세 등 고객을 이해하는 것이다. 즉 박사 학위를 소지한 통계 전문가의 회귀 분석 능력은 제대로 된 데이터 과학자가 터득해야 할 전문성 가운데 하나에 불과하다.

마이크로소프트 비즈니스 플랫폼 그룹(Business Platform Group)의 헤라인 오베로이 디렉터는 "데이터 과학자라는 명칭은 새로운 명칭이다. 그러나 역할은 그렇지 않다. 과거에도 있었던 역할이다. 다만 지난 2~3년 동안 하둡 같은 신기술이 보급되면서 분산형 처리에 드는 비용이 줄어들고, 통계 프로그래밍 같은 작업 능력이 개선되고 쉬워진 것이다. 즉 새로운 형태의 데이터에서 정보를 추출하는 기준이 낮아진 것이다"라고 설명했다.

다시 설명하면, 전문적인 기술이 없어도 전문적인 정보를 수집할 수 있게 됐다. 최소한 혁신적인 제품과 서비스를 창출하는데 도움을 주는 지식을 발견하고 모델링 하는 단계에서는 그렇다. 빅 데이터 컨설팅 회사인 뉴 밴티지 파트너스(New Vantage Partners)의 폴 바스 공동 설립자 겸 파트너는 "거대 데이터 스트림과 데이터 세트의 정보를 누구나가 조사해 수집할 수 있는 상태가 됐다"라고 말했다.

분석: 데이터 과학자를 찾는 이유
바스는 "현재 기업들은 질문을 던지고 6주 동안 답변을 기다린다. 그리고 답변이 나오면 '내 질문에 대한 답이 아니다'라고 말하곤 한다. 이런 부분이 크게 달라질 것"이라고 말했다.

빅 데이터 과학자의 가장 강력한 후보자인 빅 데이터 애널리스트들은 기업이 계속해서 질문을 하도록 유도하고, 짧은 시간 내에 그 질문에 대한 답을 제시한다. 이런 식으로 시간을 단축한다. 또 '무어의 법칙'과 애널리틱스에 따른 혜택을 일반 기업 사용자에게도 제공한다.

"그럼 어떤 사람들이 이런 일을 할까? 데이터 과학자는 어떤 능력을 갖춰야 할까?" 토마스 데이븐 포트와 D.J 파틸은 HBR에서 이와 같은 질문을 던지고 있다. 그리고  "데이터 해커, 애널리스트, 커뮤니케이터, 어드바이저의 하이브리드 유형 인재로 생각하면 된다. 이런 인재는 아주 대단한 역량을 발휘하지만 그만큼 드물기도 하다"고 답변하고 있다.

이 질문의 답변은 한 동안 앞으로도 그럴 것이다. ciokr@idg.co.kr

X