Offcanvas

������������������

인터뷰 | “내가 데이터의 힘에 매료된 사연은...” 애플 선임 데이터 과학자 대럴 강

애플에서 선임 데이터 과학자로 재직 중인 데럴 강은 어릴 적 ‘괴짜 경제학(Freakonomics)’을 읽고 데이터 과학의 매력에 빠지게 됐다. 인터뷰에서 그는 그가 받은 교육과 커리어 선택이 어떤 결과로 이어졌는지 이야기했다.    데이터 과학이란 알고리즘 및 시스템을 활용해 정형 데이터와 비정형 데이터 모두에서 인사이트를 도출하는 과학적 접근 방식이다. 하나의 학문이기도 한 데이터 과학은 수학, 통계, 컴퓨터 공학은 물론 업종 지식 및 기타 정보를 모두 종합해 사건과 추세를 분석한다. 디지털 전환 시대에 데이터 과학자는 수요가 높은 IT 직군 중 하나다. 깔끔하게 코드를 작성하고 데이터에서 인사이트를 뽑아낼 수 있는 데이터 인재에 대한 수요는 그 어느때보다도 더 높아졌다. 미국 구인·구직 사이트 인디드닷컴(Indeed.com)에 기재된 업무 역량에 따르면 수학 및 컴퓨터 공학 기술 외에도 몸담은 산업에 대한 이해가 필요하다. 비정형 데이터를 분석해 해당 분야의 리포트를 작성하고 솔루션을 제시해야 하기 때문이다. 기업에서 요구하는 구체적인 기술 역량으로는 클라우드 컴퓨팅, 통계, 고급 수준의 수학, 머신러닝, 데이터 시각화 도구, 쿼리 언어 및 데이터베이스 관리 등이 있다. 파이썬 및 R 프로그래밍 역량 또한 일반적인 요구사항이다. 인적 자원 컨설팅 업체 로버트 하프(Robert Half)는 “기업이 디지털 전환에 박차를 가하면서 모든 산업(IT, 제조업, 금융, 의료 등)과 기관(학계, 정부, 비영리단체 등)에 데이터 과학자가 필요하게 됐다”라며 “숫자(데이터)를 실행에 옮기는 일은 모든 조직의 숙명이기 때문이다”라고 설명했다. 데이터 과학자가 되는 데 무엇이 필요한지 알아보기 위해 최근까지 모빌리티 기업 우버 테크놀로지스(Uber Technologies)에서 데이터 과학자로 일했던 데럴 강과 이야기를 나눴다. 그는 8월 말 애플의 선임 데이터 과학자로 이직했다. 졸업 후 1년의 공백기로 발견한 '괴짜경제학 열정' 대럴 ...

데이터과학 데이터과학자 파이썬 통계학 백엔드

2022.08.25

애플에서 선임 데이터 과학자로 재직 중인 데럴 강은 어릴 적 ‘괴짜 경제학(Freakonomics)’을 읽고 데이터 과학의 매력에 빠지게 됐다. 인터뷰에서 그는 그가 받은 교육과 커리어 선택이 어떤 결과로 이어졌는지 이야기했다.    데이터 과학이란 알고리즘 및 시스템을 활용해 정형 데이터와 비정형 데이터 모두에서 인사이트를 도출하는 과학적 접근 방식이다. 하나의 학문이기도 한 데이터 과학은 수학, 통계, 컴퓨터 공학은 물론 업종 지식 및 기타 정보를 모두 종합해 사건과 추세를 분석한다. 디지털 전환 시대에 데이터 과학자는 수요가 높은 IT 직군 중 하나다. 깔끔하게 코드를 작성하고 데이터에서 인사이트를 뽑아낼 수 있는 데이터 인재에 대한 수요는 그 어느때보다도 더 높아졌다. 미국 구인·구직 사이트 인디드닷컴(Indeed.com)에 기재된 업무 역량에 따르면 수학 및 컴퓨터 공학 기술 외에도 몸담은 산업에 대한 이해가 필요하다. 비정형 데이터를 분석해 해당 분야의 리포트를 작성하고 솔루션을 제시해야 하기 때문이다. 기업에서 요구하는 구체적인 기술 역량으로는 클라우드 컴퓨팅, 통계, 고급 수준의 수학, 머신러닝, 데이터 시각화 도구, 쿼리 언어 및 데이터베이스 관리 등이 있다. 파이썬 및 R 프로그래밍 역량 또한 일반적인 요구사항이다. 인적 자원 컨설팅 업체 로버트 하프(Robert Half)는 “기업이 디지털 전환에 박차를 가하면서 모든 산업(IT, 제조업, 금융, 의료 등)과 기관(학계, 정부, 비영리단체 등)에 데이터 과학자가 필요하게 됐다”라며 “숫자(데이터)를 실행에 옮기는 일은 모든 조직의 숙명이기 때문이다”라고 설명했다. 데이터 과학자가 되는 데 무엇이 필요한지 알아보기 위해 최근까지 모빌리티 기업 우버 테크놀로지스(Uber Technologies)에서 데이터 과학자로 일했던 데럴 강과 이야기를 나눴다. 그는 8월 말 애플의 선임 데이터 과학자로 이직했다. 졸업 후 1년의 공백기로 발견한 '괴짜경제학 열정' 대럴 ...

2022.08.25

"고립돼 작업하는 문제 해결"··· 오라클, 데이터 과학 플랫폼 공개

오라클이 데이터 과학 플랫폼 영역에 진출했다. 데이터베이스 기업 오라클은 그간 개별 데이터 과학자에 중점을 두었던 기존 솔루션과 달리 협업에 특화한 클라우드 기반 데이터 과학 플랫폼을 12일 공개했다.  오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform, OCDSP)은 오라클이 2018년 인수한 데이터사이언스닷컴(DataScience.com)을 기반으로 구축됐다. 이 플랫폼은 팀 단위의 협업을 효과적으로 수행하는 데 필요한 기능을 지원하는 것이 특징이다.    이 플랫폼의 핵심 솔루션은 오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science, OCIDS)다. 파이썬, 텐서플로우, 케라스, 주피터 등 다양한 오픈소스 도구를 사용해 오라클 클라우드 상에서 머신러닝 모델을 설계, 학습, 관리할 수 있다.  오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장 그렉 파블릭은 “네이티브 클라우드 서비스 중 기업 내 협력에 초점을 맞췄다는 점에서 동급 최초라고 할 수 있다. 데이터 과학자들의 협업 및 거버넌스를 위한 환경을 제공하는 데 특화된 솔루션이다”라고 밝혔다. 데이터 과학 프로젝트 간소화 ‘오라클 클라우드 인프라스트럭처 데이터 사이언스’는 데이터 과학 워크플로우 자동화를 특징으로 얼터릭스(Alteryx), KNIME 어낼리틱스 플랫폼(KNIME Analytics Platform), 라피드마이너(RapidMiner) 등의 다른 플랫폼들과 경쟁하고자 한다.   해당 솔루션은 AutoML 자동화 알고리즘 선택과 튜닝 기능을 제공한다. AutoML 자동화 알고리즘은 특정 사용례에 가장 적합한 알고리즘을 선택할 수 있도록 해준다. 튜닝을 통해서는 알고리즘 입력 값을 선택하거나, 모델을 미세조정할 수 있다고 파블릭은 설명했다. 방대한 양의 데이터세트로부터 예측형 특징을...

클라우드 데이터사이언스닷컴 케라스 주피터 텐서플로우 데이터과학자 데이터과학 머신러닝 파이썬 알고리즘 데이터베이스 빅데이터 오픈소스 오라클 인프라 협업 네이티브클라우드

2020.02.14

오라클이 데이터 과학 플랫폼 영역에 진출했다. 데이터베이스 기업 오라클은 그간 개별 데이터 과학자에 중점을 두었던 기존 솔루션과 달리 협업에 특화한 클라우드 기반 데이터 과학 플랫폼을 12일 공개했다.  오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform, OCDSP)은 오라클이 2018년 인수한 데이터사이언스닷컴(DataScience.com)을 기반으로 구축됐다. 이 플랫폼은 팀 단위의 협업을 효과적으로 수행하는 데 필요한 기능을 지원하는 것이 특징이다.    이 플랫폼의 핵심 솔루션은 오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science, OCIDS)다. 파이썬, 텐서플로우, 케라스, 주피터 등 다양한 오픈소스 도구를 사용해 오라클 클라우드 상에서 머신러닝 모델을 설계, 학습, 관리할 수 있다.  오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장 그렉 파블릭은 “네이티브 클라우드 서비스 중 기업 내 협력에 초점을 맞췄다는 점에서 동급 최초라고 할 수 있다. 데이터 과학자들의 협업 및 거버넌스를 위한 환경을 제공하는 데 특화된 솔루션이다”라고 밝혔다. 데이터 과학 프로젝트 간소화 ‘오라클 클라우드 인프라스트럭처 데이터 사이언스’는 데이터 과학 워크플로우 자동화를 특징으로 얼터릭스(Alteryx), KNIME 어낼리틱스 플랫폼(KNIME Analytics Platform), 라피드마이너(RapidMiner) 등의 다른 플랫폼들과 경쟁하고자 한다.   해당 솔루션은 AutoML 자동화 알고리즘 선택과 튜닝 기능을 제공한다. AutoML 자동화 알고리즘은 특정 사용례에 가장 적합한 알고리즘을 선택할 수 있도록 해준다. 튜닝을 통해서는 알고리즘 입력 값을 선택하거나, 모델을 미세조정할 수 있다고 파블릭은 설명했다. 방대한 양의 데이터세트로부터 예측형 특징을...

2020.02.14

"데이터 전략에 투자한다" 맥주회사 CIO가 말하는 IT인재 확보 비결

세계 최대 맥주회사인 AB인베브는 전통적인 기업들도 유능한 IT 인재를 유치할 수 있다고 말한다. 비결은 바로 데이터와 신기술 전략에 대한 투자다.   IT 인재 구인난을 실리콘 밸리 업체와 스타트업 탓으로 돌리는 일부 대기업 CIO들이 있다. 1,320억 달러 규모의 맥주회사 AB인베브를 이끄는 부사장 타실로 페스테틱스는 동의할 수 없는 이야기다. 그런 인식을 바꾸는 것이 IT 리더들의 의무라고 믿기 때문이다.  전통적인 기업들이 디지털 시대에 들어서면서 힘겨운 경쟁에 직면하고 있다. 그는 이것이 오히려 IT 인재가 자신의 역량을 빛내고 경력을 쌓을 수 있는 기회라고 보았다.     이 회사는 데이터 과학자에게 다른 곳에서는 볼 수 없는 ‘현실’ 데이터를 제공한다. 페스테틱스는 CIO 닷컴과의 인터뷰에서 “각종 비즈니스 과제를 해결할 기회라는 측면에서 AB인베브는 오늘날의 기술 회사들에서 찾아보기 힘든 많은 정보를 제공한다”고 밝혔다.  AB인베브는 인터브루(Interbrew), 암베브(Ambev), 앤하이저부시(Anheuser-Busch) 3곳의 맥주 회사가 합병돼 탄생했다. AB인베브는 수십 년에 걸쳐 축적된 데이터를 활용하는 한편, 인공지능·사물인터넷·블록체인을 활용해 미래 비즈니스를 추진하고 있다.  최신 기술만 맹신해선 안 된다 디지털 기업으로 전환을 꾀했던 전통적인 기업들의 전적은 썩 좋지 않다. GE는 디지털 제조업을 하겠다면서 시스코 시스템즈, 마이크로소프트, 구글 등 디지털 기업 출신의 기술 전문가들을 영입했다. 그러나 GE의 야심 찬 디지털 혁신은 최근 몇 년 사이 흐지부지해지고 말았다.  하버드 비즈니스 리뷰(HBR)의 2018년 3월 기사에 따르면 나이키, 포드, P&G도 비슷한 사례다. 이들은 첨단기술을 활용한 제품 및 서비스를 추진하고 중단하길 반복하다가 결국 조직을 개편하곤 했다.  AB인베브가 같은 처지에 놓일지 판단하기는 아직 ...

클라우드 디지털전환 디지털혁신 디지털트랜스포메이션 디지털변혁 블록체인 데이터과학자 GE 사물인터넷 P&G 나이키 인공지능 포드 AWS 마이크로소프트 데이터센터 IT인재 구글 데이터엔지니어

2020.01.30

세계 최대 맥주회사인 AB인베브는 전통적인 기업들도 유능한 IT 인재를 유치할 수 있다고 말한다. 비결은 바로 데이터와 신기술 전략에 대한 투자다.   IT 인재 구인난을 실리콘 밸리 업체와 스타트업 탓으로 돌리는 일부 대기업 CIO들이 있다. 1,320억 달러 규모의 맥주회사 AB인베브를 이끄는 부사장 타실로 페스테틱스는 동의할 수 없는 이야기다. 그런 인식을 바꾸는 것이 IT 리더들의 의무라고 믿기 때문이다.  전통적인 기업들이 디지털 시대에 들어서면서 힘겨운 경쟁에 직면하고 있다. 그는 이것이 오히려 IT 인재가 자신의 역량을 빛내고 경력을 쌓을 수 있는 기회라고 보았다.     이 회사는 데이터 과학자에게 다른 곳에서는 볼 수 없는 ‘현실’ 데이터를 제공한다. 페스테틱스는 CIO 닷컴과의 인터뷰에서 “각종 비즈니스 과제를 해결할 기회라는 측면에서 AB인베브는 오늘날의 기술 회사들에서 찾아보기 힘든 많은 정보를 제공한다”고 밝혔다.  AB인베브는 인터브루(Interbrew), 암베브(Ambev), 앤하이저부시(Anheuser-Busch) 3곳의 맥주 회사가 합병돼 탄생했다. AB인베브는 수십 년에 걸쳐 축적된 데이터를 활용하는 한편, 인공지능·사물인터넷·블록체인을 활용해 미래 비즈니스를 추진하고 있다.  최신 기술만 맹신해선 안 된다 디지털 기업으로 전환을 꾀했던 전통적인 기업들의 전적은 썩 좋지 않다. GE는 디지털 제조업을 하겠다면서 시스코 시스템즈, 마이크로소프트, 구글 등 디지털 기업 출신의 기술 전문가들을 영입했다. 그러나 GE의 야심 찬 디지털 혁신은 최근 몇 년 사이 흐지부지해지고 말았다.  하버드 비즈니스 리뷰(HBR)의 2018년 3월 기사에 따르면 나이키, 포드, P&G도 비슷한 사례다. 이들은 첨단기술을 활용한 제품 및 서비스를 추진하고 중단하길 반복하다가 결국 조직을 개편하곤 했다.  AB인베브가 같은 처지에 놓일지 판단하기는 아직 ...

2020.01.30

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (4)

지금까지 필자의 기고문은 각 회 전반부는 CERN과 LHC 실험의 현황과 실제 사례를 소개하고, 글의 후반부에 이 사례가 빅데이터 비즈니스에 주는 시사점을 논의하는 방식이었다. 필자가 약속한 빅데이터 조직과 시스템, 데이터 과학자 인력 채용과 운용에 관련된 추가 기고에서는 형식을 조금 바꾸어서 필자가 고객들과 지인들로부터 받은 가장 많은 질문과 고충사항에 대한 의견을 정리하는 식으로 글의 형식을 잠시 바꾸고자 한다.   글의 형식을 이렇게 바꾸는 이유는 일단 CERN과 LHC 실험의 빅데이터 조직과 시스템, 인력 운용에 대한 필자의 경험과 찾을 수 있는 문헌이 다소 제한되어 문의 사항에 대한 적절한 사례를 바로바로 찾기 어려운 점도 있고, 고객들과 지인분들의 고충사항에 대한 궁금증을 먼저 해소해드리는 것이 글의 취지에 더 적절할 것 같다는 생각도 있기 때문이다. 추가 기고에서 빅데이터 비즈니스 조직과 운영, 그리고 데이터과학자로서 커리어 계발에 대한 궁금증이 조금이나마 먼저 해소되길 바란다. 빅데이터 비즈니스 조직과 운영, 데이터과학자 커리어에 대한 추가 기고가 이어진 후에는 이 How-to-Big Data 시리즈를 마무리하는 의미로 몇 회에 걸쳐서 지금까지 살펴본 빅데이터 비즈니스의 교훈을 앞으로의 기업 비즈니스 개발에 적용하는 문제를 같이 생각해보고, 지금까지 살펴본 빅데이터 비즈니스의 전반적인 요소가 최근 기업 IT 트렌드와 어떤 연관이 있고 앞으로 어떻게 발전해 나갈 것인지 같이 예측해 보려고 한다. 부디 미래의 기업 IT 인프라를 어떻게 발전시켜야 할지 고민하는 CIO 및 IT 전문가들에게 조금이나마 도움이 되길 바란다. 좋은 데이터과학팀을 만들기 위해서는 어떻게 해야 하는가? - 데이터과학팀의 문화적 규범 지난 스물 네번째 글에서는 데이터과학자로서 LHC 물리학자들의 일반적인 특성에 대해서 알아보았다. 물론, LHC 실험을 수행하는 물리학자도 모두 사람이고, 물리학자마다 개성이 다르고 차이가 크지만, 그 개인적인 차이에도 불구하고 ...

CIO 데이터 조작 뇌과학 직업윤리 김진철 데이터과학자 데이터과학 노벨상 연구 문화 컨설팅 빅데이터 표절

2019.01.28

지금까지 필자의 기고문은 각 회 전반부는 CERN과 LHC 실험의 현황과 실제 사례를 소개하고, 글의 후반부에 이 사례가 빅데이터 비즈니스에 주는 시사점을 논의하는 방식이었다. 필자가 약속한 빅데이터 조직과 시스템, 데이터 과학자 인력 채용과 운용에 관련된 추가 기고에서는 형식을 조금 바꾸어서 필자가 고객들과 지인들로부터 받은 가장 많은 질문과 고충사항에 대한 의견을 정리하는 식으로 글의 형식을 잠시 바꾸고자 한다.   글의 형식을 이렇게 바꾸는 이유는 일단 CERN과 LHC 실험의 빅데이터 조직과 시스템, 인력 운용에 대한 필자의 경험과 찾을 수 있는 문헌이 다소 제한되어 문의 사항에 대한 적절한 사례를 바로바로 찾기 어려운 점도 있고, 고객들과 지인분들의 고충사항에 대한 궁금증을 먼저 해소해드리는 것이 글의 취지에 더 적절할 것 같다는 생각도 있기 때문이다. 추가 기고에서 빅데이터 비즈니스 조직과 운영, 그리고 데이터과학자로서 커리어 계발에 대한 궁금증이 조금이나마 먼저 해소되길 바란다. 빅데이터 비즈니스 조직과 운영, 데이터과학자 커리어에 대한 추가 기고가 이어진 후에는 이 How-to-Big Data 시리즈를 마무리하는 의미로 몇 회에 걸쳐서 지금까지 살펴본 빅데이터 비즈니스의 교훈을 앞으로의 기업 비즈니스 개발에 적용하는 문제를 같이 생각해보고, 지금까지 살펴본 빅데이터 비즈니스의 전반적인 요소가 최근 기업 IT 트렌드와 어떤 연관이 있고 앞으로 어떻게 발전해 나갈 것인지 같이 예측해 보려고 한다. 부디 미래의 기업 IT 인프라를 어떻게 발전시켜야 할지 고민하는 CIO 및 IT 전문가들에게 조금이나마 도움이 되길 바란다. 좋은 데이터과학팀을 만들기 위해서는 어떻게 해야 하는가? - 데이터과학팀의 문화적 규범 지난 스물 네번째 글에서는 데이터과학자로서 LHC 물리학자들의 일반적인 특성에 대해서 알아보았다. 물론, LHC 실험을 수행하는 물리학자도 모두 사람이고, 물리학자마다 개성이 다르고 차이가 크지만, 그 개인적인 차이에도 불구하고 ...

2019.01.28

'데이터과학 석사 양성' 美 상위 10대 대학은 어디?

기업이 수집하는 중요한 데이터를 사용하는 데 분석을 활용하며 이 분야가 빠르게 성장하고 있다. 데이터과학자 경력을 키우고 기업이 원하는 역량을 충족하려면 석사 학위를 취득하는 것이 좋다. 데이터과학 분야의 석사 학위는 더 고위직을 얻을 수 있는 자격을 부여하며 동일한 직종에서 경쟁할 때 다른 후보자와 차별해 준다. 데이터과학 학위 프로그램 가이드는 공립 및 비영리 대학에서 최고의 데이터과학 석사 프로그램을 제공한다. 순위는 학생 대 교수 비율, 평균 순수 비용, 학위 과정의 집중 분야 제공 여부의 3가지 범주를 기반으로 작성됐다. 다음은 미국에서 최고의 데이터과학 석사 과정을 보유한 상위 10개 학교다. 1. 퍼듀대학 : 크라넛 경영대학원 크라넛 경영대학원에서 제공하는 퍼듀대학교의 비즈니스 분석 및 정보 관리 과학 석사는 매년 6월에 시작해 3학기로 운영되는 풀타임 프로그램이다. 대학원 과정은 공급망 분석, 투자 분석 또는 기업 재무 분석의 3가지 전문 분야를 제공한다. 실습 경험과 균형 잡힌 커리큘럼을 통해 학생들에게 최신 기술과 분석 기법을 교육하도록 설계된 STEM 인증 프로그램이다. SAS, 파이썬, 미니탭(Minitab), SQL 같은 업계 관련 도구를 사용하는 방법도 배운다. 졸업 후, 대학은 비즈니스 데이터 분석을 위한 최신 모범 사례를 사용하여 실제 데이터 문제에 기술을 적용할 수 있다고 약속한다. 위치 : 인디애나주 웨스트라피엣(West Lafayette) 캠퍼스 내 또는 온라인 : 캠퍼스 출석 필수 학생 대 교수 비율 : 12 : 1 학비 : 인디애나주 내 학생은 미화 2만 9,741달러, 주 외 학생은 4만 7,786달러 집중 과정 : 공급망 분석, 투자 분석 또는 기업 재무 분석 2. 드폴대학교 드폴대학교(DePaul University)는 데이터과학 석사 과정을 제공한다. 이 프로그램에는 졸업 요건이 포함되어 있지만 실제 데이터 분석 프로젝트 완료, 예측 분석 ...

CIO MSA 데이터과학자 데이터과학 석사 R 파이썬 대학 통계 빅데이터 SAS MS in Analytics

2018.11.16

기업이 수집하는 중요한 데이터를 사용하는 데 분석을 활용하며 이 분야가 빠르게 성장하고 있다. 데이터과학자 경력을 키우고 기업이 원하는 역량을 충족하려면 석사 학위를 취득하는 것이 좋다. 데이터과학 분야의 석사 학위는 더 고위직을 얻을 수 있는 자격을 부여하며 동일한 직종에서 경쟁할 때 다른 후보자와 차별해 준다. 데이터과학 학위 프로그램 가이드는 공립 및 비영리 대학에서 최고의 데이터과학 석사 프로그램을 제공한다. 순위는 학생 대 교수 비율, 평균 순수 비용, 학위 과정의 집중 분야 제공 여부의 3가지 범주를 기반으로 작성됐다. 다음은 미국에서 최고의 데이터과학 석사 과정을 보유한 상위 10개 학교다. 1. 퍼듀대학 : 크라넛 경영대학원 크라넛 경영대학원에서 제공하는 퍼듀대학교의 비즈니스 분석 및 정보 관리 과학 석사는 매년 6월에 시작해 3학기로 운영되는 풀타임 프로그램이다. 대학원 과정은 공급망 분석, 투자 분석 또는 기업 재무 분석의 3가지 전문 분야를 제공한다. 실습 경험과 균형 잡힌 커리큘럼을 통해 학생들에게 최신 기술과 분석 기법을 교육하도록 설계된 STEM 인증 프로그램이다. SAS, 파이썬, 미니탭(Minitab), SQL 같은 업계 관련 도구를 사용하는 방법도 배운다. 졸업 후, 대학은 비즈니스 데이터 분석을 위한 최신 모범 사례를 사용하여 실제 데이터 문제에 기술을 적용할 수 있다고 약속한다. 위치 : 인디애나주 웨스트라피엣(West Lafayette) 캠퍼스 내 또는 온라인 : 캠퍼스 출석 필수 학생 대 교수 비율 : 12 : 1 학비 : 인디애나주 내 학생은 미화 2만 9,741달러, 주 외 학생은 4만 7,786달러 집중 과정 : 공급망 분석, 투자 분석 또는 기업 재무 분석 2. 드폴대학교 드폴대학교(DePaul University)는 데이터과학 석사 과정을 제공한다. 이 프로그램에는 졸업 요건이 포함되어 있지만 실제 데이터 분석 프로젝트 완료, 예측 분석 ...

2018.11.16

미국 내 데이터 과학과 머신러닝의 초고속 성장 원동력 4가지

소셜 네트워킹 웹사이트 링크드인이 웹사이트 데이터에 기반해 미국 내에서 가장 빠르게 성장하고 있는 직군을 조명한 보고서를 발행했다. 링크드인은 이 보고서에서 2012년과 2017년 데이터를 비교하고 있다. 지난 5년간 9.8배의 성장률을 보인 머신러닝이 1위를, 2012년 이후 6.5배의 성장률을 보인 데이터 과학자가 2위를 차지했다. 상위 10개 직군 중 4개는 데이터 과학과 관련된 분야였으며, 이들 4 직종 중 3종이 상위 5위 안에 들어갔다. 그렇다면 데이터 과학 관련 직군, 특히 머신러닝과 관련한 직군이 이처럼 빠르게 성장하는 이유는 무엇일까? 물론 그 전에도 데이터 과학 분야의 빠른 성장률을 지적하는 보고서는 꾸준히 있어 왔지만, 링크드인 보고서가 특별한 이유는 이들 직군의 엄청난 성장률을 뚜렷이 보여주었기 때문이다. 머신러닝과 데이터 과학 분야의 빠른 성장 뒤에 숨은 원동력 4가지를 살펴 보자. 기하급수적으로 증가한 데이터 양 전체 데이터의 90% 이상이 지난 2년 동안 생성된 것이다. 뿐만 아니라 오늘날 하루 데이터 생성량은 무려 2.5퀸틸리언(quintillion) 바이트에 달한다. 이 숫자가 무엇을 의미하는지 궁금한 독자들을 위해, 데이터 업체 도모(Domo)가 보다 쉽게 풀어 쓴 설명을 읽어 보자. - 미국인들은 1분에 265만 7,700GB의 데이터를 사용한다. - 인스타그램 유저들은 1분에 4만 6,750개의 사진을 포스팅 한다. - 1분에 1,522만 700 개의 문자 메시지가 전송된다. - 구글은 1분에 36만 7,080 건의 검색을 진행한다. 이런 활동을 할 때마다 데이터가 생성되므로 오늘날 존재하는 데이터의 양은 우리의 상상을 초월한다. 이처럼 차고 넘치는 데이터의 홍수 속에서, 어떻게든 데이터를 활용하려는 기업이 관련 기술을 가진 전문가를 찾는 건 당연한 일이다. 예컨대 인스타그램은 매 분마다 포스팅 되는 4만 6,750 개의 사진 중에서 가장 많이 공유되는 사진이 어떤 것인지 알고 싶을 것이다...

머신러닝 데이터과학 데이터과학자

2018.03.09

소셜 네트워킹 웹사이트 링크드인이 웹사이트 데이터에 기반해 미국 내에서 가장 빠르게 성장하고 있는 직군을 조명한 보고서를 발행했다. 링크드인은 이 보고서에서 2012년과 2017년 데이터를 비교하고 있다. 지난 5년간 9.8배의 성장률을 보인 머신러닝이 1위를, 2012년 이후 6.5배의 성장률을 보인 데이터 과학자가 2위를 차지했다. 상위 10개 직군 중 4개는 데이터 과학과 관련된 분야였으며, 이들 4 직종 중 3종이 상위 5위 안에 들어갔다. 그렇다면 데이터 과학 관련 직군, 특히 머신러닝과 관련한 직군이 이처럼 빠르게 성장하는 이유는 무엇일까? 물론 그 전에도 데이터 과학 분야의 빠른 성장률을 지적하는 보고서는 꾸준히 있어 왔지만, 링크드인 보고서가 특별한 이유는 이들 직군의 엄청난 성장률을 뚜렷이 보여주었기 때문이다. 머신러닝과 데이터 과학 분야의 빠른 성장 뒤에 숨은 원동력 4가지를 살펴 보자. 기하급수적으로 증가한 데이터 양 전체 데이터의 90% 이상이 지난 2년 동안 생성된 것이다. 뿐만 아니라 오늘날 하루 데이터 생성량은 무려 2.5퀸틸리언(quintillion) 바이트에 달한다. 이 숫자가 무엇을 의미하는지 궁금한 독자들을 위해, 데이터 업체 도모(Domo)가 보다 쉽게 풀어 쓴 설명을 읽어 보자. - 미국인들은 1분에 265만 7,700GB의 데이터를 사용한다. - 인스타그램 유저들은 1분에 4만 6,750개의 사진을 포스팅 한다. - 1분에 1,522만 700 개의 문자 메시지가 전송된다. - 구글은 1분에 36만 7,080 건의 검색을 진행한다. 이런 활동을 할 때마다 데이터가 생성되므로 오늘날 존재하는 데이터의 양은 우리의 상상을 초월한다. 이처럼 차고 넘치는 데이터의 홍수 속에서, 어떻게든 데이터를 활용하려는 기업이 관련 기술을 가진 전문가를 찾는 건 당연한 일이다. 예컨대 인스타그램은 매 분마다 포스팅 되는 4만 6,750 개의 사진 중에서 가장 많이 공유되는 사진이 어떤 것인지 알고 싶을 것이다...

2018.03.09

현직 7인이 말하는 '데이터 과학자의 길'

우리 대부분이 대학생일 때만 해도 데이터 과학자라는 역할이 존재하지 않았다. 과학적 데이터 분석 방법과 통계적 데이터 분석 방법을 합치고 방대한 데이터 은행에서 패턴과 해답을 추출하는 도구의 사용 방법에 대한 지식을 결합하는 것이다. 재미없는 작업 같은가? 사실 그렇지 않다. 지난 2012년 하버드 비즈니스 리뷰(Harvard Business Review)에서 “21세기 최고의 섹시한 직업”이라고 명명했을 정도다. 실제로 거의 모든 기업이 데이터 과학자를 원한다. 특히 더 중요한 것은 이제 정보 시대에 깊숙이 진입하면서 기업이라면 최종 제품이나 고객의 종류와 관계 없이 데이터 과학자가 필요해 졌다는 사실이다. IBM에 따르면, 전 세계 데이터의 대부분은 지난 2년 동안 생성됐다. 데이터 생성 속도는 그 어느 때보다 빠르다. 인류는 매일 250경 바이트의 데이터를 만든다. 이 데이터를 분류하고 조사할 방법이 없다면 인간은 데이터를 활용해 더 현명한 의사결정을 내리는 것은 고사하고 데이터에 파묻히기에 십상일 것이다. 데이터 과학자(또는 데이터 과학자 팀)는 이 데이터를 이해해 기업이 고객의 필요와 불만에 대응하도록 도움을 준다. 동시에 기업은 데이터 과학자의 도움을 받아 비용과 제조 과정을 통제할 수 있다. 유례 없이 폭주하는 데이터 속에서 추출할 수 있는 것이라면 무엇이나, 예를 들면 트렌드가 어떻게 수익에 영향을 미치는가 등을 이해할 수 있다. 문제는 데이터 과학자(그 말이 세간에서 들린다면)가 유니콘만큼이나 희귀하다는 점이다. 그래도 몇 명 찾아내기는 했다. 이들을 심층 인터뷰해 몇가지를 확인했다. 데이터 과학에는 물리학은 물론 심지어 천체물리학까지 활용된다는 것과 작업이 지저분하다는 것, 심지어 신발 업체조차 방대한 양의 데이터를 갖고 있다는 것, 엄청난 양의 데이터를 활용해 중대한 질문을 한다고 해도 누군가는 여전히 무엇을 해야 할지 결정을 내려야 한다는 것 등이다. 이제 이 섹시한 유니콘들의 이야기를 자세히 ...

CIO 데이터과학자

2017.12.29

우리 대부분이 대학생일 때만 해도 데이터 과학자라는 역할이 존재하지 않았다. 과학적 데이터 분석 방법과 통계적 데이터 분석 방법을 합치고 방대한 데이터 은행에서 패턴과 해답을 추출하는 도구의 사용 방법에 대한 지식을 결합하는 것이다. 재미없는 작업 같은가? 사실 그렇지 않다. 지난 2012년 하버드 비즈니스 리뷰(Harvard Business Review)에서 “21세기 최고의 섹시한 직업”이라고 명명했을 정도다. 실제로 거의 모든 기업이 데이터 과학자를 원한다. 특히 더 중요한 것은 이제 정보 시대에 깊숙이 진입하면서 기업이라면 최종 제품이나 고객의 종류와 관계 없이 데이터 과학자가 필요해 졌다는 사실이다. IBM에 따르면, 전 세계 데이터의 대부분은 지난 2년 동안 생성됐다. 데이터 생성 속도는 그 어느 때보다 빠르다. 인류는 매일 250경 바이트의 데이터를 만든다. 이 데이터를 분류하고 조사할 방법이 없다면 인간은 데이터를 활용해 더 현명한 의사결정을 내리는 것은 고사하고 데이터에 파묻히기에 십상일 것이다. 데이터 과학자(또는 데이터 과학자 팀)는 이 데이터를 이해해 기업이 고객의 필요와 불만에 대응하도록 도움을 준다. 동시에 기업은 데이터 과학자의 도움을 받아 비용과 제조 과정을 통제할 수 있다. 유례 없이 폭주하는 데이터 속에서 추출할 수 있는 것이라면 무엇이나, 예를 들면 트렌드가 어떻게 수익에 영향을 미치는가 등을 이해할 수 있다. 문제는 데이터 과학자(그 말이 세간에서 들린다면)가 유니콘만큼이나 희귀하다는 점이다. 그래도 몇 명 찾아내기는 했다. 이들을 심층 인터뷰해 몇가지를 확인했다. 데이터 과학에는 물리학은 물론 심지어 천체물리학까지 활용된다는 것과 작업이 지저분하다는 것, 심지어 신발 업체조차 방대한 양의 데이터를 갖고 있다는 것, 엄청난 양의 데이터를 활용해 중대한 질문을 한다고 해도 누군가는 여전히 무엇을 해야 할지 결정을 내려야 한다는 것 등이다. 이제 이 섹시한 유니콘들의 이야기를 자세히 ...

2017.12.29

'분석 작업은 20%에 불과'··· 데이터 과학자의 딜레마

클라우드의 등장으로 데이터가 폭증하면서 데이터 과학자에 대한 수요도 급격히 늘었다. 데이터 과학자는 10년 전에는 존재하지도 않았던 직업이지만 글래스도어(Glassdoor)가 연봉과 직업 만족도, 구인 공고 수를 기반으로 선정하는 미국 최고 직업 순위에서 2년 연속 1위 자리를 차지했다. 심지어 하버드 비즈니스 리뷰(Harvard Business Review)는 데이터 과학자를 "21세기 가장 섹시한 직업"으로 선정했다. Credit: Getty Images Bank 인구는 늘고 있지만 데이터 과학자를 찾기는 매우 어렵다. 최근 연구에 따르면, 데이터 과학자와 분석가의 수요는 2020년까지 28% 증가할 전망이다. 현재 시장에서 가장 수요가 많은 직종이다. 링크드인에 따르면, 8월 말 기준으로 미국에서 채용 중인 데이터 과학자 일자리 수는 1만 1,000개 이상이다. 특별한 변화가 없다면 이 격차는 앞으로 계속 벌어질 것이다. 상황이 이러하니 데이터 과학자가 더 효율적으로 업무를 수행하도록 돕는 것이 최우선 과제다. 그러나 대부분의 데이터 과학자가 실제 데이터 분석에 보내는 시간은 전체 업무 시간의 20%에 불과하다. 데이터 과학자를 채용한 이유는 알고리즘을 개발하고 머신러닝 모델을 구축하는 데 있다. 또한 데이터 과학자도 일반적으로 자신의 업무에서 이 부분을 가장 즐긴다. 그러나 현재 대부분의 기업에서 데이터 과학자의 귀중한 시간 가운데 80%는 방대한 양의 데이터를 찾고 정제하고 재편성하는 단조로운 작업에 소요된다. 적절한 클라우드 툴 없이 이 상황을 타개하기란 불가능하다. 데이터 과학자, 힘든 작업의 연속 클라우드에 연결된 기기와 시스템을 통해 들어오는 다양한 데이터 스트림을 처리하고 그 의미를 파악할 때 데이터 과학자는 데이터 스토리지 리포지토리, 이른바 데이터 호수 내의 관련 데이터 집합을 파악해야 한다. 이는 결코 간단한 일이 아니다. 많은 조직의 데이터 호수는 현실적으로 쓰레기 매립장...

데이터과학 데이터과학자

2017.10.10

클라우드의 등장으로 데이터가 폭증하면서 데이터 과학자에 대한 수요도 급격히 늘었다. 데이터 과학자는 10년 전에는 존재하지도 않았던 직업이지만 글래스도어(Glassdoor)가 연봉과 직업 만족도, 구인 공고 수를 기반으로 선정하는 미국 최고 직업 순위에서 2년 연속 1위 자리를 차지했다. 심지어 하버드 비즈니스 리뷰(Harvard Business Review)는 데이터 과학자를 "21세기 가장 섹시한 직업"으로 선정했다. Credit: Getty Images Bank 인구는 늘고 있지만 데이터 과학자를 찾기는 매우 어렵다. 최근 연구에 따르면, 데이터 과학자와 분석가의 수요는 2020년까지 28% 증가할 전망이다. 현재 시장에서 가장 수요가 많은 직종이다. 링크드인에 따르면, 8월 말 기준으로 미국에서 채용 중인 데이터 과학자 일자리 수는 1만 1,000개 이상이다. 특별한 변화가 없다면 이 격차는 앞으로 계속 벌어질 것이다. 상황이 이러하니 데이터 과학자가 더 효율적으로 업무를 수행하도록 돕는 것이 최우선 과제다. 그러나 대부분의 데이터 과학자가 실제 데이터 분석에 보내는 시간은 전체 업무 시간의 20%에 불과하다. 데이터 과학자를 채용한 이유는 알고리즘을 개발하고 머신러닝 모델을 구축하는 데 있다. 또한 데이터 과학자도 일반적으로 자신의 업무에서 이 부분을 가장 즐긴다. 그러나 현재 대부분의 기업에서 데이터 과학자의 귀중한 시간 가운데 80%는 방대한 양의 데이터를 찾고 정제하고 재편성하는 단조로운 작업에 소요된다. 적절한 클라우드 툴 없이 이 상황을 타개하기란 불가능하다. 데이터 과학자, 힘든 작업의 연속 클라우드에 연결된 기기와 시스템을 통해 들어오는 다양한 데이터 스트림을 처리하고 그 의미를 파악할 때 데이터 과학자는 데이터 스토리지 리포지토리, 이른바 데이터 호수 내의 관련 데이터 집합을 파악해야 한다. 이는 결코 간단한 일이 아니다. 많은 조직의 데이터 호수는 현실적으로 쓰레기 매립장...

2017.10.10

'더 쉽고 가까워진 머신러닝'··· 시작하는 소프트웨어 엔지니어를 위한 조언

오래 전인 1950년대 중반, 로버트 하인라인은 기계 엔지니어가 패턴 매칭 메모리와 “판단을 추가하기 위한” 몇 가지 측면 회로를 만들기 위해 “토르센 튜브(Thorsen Tubes)”를 연결한다는 내용의 작품을 썼다. 그는 “여름으로 가는 문”이란 제목의 이 작작품을 통해 지능형 로봇이라는 하나의 산업 분야를 구상해냈다. 그는 이야기를 좀 더 그럴듯하게 만들기 위해, 미래를 꽤 잘 설정해 놓았다. 1970년이라는 미래다. 이 로봇들은 시연된 접시 닦기 같은 임무를 완벽하게 복제했다. 굳이 말할 필요는 없겠지만, 20년 후 현실은 그렇게 되지 않았다. 1956년에는 타당한 것처럼 보였지만, 1969년이 되자 1970년에는 로봇이라는 미래가 오지 않으리라는 것이 확실해졌다. 그리고 얼마 뒤인 1980년이나 1990년 또는 2000년이 되어도 그런 미래가 오지 않으리라는 것이 확실해졌다. 10년마다, 평범한 엔지니어가 인공 지능(Artificial Intelligence) 머신을 구축할 능력이 최소한 지나간 시간만큼이나 빠르게 후퇴하는 것처럼 보인다. 기술이 진보함에 따라, 어려운 사항들이 한 꺼풀씩 드러남에 따라, 이 문제가 엄청나게 어려운 문제라는 점이 더욱 명확해지고 있다. 머신 러닝이 중요한 문제들을 해결하지 않고 있었다는 것이 아니다, 해결하고 있었다. 예를 들면, 90년대 중반에도 모든 신용 카드 거래가 금융사기 여부를 판단하기 위해 신경망을 이용해서 스캔되고 있었다. 90년대 후반 구글은 검색을 개선하기 위해 웹에서 고급 신호를 분석하고 있었다. 그렇지만 일반적인 엔지니어는 박사학위를 받기 위해 학교로 돌아가거나 똑같은 일을 할 수 있는 생각이 비슷한 친구를 여럿 찾기 전에는 그런 시스템을 구축할 수 있는 기회를 얻지 못했다. 머신 러닝은 어려웠으며, 각각의 새로운 영역은 많은 신기원을 필요로 했다. 최고의 연구원들조차도 현실 세계에서는 이미지 인식 같은 어려운 문제를 깰 수 ...

개발자 인공지능 머신러닝 데이터과학자

2017.09.18

오래 전인 1950년대 중반, 로버트 하인라인은 기계 엔지니어가 패턴 매칭 메모리와 “판단을 추가하기 위한” 몇 가지 측면 회로를 만들기 위해 “토르센 튜브(Thorsen Tubes)”를 연결한다는 내용의 작품을 썼다. 그는 “여름으로 가는 문”이란 제목의 이 작작품을 통해 지능형 로봇이라는 하나의 산업 분야를 구상해냈다. 그는 이야기를 좀 더 그럴듯하게 만들기 위해, 미래를 꽤 잘 설정해 놓았다. 1970년이라는 미래다. 이 로봇들은 시연된 접시 닦기 같은 임무를 완벽하게 복제했다. 굳이 말할 필요는 없겠지만, 20년 후 현실은 그렇게 되지 않았다. 1956년에는 타당한 것처럼 보였지만, 1969년이 되자 1970년에는 로봇이라는 미래가 오지 않으리라는 것이 확실해졌다. 그리고 얼마 뒤인 1980년이나 1990년 또는 2000년이 되어도 그런 미래가 오지 않으리라는 것이 확실해졌다. 10년마다, 평범한 엔지니어가 인공 지능(Artificial Intelligence) 머신을 구축할 능력이 최소한 지나간 시간만큼이나 빠르게 후퇴하는 것처럼 보인다. 기술이 진보함에 따라, 어려운 사항들이 한 꺼풀씩 드러남에 따라, 이 문제가 엄청나게 어려운 문제라는 점이 더욱 명확해지고 있다. 머신 러닝이 중요한 문제들을 해결하지 않고 있었다는 것이 아니다, 해결하고 있었다. 예를 들면, 90년대 중반에도 모든 신용 카드 거래가 금융사기 여부를 판단하기 위해 신경망을 이용해서 스캔되고 있었다. 90년대 후반 구글은 검색을 개선하기 위해 웹에서 고급 신호를 분석하고 있었다. 그렇지만 일반적인 엔지니어는 박사학위를 받기 위해 학교로 돌아가거나 똑같은 일을 할 수 있는 생각이 비슷한 친구를 여럿 찾기 전에는 그런 시스템을 구축할 수 있는 기회를 얻지 못했다. 머신 러닝은 어려웠으며, 각각의 새로운 영역은 많은 신기원을 필요로 했다. 최고의 연구원들조차도 현실 세계에서는 이미지 인식 같은 어려운 문제를 깰 수 ...

2017.09.18

"사용자 같지만 접근법은 달라"··· 빅데이터 필수툴 '파이썬-R' 비교

상사의 상사가 서버실을 둘러보고 수 페타바이트에 이르는 데이터를 살펴본다. 결론은 하나다. 이 잡음 속에 분명 신호가 있다. 이 숫자로 이뤄진 세계에는 지적 생명체가 분명히 존재한다. 숫자로 채워지는 이 하드 디스크에서 수익을 창출할 전략이 분명히 있다. 이 작업이 자신에게 떨어져, 지금부터 거대한 디지털 잡동사니를 뒤지고 뒤져 유용한 뭔가를 찾아 상사에게 보고해야 한다. 어떻게 할까? 개발자라면 선택지는 R과 파이썬(Python), 두 가지다. 데이터 크런칭을 위한 솔루션은 많고 이들은 비즈니스 인텔리전스나 데이터 시각화라는 그럴듯한 이름으로 포장된다. 어떤 솔루션이 원하는 기능을 한다면 해당 솔루션을 선택하면 된다. 그러나 솔루션이 해주지 않는, 다른 작업을 하려면 결국 코드를 직접 쓰는 수밖에 없다. 데이터가 깨끗하게 준비되어 있다면 포괄적인 서비스 툴을 사용하면 되지만, 이런 툴은 모든 부분이 완벽하지 않을 경우 문제를 일으키거나 삼킨 데이터를 제대로 소화하지 못하는 문제가 있다. 파이썬과 R의 차이는 대부분 사고방식 측면에 있다. 하나는 유닉스 스크립터들이 개발해 통계학자, 빅데이터 전문가와 소셜 과학자들 사이에서 자리잡은 포괄적인 서비스 언어다. 다른 하나는 통계학자, 빅데이터 전문가와 소셜 과학자들이 설계하고 만든 데이터 분석용 툴이다. 사용하는 계층은 거의 똑같지만 접근 방식은 전혀 다르다. 하나는 유용한 라이브러리가 많은 범용 툴이고 다른 하나는 빅데이터 분석 전용으로 만들어졌다. 무엇을 선택해야 할까? 이런 결정을 하기 위해 두 언어를 비교해 보자. 파이썬을 사용하면 전처리가 쉽다 데이터 분석의 50%는 분석에 앞서 데이터를 정리하는 일이라는 말이 있다. 심지어 그 비중이 99%라는 사람도 있다. 정확한 수치야 어떻든 필요할 때 임의적 작업을 수행할 수 있는 포괄적인 서비스 언어로 데이터를 정리하는 편이 더 좋다. 파이썬은 포괄적인 서비스 명령형 언어이므로 사용해본 적이 없는 개발자에게도 구조와 접...

파이썬 R 데이터과학자

2017.04.11

상사의 상사가 서버실을 둘러보고 수 페타바이트에 이르는 데이터를 살펴본다. 결론은 하나다. 이 잡음 속에 분명 신호가 있다. 이 숫자로 이뤄진 세계에는 지적 생명체가 분명히 존재한다. 숫자로 채워지는 이 하드 디스크에서 수익을 창출할 전략이 분명히 있다. 이 작업이 자신에게 떨어져, 지금부터 거대한 디지털 잡동사니를 뒤지고 뒤져 유용한 뭔가를 찾아 상사에게 보고해야 한다. 어떻게 할까? 개발자라면 선택지는 R과 파이썬(Python), 두 가지다. 데이터 크런칭을 위한 솔루션은 많고 이들은 비즈니스 인텔리전스나 데이터 시각화라는 그럴듯한 이름으로 포장된다. 어떤 솔루션이 원하는 기능을 한다면 해당 솔루션을 선택하면 된다. 그러나 솔루션이 해주지 않는, 다른 작업을 하려면 결국 코드를 직접 쓰는 수밖에 없다. 데이터가 깨끗하게 준비되어 있다면 포괄적인 서비스 툴을 사용하면 되지만, 이런 툴은 모든 부분이 완벽하지 않을 경우 문제를 일으키거나 삼킨 데이터를 제대로 소화하지 못하는 문제가 있다. 파이썬과 R의 차이는 대부분 사고방식 측면에 있다. 하나는 유닉스 스크립터들이 개발해 통계학자, 빅데이터 전문가와 소셜 과학자들 사이에서 자리잡은 포괄적인 서비스 언어다. 다른 하나는 통계학자, 빅데이터 전문가와 소셜 과학자들이 설계하고 만든 데이터 분석용 툴이다. 사용하는 계층은 거의 똑같지만 접근 방식은 전혀 다르다. 하나는 유용한 라이브러리가 많은 범용 툴이고 다른 하나는 빅데이터 분석 전용으로 만들어졌다. 무엇을 선택해야 할까? 이런 결정을 하기 위해 두 언어를 비교해 보자. 파이썬을 사용하면 전처리가 쉽다 데이터 분석의 50%는 분석에 앞서 데이터를 정리하는 일이라는 말이 있다. 심지어 그 비중이 99%라는 사람도 있다. 정확한 수치야 어떻든 필요할 때 임의적 작업을 수행할 수 있는 포괄적인 서비스 언어로 데이터를 정리하는 편이 더 좋다. 파이썬은 포괄적인 서비스 명령형 언어이므로 사용해본 적이 없는 개발자에게도 구조와 접...

2017.04.11

'빅데이터 도입 프로젝트는...' 얼리어답터 4인의 실용 조언

미 환경 보호국(U.S. Environmental Protection Agency)의 신임 수석 데이터 과학자는 조직 내 빅데이터 분석 도입을 2007년 아이폰 조기 도입에 비유했다. 미 환경 보호국의 로빈 토퉁갈은 "얼리 어답터들은 그것이 정확히 무엇인지 몰랐지만 가치를 인지했기 때문에 사용하고 싶어했다"고 말했다. Credit: Getty Images Bank 여러 혁신 리더들도 같은 생각이다. IDC는 지난해 약 1,220억 달러의 매출을 기록한 빅데이터와 비즈니스 분석 시장이 연간 총 23.1%의 성장률을 기록하면서 2019년에는 1,870억 달러로 성장할 것으로 전망했다. 대부분의 빅데이터와 분석 툴 얼리 어답터들은 자사가 인사이트를 지향하는 기업이 되는데 도움되기를 바란다. 하지만 목표를 이루기까지는 ▲필요한 데이터 접근의 어려움 ▲더욱 강력한 컴퓨터 시스템의 필요 ▲가치 제안이 아직 입증되지 않은 기술에 대한 사용자들 사이의 열정 심기 등 여러 문제에 직면할 것이다. 데이터 분석 인프라를 확장하기 위한 여러 이야기와 요령에 대해 알아보도록 하자. 직감이 아닌 데이터에 의지하기 클라우드 및 가상화 소프트웨어 벤더인 VM웨어(VMware) IT기업 애플리케이션 및 플랫폼 부사장 에이본 싱 푸리는 "VM웨어 영업 계획팀은 한 때 수동 프로세스, 스프레드시트, 그리고 '직감(gut feeling)'을 이용해 자사의 4,000명에 달하는 국제 영업 직원들과 200명의 영업 운영 직원들을 위한 목표를 설정했었다"고 말했다.  VM웨어는 국제적인 시장 전략과 지역 시장의 미묘한 차이를 처리하기에 충분히 유연한 영업 자동화 툴이 필요했다. 그래서 데이터 및 분석 기반 시스템으로 영업 프로세스를 강화하기에 이르렀다. 푸리와 그의 팀은 다차원 모델링 역량을 개발해 서드파티 시장 연구원의 데이터와 CRM, 마스터 데이터 관리, ERP, 기업 데이터 웨어하우스 시스템을 통합했다....

빅데이터 통찰력 인사이트 분석 데이터과학자 데이터분석

2016.08.12

미 환경 보호국(U.S. Environmental Protection Agency)의 신임 수석 데이터 과학자는 조직 내 빅데이터 분석 도입을 2007년 아이폰 조기 도입에 비유했다. 미 환경 보호국의 로빈 토퉁갈은 "얼리 어답터들은 그것이 정확히 무엇인지 몰랐지만 가치를 인지했기 때문에 사용하고 싶어했다"고 말했다. Credit: Getty Images Bank 여러 혁신 리더들도 같은 생각이다. IDC는 지난해 약 1,220억 달러의 매출을 기록한 빅데이터와 비즈니스 분석 시장이 연간 총 23.1%의 성장률을 기록하면서 2019년에는 1,870억 달러로 성장할 것으로 전망했다. 대부분의 빅데이터와 분석 툴 얼리 어답터들은 자사가 인사이트를 지향하는 기업이 되는데 도움되기를 바란다. 하지만 목표를 이루기까지는 ▲필요한 데이터 접근의 어려움 ▲더욱 강력한 컴퓨터 시스템의 필요 ▲가치 제안이 아직 입증되지 않은 기술에 대한 사용자들 사이의 열정 심기 등 여러 문제에 직면할 것이다. 데이터 분석 인프라를 확장하기 위한 여러 이야기와 요령에 대해 알아보도록 하자. 직감이 아닌 데이터에 의지하기 클라우드 및 가상화 소프트웨어 벤더인 VM웨어(VMware) IT기업 애플리케이션 및 플랫폼 부사장 에이본 싱 푸리는 "VM웨어 영업 계획팀은 한 때 수동 프로세스, 스프레드시트, 그리고 '직감(gut feeling)'을 이용해 자사의 4,000명에 달하는 국제 영업 직원들과 200명의 영업 운영 직원들을 위한 목표를 설정했었다"고 말했다.  VM웨어는 국제적인 시장 전략과 지역 시장의 미묘한 차이를 처리하기에 충분히 유연한 영업 자동화 툴이 필요했다. 그래서 데이터 및 분석 기반 시스템으로 영업 프로세스를 강화하기에 이르렀다. 푸리와 그의 팀은 다차원 모델링 역량을 개발해 서드파티 시장 연구원의 데이터와 CRM, 마스터 데이터 관리, ERP, 기업 데이터 웨어하우스 시스템을 통합했다....

2016.08.12

이상은 '데이터 과학자', 현실은 '디지털 청소부'

데이터 과학자는 가장 주목받는 직업 중 하나이다. 그러나 현실은 업무 시간 대부분을 분석을 위한 데이터 정제에 사용하는 '디지털 청소부(digital janitors)' 역할에 더 가까운 것으로 나타났다. 이미지 출처 : 크라우드플라워 클라우드 소싱 업체인 크라우드플라워(CrowdFlower)가 데이터 과학자 80명을 대상으로 조사한 결과를 보면, 이들은 학사 이상의 학위를 갖고 있지만, 전체 응답자의 60%가 업무 시간 대부분을 데이터 정제와 분류에 사용하고 있다고 답했다. 트레이닝 세트를 만들거나 알고리듬을 정의하는 등 분석적 작업은 거의 하지 못하는 것으로 나타났다. 크라우드플라워의 공동 창업자이자 CEO인 루카스 비왈드는 "기업이 가장 고심해 뽑은 인력이 업무 시간 대부분을 데이터 정제에 허비하고 있다"며 "기업에도 막대한 손실"이라고 말했다. 데이터 과학자 역시 절반 이상이 데이터를 정제하고 분류하는 것을 가장 피하고 싶은 업무로 꼽았다. 하지만 현실이 이렇다고 해서 불행한 것은 아니다. 응답자의 80% 이상이 현재 직장에서 행복하다고 답했다. 또한, 이번 클라우드플라워의 조사 결과를 보면 데이터 과학자에 대한 구인란과 필요한 기술도 확인할 수 있다. 지난해 조사에서는 '데이터 과학자가 부족하다'는 응답이 79%였지만 올해는 83%로 늘었다. 데이터 과학자에게 가장 필요한 기술로는 SQL과 하둡, 파이썬, 자바, R, 하이브, 맵리듀스, NoSQL, 피그(Pig) 그리고 새스(SAS)인 것으로 나타났다. 한편 앞으로 새롭게 주목해야 할 기술은 단연 머신러닝이었다. 응답자의 절반 이상이 특히 중요한 기술로 머신러닝을 꼽았다. 비왈드는 "지난 2년 이상 모든 CEO가 '우리 회사의 빅데이터 전략은 무엇인가?'라는 질문해 해 왔다"며 "하지만 이제는 머신러닝에 관해 묻기 시작해야 한다"고 말했다. ciokr@idg...

빅데이터 머신러닝 데이터과학자

2016.03.24

데이터 과학자는 가장 주목받는 직업 중 하나이다. 그러나 현실은 업무 시간 대부분을 분석을 위한 데이터 정제에 사용하는 '디지털 청소부(digital janitors)' 역할에 더 가까운 것으로 나타났다. 이미지 출처 : 크라우드플라워 클라우드 소싱 업체인 크라우드플라워(CrowdFlower)가 데이터 과학자 80명을 대상으로 조사한 결과를 보면, 이들은 학사 이상의 학위를 갖고 있지만, 전체 응답자의 60%가 업무 시간 대부분을 데이터 정제와 분류에 사용하고 있다고 답했다. 트레이닝 세트를 만들거나 알고리듬을 정의하는 등 분석적 작업은 거의 하지 못하는 것으로 나타났다. 크라우드플라워의 공동 창업자이자 CEO인 루카스 비왈드는 "기업이 가장 고심해 뽑은 인력이 업무 시간 대부분을 데이터 정제에 허비하고 있다"며 "기업에도 막대한 손실"이라고 말했다. 데이터 과학자 역시 절반 이상이 데이터를 정제하고 분류하는 것을 가장 피하고 싶은 업무로 꼽았다. 하지만 현실이 이렇다고 해서 불행한 것은 아니다. 응답자의 80% 이상이 현재 직장에서 행복하다고 답했다. 또한, 이번 클라우드플라워의 조사 결과를 보면 데이터 과학자에 대한 구인란과 필요한 기술도 확인할 수 있다. 지난해 조사에서는 '데이터 과학자가 부족하다'는 응답이 79%였지만 올해는 83%로 늘었다. 데이터 과학자에게 가장 필요한 기술로는 SQL과 하둡, 파이썬, 자바, R, 하이브, 맵리듀스, NoSQL, 피그(Pig) 그리고 새스(SAS)인 것으로 나타났다. 한편 앞으로 새롭게 주목해야 할 기술은 단연 머신러닝이었다. 응답자의 절반 이상이 특히 중요한 기술로 머신러닝을 꼽았다. 비왈드는 "지난 2년 이상 모든 CEO가 '우리 회사의 빅데이터 전략은 무엇인가?'라는 질문해 해 왔다"며 "하지만 이제는 머신러닝에 관해 묻기 시작해야 한다"고 말했다. ciokr@idg...

2016.03.24

빅데이터와 하둡에 대한 9가지 속설과 진실

빅데이터 애널리틱스는 경쟁 우위는 물론 기업 생존을 위해서라도 꼭 뛰어들어야 한다는 주요 트렌드 가운데 하나다. 그 결과 빅데이터에 관련된 수많은 오해와 잘못된 속설들이 존재하게 됐다. 이런 잘못된 속설들은 우리의 정신을 흐트려놔서 자원을 낭비하고 막다른 길에 이르게 만든다. 또한 예산 접근방식이 도움을 주는 기회들을 놓치게도 한다. 이에 우리가 믿지 말아야 하는 빅데이터와 하둡에 대한 아홉 가지 잘못된 속설들을 정리했다. 속설 1. 데이터 과학자를 구할 수 있다 최근 필자 회사와 거래하는 파트너의 한 사전영업 엔지니어는 자사가 데이터 과학자를 찾는데 얼마나 어려움을 겪는지 이야기했다. 그의 기업에서 원하는 데이터 과학자의 조건에 대해 묻자 수학부문 박사학위를 받고, 컴퓨터 과학 부문 배경, MBA 교육에다 그 모든 분야에 있어서의 근무한 경력이라고 답했다. 필자는 그 답변을 듣고, "그 조건을 다 갖추려면 한 90살은 되야 될 텐데?"라고 이야기했다. 현장에서 실제 구할 수 있는 사람들은 다음과 같은 사람들이다. - 파이썬 작성은 엉망이고 종종 비즈니스 관련 내용도 하나하나 가르쳐줘야 되는 좋은 수학자 - 어느 정도 수학을 이해하는 좋은 컴퓨터 과학자 - 충분히 문제들을 작업할 수 있고 어느 정도 비즈니스를 이해하는 좋은 컴퓨터 과학자 - 수학을 이해하는 비즈니스 전문가 - 특정 분야 전문가 - 이런 제각기 다른 사람들을 함께 일하게 만드는 방법을 아는 리더 기업이 이런 데이터 과학자 만능 인재를 구할 수 없기 때문에, 여러 분야의 전문가들을 모아 작업 그룹을 만들어야 한다. 이것이 바로 실제로 우리가 해야 되는 일이다. 속설 2. 모든 것은 새롭다 기술자들은 과거를 버리기 좋아하며 그들은 완전히 새로운 현실이나 문제를 해결하는 세트라고 주장하는 새로운 툴을 선호한다. 예를 들어 카프카(Kafka) 메시지 브로커라는 새로운 툴은 빅데이터에 필요한 제품으로 묘사됐다. 하지만 다른 메...

빅데이터 하둡 애널리틱스 데이터과학자

2015.06.23

빅데이터 애널리틱스는 경쟁 우위는 물론 기업 생존을 위해서라도 꼭 뛰어들어야 한다는 주요 트렌드 가운데 하나다. 그 결과 빅데이터에 관련된 수많은 오해와 잘못된 속설들이 존재하게 됐다. 이런 잘못된 속설들은 우리의 정신을 흐트려놔서 자원을 낭비하고 막다른 길에 이르게 만든다. 또한 예산 접근방식이 도움을 주는 기회들을 놓치게도 한다. 이에 우리가 믿지 말아야 하는 빅데이터와 하둡에 대한 아홉 가지 잘못된 속설들을 정리했다. 속설 1. 데이터 과학자를 구할 수 있다 최근 필자 회사와 거래하는 파트너의 한 사전영업 엔지니어는 자사가 데이터 과학자를 찾는데 얼마나 어려움을 겪는지 이야기했다. 그의 기업에서 원하는 데이터 과학자의 조건에 대해 묻자 수학부문 박사학위를 받고, 컴퓨터 과학 부문 배경, MBA 교육에다 그 모든 분야에 있어서의 근무한 경력이라고 답했다. 필자는 그 답변을 듣고, "그 조건을 다 갖추려면 한 90살은 되야 될 텐데?"라고 이야기했다. 현장에서 실제 구할 수 있는 사람들은 다음과 같은 사람들이다. - 파이썬 작성은 엉망이고 종종 비즈니스 관련 내용도 하나하나 가르쳐줘야 되는 좋은 수학자 - 어느 정도 수학을 이해하는 좋은 컴퓨터 과학자 - 충분히 문제들을 작업할 수 있고 어느 정도 비즈니스를 이해하는 좋은 컴퓨터 과학자 - 수학을 이해하는 비즈니스 전문가 - 특정 분야 전문가 - 이런 제각기 다른 사람들을 함께 일하게 만드는 방법을 아는 리더 기업이 이런 데이터 과학자 만능 인재를 구할 수 없기 때문에, 여러 분야의 전문가들을 모아 작업 그룹을 만들어야 한다. 이것이 바로 실제로 우리가 해야 되는 일이다. 속설 2. 모든 것은 새롭다 기술자들은 과거를 버리기 좋아하며 그들은 완전히 새로운 현실이나 문제를 해결하는 세트라고 주장하는 새로운 툴을 선호한다. 예를 들어 카프카(Kafka) 메시지 브로커라는 새로운 툴은 빅데이터에 필요한 제품으로 묘사됐다. 하지만 다른 메...

2015.06.23

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31