BI
2011.11.02

현장스케치 | “데이터 과학자 양성으로 빅 데이터 시대 준비”

박해정 | CIO KR
2011년 11월 2일 서울 양재동 엘타워에서 열린 ‘빅 데이터 월드 2011’의 부대행사로 마련된 CIO 라운드테이블에서 아마존의 데이터 마이너(Data Minor) 존 라우저가 데이터 과학자(Data Scientist)의 필요성에 대해 강조했다.

라우저는 최초의 데이터 과학자로 수학자이자 천문학자인 ‘토비어스 마이어’를 꼽았다. 라우저에 따르면, 토비어스 마이어는 1750년에 9개의 상수를 3개의 방정식에 적용해 27개의 공식으로 위도 측정의 오차를 최소화했다. 라우저는 “데이터가 많을수록 더 정확하게 측정할 수 있다는 것을 입증했기 때문에 마이어를 최초의 데이터 과학자로 볼 수 있다”라고 밝혔다.

라우저는 “데이터 과학자는 공학과 응용 수학, 특히 통계학 지식을 배경으로 경제학, 소프트웨어공학 등의 학문적 지식을 더해 데이터 분석에서 유의미한 결과를 도출해 내는 사람”으로 설명했다.

라우저 역시 18년 전 우주공학과 컴퓨터공학 학위를 받았고 10년 정도 SW엔지니어로 근무했으며 2003년 아마존에 입사하면서 데이터 과학자의 길을 걷게 됐다. “데이터 과학자를 고용하기란 매우 어려울 것이다. 사내에서 양성하는 것도 쉽지 않다”라고 라우저는 전했다.

라우저에 따르면, 데이터 과학자라는 말을 처음 사용한 것은 아마존이 아닌 링크드인이며 현재 아마존에는 소프트웨어 공학과 과학 분야의 경력을 가진 100여명의 데이터 과학자들이 있다.

데이터 과학자가 갖춰야 할 능력에 대해 라우저는 6가지를 제시했다. 첫째와 둘째는 수학과 공학이다. 셋째는 글쓰기다. 글쓰기는 커뮤니케이션으로 다른 사람에게 요점을 잘 전달하는 능력이다. 넷째는 비평적인 시각이다. 이는 가설을 검증하거나 가설에 어긋나는 데이터를 분석하는 데 필요하다. 다섯째는 호기심이다. 호기심은 생산성을 높여준다. 마지막으로 라우저가 언급한 것은 ‘행복’이다. 데이터 과학자가 행복을 느낀다는 자신이 하는 일이 회사에 중요한 역할을 미치며 더 나아가 회사나 이 사회를 좀더 나은 세상으로 만드는 게 기여하는 것이다. 라우저는 “데이터 과학자가 더 나은 세상을 만들도록 기회를 줘야 한다”라는 말로 발표를 마쳤다.

CIO 라운드테이블에서 또 다른 발표자로 나선 한국IBM 정보관리사업부 이지은 실장은 빅 데이터의 정의와 이를 통한 빅 인사이트 도출을 강조했다. IBM의 정의에 따르면, 빅 데이터란 대용량(Volume), 속도(Velocity), 데이터의 다양성(Variety)을 충족시켜야 한다.

과거 TB급 데이터에서 ZB급 데이터를 논할 만큼 용량 면에서 크게 증가했으며 관계형 DBMS에 저장하던 정형 데이터에서 관계형 DBMS가 아닌 하둡 등의 기술로 저장하는 비정형 데이터로 데이터의 형태가 다양해 졌다. 데이터 분석 면에서 과거에는 배치 타임으로 분석했으나 이제는 스트리밍 데이터를 분석하고자 한다.

이 실장은 “빅 데이터를 어려운 문제라고 생각지 말고 새로운 기회로 받아들이라”고 당부했다. 데이터를 어떻게 활용해 분석하느냐에 따라 기업에게는 기회가 될 수 있기 때문이다.

이 실장에 따르면, 과거의 분석 방식은 현업의 요구에 맞춰 분석시스템을 설계해 데이터를 입력해 결과를 도출했다. 이러한 방식으로는 현업이 요구사항을 추가할 때마다 분석시스템을 재구축하거나 수정해야 하기 때문에 빠르게 대응하기 어렵다. 빅 데이터가 등장하면서 현업과 IT가 함께 가용 정보가 무엇이고 어떻게 활용할 지를 고민해 현업이 창의적으로 탐색할 수 있도록 플랫폼이 필요해 졌다.

빅 데이터 플랫폼에서 중요한 요소로 이 실장은 3가지를 제시했다. 빅 데이터를 오픈소스로 관리하는데, 기업이 오픈소스를 사용하려면 가용성을 담보할 수 있는지, 사용은 쉬운지, 보안은 믿을 수 있는지 얼마나 쉽고 빠르게 데이터를 가져오는 지 등을 확인해야 한다.

한국IBM에 따르면, 지난해 국내 포털 기업을 비롯해 제조사, 통신사 등이 현재 빅 데이터에 관심을 보이고 있다고 답했다.

CIO 라운드테이블에 참석한 CIO들은 아직 데이터 과학자에 대해 생소하다는 반응을 보였다. 보험개발원 이건국 실장은 “현업에 많은 통계 분석 전문가들이 있다. 그러나 이들을 데이터 과학자라고 하지는 않는다. 앞으로 데이터 과학자가 필요할 텐데 어떻게 준비할 지 고민이다”라고 전했다. 삼성생명 권홍석 수석은 “사내에 박사학위를 가진 통계 전문가들이 있다. 현재는 비정형 데이터보다는 정형 데이터 분석에 주력하고 있으며 이를 통한 다양한 인사이트 도출을 고민하고 있다”라고 밝혔다. ciokr@idg.co.kr



BI
2011.11.02

현장스케치 | “데이터 과학자 양성으로 빅 데이터 시대 준비”

박해정 | CIO KR
2011년 11월 2일 서울 양재동 엘타워에서 열린 ‘빅 데이터 월드 2011’의 부대행사로 마련된 CIO 라운드테이블에서 아마존의 데이터 마이너(Data Minor) 존 라우저가 데이터 과학자(Data Scientist)의 필요성에 대해 강조했다.

라우저는 최초의 데이터 과학자로 수학자이자 천문학자인 ‘토비어스 마이어’를 꼽았다. 라우저에 따르면, 토비어스 마이어는 1750년에 9개의 상수를 3개의 방정식에 적용해 27개의 공식으로 위도 측정의 오차를 최소화했다. 라우저는 “데이터가 많을수록 더 정확하게 측정할 수 있다는 것을 입증했기 때문에 마이어를 최초의 데이터 과학자로 볼 수 있다”라고 밝혔다.

라우저는 “데이터 과학자는 공학과 응용 수학, 특히 통계학 지식을 배경으로 경제학, 소프트웨어공학 등의 학문적 지식을 더해 데이터 분석에서 유의미한 결과를 도출해 내는 사람”으로 설명했다.

라우저 역시 18년 전 우주공학과 컴퓨터공학 학위를 받았고 10년 정도 SW엔지니어로 근무했으며 2003년 아마존에 입사하면서 데이터 과학자의 길을 걷게 됐다. “데이터 과학자를 고용하기란 매우 어려울 것이다. 사내에서 양성하는 것도 쉽지 않다”라고 라우저는 전했다.

라우저에 따르면, 데이터 과학자라는 말을 처음 사용한 것은 아마존이 아닌 링크드인이며 현재 아마존에는 소프트웨어 공학과 과학 분야의 경력을 가진 100여명의 데이터 과학자들이 있다.

데이터 과학자가 갖춰야 할 능력에 대해 라우저는 6가지를 제시했다. 첫째와 둘째는 수학과 공학이다. 셋째는 글쓰기다. 글쓰기는 커뮤니케이션으로 다른 사람에게 요점을 잘 전달하는 능력이다. 넷째는 비평적인 시각이다. 이는 가설을 검증하거나 가설에 어긋나는 데이터를 분석하는 데 필요하다. 다섯째는 호기심이다. 호기심은 생산성을 높여준다. 마지막으로 라우저가 언급한 것은 ‘행복’이다. 데이터 과학자가 행복을 느낀다는 자신이 하는 일이 회사에 중요한 역할을 미치며 더 나아가 회사나 이 사회를 좀더 나은 세상으로 만드는 게 기여하는 것이다. 라우저는 “데이터 과학자가 더 나은 세상을 만들도록 기회를 줘야 한다”라는 말로 발표를 마쳤다.

CIO 라운드테이블에서 또 다른 발표자로 나선 한국IBM 정보관리사업부 이지은 실장은 빅 데이터의 정의와 이를 통한 빅 인사이트 도출을 강조했다. IBM의 정의에 따르면, 빅 데이터란 대용량(Volume), 속도(Velocity), 데이터의 다양성(Variety)을 충족시켜야 한다.

과거 TB급 데이터에서 ZB급 데이터를 논할 만큼 용량 면에서 크게 증가했으며 관계형 DBMS에 저장하던 정형 데이터에서 관계형 DBMS가 아닌 하둡 등의 기술로 저장하는 비정형 데이터로 데이터의 형태가 다양해 졌다. 데이터 분석 면에서 과거에는 배치 타임으로 분석했으나 이제는 스트리밍 데이터를 분석하고자 한다.

이 실장은 “빅 데이터를 어려운 문제라고 생각지 말고 새로운 기회로 받아들이라”고 당부했다. 데이터를 어떻게 활용해 분석하느냐에 따라 기업에게는 기회가 될 수 있기 때문이다.

이 실장에 따르면, 과거의 분석 방식은 현업의 요구에 맞춰 분석시스템을 설계해 데이터를 입력해 결과를 도출했다. 이러한 방식으로는 현업이 요구사항을 추가할 때마다 분석시스템을 재구축하거나 수정해야 하기 때문에 빠르게 대응하기 어렵다. 빅 데이터가 등장하면서 현업과 IT가 함께 가용 정보가 무엇이고 어떻게 활용할 지를 고민해 현업이 창의적으로 탐색할 수 있도록 플랫폼이 필요해 졌다.

빅 데이터 플랫폼에서 중요한 요소로 이 실장은 3가지를 제시했다. 빅 데이터를 오픈소스로 관리하는데, 기업이 오픈소스를 사용하려면 가용성을 담보할 수 있는지, 사용은 쉬운지, 보안은 믿을 수 있는지 얼마나 쉽고 빠르게 데이터를 가져오는 지 등을 확인해야 한다.

한국IBM에 따르면, 지난해 국내 포털 기업을 비롯해 제조사, 통신사 등이 현재 빅 데이터에 관심을 보이고 있다고 답했다.

CIO 라운드테이블에 참석한 CIO들은 아직 데이터 과학자에 대해 생소하다는 반응을 보였다. 보험개발원 이건국 실장은 “현업에 많은 통계 분석 전문가들이 있다. 그러나 이들을 데이터 과학자라고 하지는 않는다. 앞으로 데이터 과학자가 필요할 텐데 어떻게 준비할 지 고민이다”라고 전했다. 삼성생명 권홍석 수석은 “사내에 박사학위를 가진 통계 전문가들이 있다. 현재는 비정형 데이터보다는 정형 데이터 분석에 주력하고 있으며 이를 통한 다양한 인사이트 도출을 고민하고 있다”라고 밝혔다. ciokr@idg.co.kr

X