2016.04.11

모두가 빅데이터 전문가··· '시민 데이터 과학자'가 뜬다

Katherine Noyes | IDG News Service
대형 유통업체인 '시어스(Sears)'의 온라인 애널리틱스와 비즈니스 인텔리전스 선임 마크 피켓이 미국 해병대 소대장이었을 때 그는 부대원을 위해 모든 결정을 내릴 수 없음을 깨달았다. 그는 "모든 시나리오를 대비할 수 없고, 소통할 수 없을 때도 있었다"며 "결국 해병대원이 스스로와 부대원에 의지하도록 훈련하는 것이 방법이었다"고 말했다. 빅데이터 시대의 기업도 이와 다르지 않다.


이미지 출처: 시어스

피켓은 기업 내 여러 부서의 직원이 애널리틱스 툴과 기술로 그들의 데이터에서 필요한 답을 얻는 이른바 '시민 데이터 과학자 운동(citizen data scientist movement)'의 대표 주자이다. 그는 "시장에 대한 현업의 이해가 전례 없는 수준으로 깊어지고 있다"며 "우리는 이들을 지원해 스스로 분석작업을 하는 데 필요한 데이터를 제공하려고 노력한다"고 말했다.

시어스의 사례에서는 여건도 잘 맞았다. 시어스는 리테일 사업 전반에 걸쳐 각기 다른 유형의 제품을 판매하는 수많은 버티컬 사업의 집합체다. 피켓은 "우리는 잔디와 정원부터 가전제품과 의류, 보석, 매트리스까지 아주 다양한 사업을 벌이고 있다"며 "우리 팀은 이 모두를 지원하려고 하지만 우리는 현업이 하는 것처럼 사업을 이해하기는 매우 어려웠다"고 말했다.

그래서 피켓의 목표는 현업 직원이 데이터 관련된 작업의 80%를 스스로 처리해 답을 찾도록 하는 것이었다. 그는 플랫포라(Platfora)의 빅데이터 애널리틱스 플랫폼을 도입했는데, 알맞은 툴을 선정한 것이 큰 도움이 됐다. 현재 시어스에는 300명 이상의 교육받은 시민 데이터 과학자가 이 툴을 활용해 IT 팀의 도움 없이 매주 수천 개의 데이터 분석 보고서를 만들어 내고 있다.

강력한 셀프서비스 툴의 등장
시어스는 기업 특성 때문에 시민 데이터 과학자 모델이 성과를 거둘 수 있었던 것일지도 모른다. 하지만 거의 모든 기업이 데이터 과학자를 찾지 못해 어려움을 겪고 있다. 설사 운 좋게 전문가를 영입한 기업도 데이터 준비 같은 '허드렛일'이 업무의 상당 부분을 차지하고 있다.

따라서 현업 담당자가 애널리틱스 작업의 상당 부분을 스스로 담당하면 수준 높은 데이터 과학자는 그들의 전문성이 필요한 작업에 더 집중할 수 있다. 강력한 셀프서비스 툴 세트가 늘어난 것도 이런 변화에 도움이 됐다. 이들 툴에는 누구든 사용할 수 있는 인공지능 같은 기능도 들어있다.

데이터-집중 크라우드소싱 사이트 크라우드플라워(CrowdFlower)의 CEO이자 창업자인 루카스 비월드는 "기업은 알려진 것보다 훨씬 더 많은 데이터를 가지고 있다"며 "이제 기업은 이런 데이터 툴을 마치 엑셀처럼 여겨 보편적으로 교육할 필요가 있다"고 말했다. 가트너는 셀프-서비스 데이터-준비 툴 시장이 2019년까지 10억 달러 규모로 성장할 것으로 예상한다.

플랫포라의 회장이자 CEO인 제이슨 진탁은 "대기업은 모든 데이터를 '데이터 레이크(Data Lake)' 한 곳으로 모으고 있다"며 "이제 기업은 이렇게 모은 데이터를 직원이 최대한 활용하도록 지원해야 한다"고 말했다. 플랫포라는 자체 하둡-집중 플랫폼을 회사 내 누구든 트랜잭션, 고객 인터랙션, 기계 데이터 등 전체 부서의 데이터에 걸쳐 분석할 수 있도록 지원한다.

시민 데이터 과학자 모델은 전통적인 기업 분석가의 역할이 어떻게 진화하고 있는지를 잘 보여준다. 시어스의 피켓은 "전통적인 기업 분석가는 기업과 시장에 대해 잘 이해하고 있지만 데이터에 대해서는 그리 능숙하지 못했다"며 "그들은 종종 엑셀이나 다른 보고 툴에서 데이터를 주워 모으는 데 초점을 맞춰왔다"고 말했다.

반면 오늘날은 바야흐로 막대한 데이터의 시대다. 이제 기업 분석가는 어떤 데이터-집중 질문을 해야 하는지에 대한 이해가 더 높아졌다. 사용하는 툴도 관계형 데이터베이스와 스프레드시트에서 데이터 레이크와 더욱 정교한 분석 툴로 바뀌고 있다. 피켓은 “이젠 현업 직원도 어느 정도 데이터 능력을 갖추게 됐다"며 "그들은 스스로 보고서를 작성할 수 있고, 어떤 속성이 어울리는지를 알고 비즈니스 관점뿐 아니라 데이터 관점에서 어떤 질문을 해야 할지 안다"고 말했다.


재난으로 가는 길
하지만 모두가 시민 데이터 과학자 컨셉에 동의하는 건 아니다. 분석과 데이터 과학 컨설팅업체 'KD너겟(Kdnuggets)'의 회장 그레고리 피아테스키-샤피로는 "개인적으로 '시민 데이터 과학자'라는 용어를 좋아하지 않는다"며 "이 말은 마치 교육을 받지 않은 사람도 데이터 과학자 업무를 할 수 있다는 인상을 준다"고 말했다.

실제로 빅데이터는 그 어느 기술보다 교육이 중요하다. 그러나 '시민 데이터 과학자'란 용어는 이러한 교육이 얼마나 중요한지 간과하게 할 수 있다. 예를 들어 통계를 핵심으로 한 데이터 작업을 하려면 다양한 통계적 기법 기반의 가정에 대한 이해가 필요하다. 정식으로 관련 교육을 받지 않은 사람에게는 분명히 보이지 않는 요소가 있다.

피아테스키-샤피로는 “당신의 이를 ‘시민 치과의사’에게 맡기거나 비행기 운전을 ‘시민 기장’에게 맡길 수 있을까”라며 “시민 데이터 과학자에게 데이터 분석을 맡기는 것이 쉬울 수는 있지만 만약 그들이 데이터 분석에 대한 적절한 교육이나 사업에 대한 이해 없이 결정을 내린다면 이는 재난으로 가는 길"이라고 말했다.

이에 대해 플랫포라의 진탁은 기업 거버넌스를 통해 이 문제를 해결할 수 있다고 말했다. 적절하게 보안과 접속 권한을 제어하는 것이 한 예다. 시어스 역시 회사 내 300명 이상의 시민 데이터 과학자에게 2주간 관련 교육을 했고 상당한 효과를 봤다.

작게 바로 시작하라
시어스는 지난 2015년 DB2 관계형 데이터베이스 관리 시스템을 하둡 데이터 레이크로 완전히 이전했다. 이미 소그룹 전문가에게 플랫포라를 교육했지만 광범위하게 사용한 것은 그리 오래되지 않았다. 피켓은 “데이터는 급속히 전파되고 모두가 데이터를 원한다"며 "막대한 데이터 요청을 감당하려면 결국 그들 스스로 답을 구할 수 있도록 해야 했다"고 말했다.

일단 보고 업무가 많은 300명 정도를 추려 사내 전문가를 활용해 교육했다. 데이터 명명법부터 데이터 세트 조작까지 다양한 주제를 다뤘다. 피켓은 "이제 그 직원은 보고서가 아니라 데이터를 요청한다"며 "우리의 노력이 자리를 잡아가고 있다는 것을 그때 깨달았다"고 말했다. 현재 피켓의 팀은 즉석 보고서 요청에 대응하는 대신 데이터 큐레이션, 모델 빌딩, 거버넌스 등 더 수준 높은 작업에 집중할 수 있게 됐다.

피켓은 시민 데이터 과학자 모델의 최고 장점 중 하나로 '분산화된 의사결정'을 꼽았다. 그는 "IT 팀에 대한 의존성을 낮추는 것에서 그치지 않는다"며 "직원이 자체 데이터에 더 능숙해지면 자신의 업무를 새로운 방식으로 생각할 수 있게 된다"고 말했다. 시민 데이터 과학자 모델로 더 빨리 전환하지 못한 것을 아쉬워할 정도다.

이어 피켓은 "이런 패러다임 전환에 지름길은 없다"며 "모든 걸 계획대로 시험해보는 대신 작게 시작해서 꾸준히 반복하는 것이 좋다"고 말했다. 이어 "직원이 자신에게 주어진 것을 알게 되면 채택은 급속도로 불붙을 것"이라며 "결국 많은 질문이 쏟아질 텐데 이는 매우 멋진 일”이라고 덧붙였다. ciokr@idg.co.kr



2016.04.11

모두가 빅데이터 전문가··· '시민 데이터 과학자'가 뜬다

Katherine Noyes | IDG News Service
대형 유통업체인 '시어스(Sears)'의 온라인 애널리틱스와 비즈니스 인텔리전스 선임 마크 피켓이 미국 해병대 소대장이었을 때 그는 부대원을 위해 모든 결정을 내릴 수 없음을 깨달았다. 그는 "모든 시나리오를 대비할 수 없고, 소통할 수 없을 때도 있었다"며 "결국 해병대원이 스스로와 부대원에 의지하도록 훈련하는 것이 방법이었다"고 말했다. 빅데이터 시대의 기업도 이와 다르지 않다.


이미지 출처: 시어스

피켓은 기업 내 여러 부서의 직원이 애널리틱스 툴과 기술로 그들의 데이터에서 필요한 답을 얻는 이른바 '시민 데이터 과학자 운동(citizen data scientist movement)'의 대표 주자이다. 그는 "시장에 대한 현업의 이해가 전례 없는 수준으로 깊어지고 있다"며 "우리는 이들을 지원해 스스로 분석작업을 하는 데 필요한 데이터를 제공하려고 노력한다"고 말했다.

시어스의 사례에서는 여건도 잘 맞았다. 시어스는 리테일 사업 전반에 걸쳐 각기 다른 유형의 제품을 판매하는 수많은 버티컬 사업의 집합체다. 피켓은 "우리는 잔디와 정원부터 가전제품과 의류, 보석, 매트리스까지 아주 다양한 사업을 벌이고 있다"며 "우리 팀은 이 모두를 지원하려고 하지만 우리는 현업이 하는 것처럼 사업을 이해하기는 매우 어려웠다"고 말했다.

그래서 피켓의 목표는 현업 직원이 데이터 관련된 작업의 80%를 스스로 처리해 답을 찾도록 하는 것이었다. 그는 플랫포라(Platfora)의 빅데이터 애널리틱스 플랫폼을 도입했는데, 알맞은 툴을 선정한 것이 큰 도움이 됐다. 현재 시어스에는 300명 이상의 교육받은 시민 데이터 과학자가 이 툴을 활용해 IT 팀의 도움 없이 매주 수천 개의 데이터 분석 보고서를 만들어 내고 있다.

강력한 셀프서비스 툴의 등장
시어스는 기업 특성 때문에 시민 데이터 과학자 모델이 성과를 거둘 수 있었던 것일지도 모른다. 하지만 거의 모든 기업이 데이터 과학자를 찾지 못해 어려움을 겪고 있다. 설사 운 좋게 전문가를 영입한 기업도 데이터 준비 같은 '허드렛일'이 업무의 상당 부분을 차지하고 있다.

따라서 현업 담당자가 애널리틱스 작업의 상당 부분을 스스로 담당하면 수준 높은 데이터 과학자는 그들의 전문성이 필요한 작업에 더 집중할 수 있다. 강력한 셀프서비스 툴 세트가 늘어난 것도 이런 변화에 도움이 됐다. 이들 툴에는 누구든 사용할 수 있는 인공지능 같은 기능도 들어있다.

데이터-집중 크라우드소싱 사이트 크라우드플라워(CrowdFlower)의 CEO이자 창업자인 루카스 비월드는 "기업은 알려진 것보다 훨씬 더 많은 데이터를 가지고 있다"며 "이제 기업은 이런 데이터 툴을 마치 엑셀처럼 여겨 보편적으로 교육할 필요가 있다"고 말했다. 가트너는 셀프-서비스 데이터-준비 툴 시장이 2019년까지 10억 달러 규모로 성장할 것으로 예상한다.

플랫포라의 회장이자 CEO인 제이슨 진탁은 "대기업은 모든 데이터를 '데이터 레이크(Data Lake)' 한 곳으로 모으고 있다"며 "이제 기업은 이렇게 모은 데이터를 직원이 최대한 활용하도록 지원해야 한다"고 말했다. 플랫포라는 자체 하둡-집중 플랫폼을 회사 내 누구든 트랜잭션, 고객 인터랙션, 기계 데이터 등 전체 부서의 데이터에 걸쳐 분석할 수 있도록 지원한다.

시민 데이터 과학자 모델은 전통적인 기업 분석가의 역할이 어떻게 진화하고 있는지를 잘 보여준다. 시어스의 피켓은 "전통적인 기업 분석가는 기업과 시장에 대해 잘 이해하고 있지만 데이터에 대해서는 그리 능숙하지 못했다"며 "그들은 종종 엑셀이나 다른 보고 툴에서 데이터를 주워 모으는 데 초점을 맞춰왔다"고 말했다.

반면 오늘날은 바야흐로 막대한 데이터의 시대다. 이제 기업 분석가는 어떤 데이터-집중 질문을 해야 하는지에 대한 이해가 더 높아졌다. 사용하는 툴도 관계형 데이터베이스와 스프레드시트에서 데이터 레이크와 더욱 정교한 분석 툴로 바뀌고 있다. 피켓은 “이젠 현업 직원도 어느 정도 데이터 능력을 갖추게 됐다"며 "그들은 스스로 보고서를 작성할 수 있고, 어떤 속성이 어울리는지를 알고 비즈니스 관점뿐 아니라 데이터 관점에서 어떤 질문을 해야 할지 안다"고 말했다.


재난으로 가는 길
하지만 모두가 시민 데이터 과학자 컨셉에 동의하는 건 아니다. 분석과 데이터 과학 컨설팅업체 'KD너겟(Kdnuggets)'의 회장 그레고리 피아테스키-샤피로는 "개인적으로 '시민 데이터 과학자'라는 용어를 좋아하지 않는다"며 "이 말은 마치 교육을 받지 않은 사람도 데이터 과학자 업무를 할 수 있다는 인상을 준다"고 말했다.

실제로 빅데이터는 그 어느 기술보다 교육이 중요하다. 그러나 '시민 데이터 과학자'란 용어는 이러한 교육이 얼마나 중요한지 간과하게 할 수 있다. 예를 들어 통계를 핵심으로 한 데이터 작업을 하려면 다양한 통계적 기법 기반의 가정에 대한 이해가 필요하다. 정식으로 관련 교육을 받지 않은 사람에게는 분명히 보이지 않는 요소가 있다.

피아테스키-샤피로는 “당신의 이를 ‘시민 치과의사’에게 맡기거나 비행기 운전을 ‘시민 기장’에게 맡길 수 있을까”라며 “시민 데이터 과학자에게 데이터 분석을 맡기는 것이 쉬울 수는 있지만 만약 그들이 데이터 분석에 대한 적절한 교육이나 사업에 대한 이해 없이 결정을 내린다면 이는 재난으로 가는 길"이라고 말했다.

이에 대해 플랫포라의 진탁은 기업 거버넌스를 통해 이 문제를 해결할 수 있다고 말했다. 적절하게 보안과 접속 권한을 제어하는 것이 한 예다. 시어스 역시 회사 내 300명 이상의 시민 데이터 과학자에게 2주간 관련 교육을 했고 상당한 효과를 봤다.

작게 바로 시작하라
시어스는 지난 2015년 DB2 관계형 데이터베이스 관리 시스템을 하둡 데이터 레이크로 완전히 이전했다. 이미 소그룹 전문가에게 플랫포라를 교육했지만 광범위하게 사용한 것은 그리 오래되지 않았다. 피켓은 “데이터는 급속히 전파되고 모두가 데이터를 원한다"며 "막대한 데이터 요청을 감당하려면 결국 그들 스스로 답을 구할 수 있도록 해야 했다"고 말했다.

일단 보고 업무가 많은 300명 정도를 추려 사내 전문가를 활용해 교육했다. 데이터 명명법부터 데이터 세트 조작까지 다양한 주제를 다뤘다. 피켓은 "이제 그 직원은 보고서가 아니라 데이터를 요청한다"며 "우리의 노력이 자리를 잡아가고 있다는 것을 그때 깨달았다"고 말했다. 현재 피켓의 팀은 즉석 보고서 요청에 대응하는 대신 데이터 큐레이션, 모델 빌딩, 거버넌스 등 더 수준 높은 작업에 집중할 수 있게 됐다.

피켓은 시민 데이터 과학자 모델의 최고 장점 중 하나로 '분산화된 의사결정'을 꼽았다. 그는 "IT 팀에 대한 의존성을 낮추는 것에서 그치지 않는다"며 "직원이 자체 데이터에 더 능숙해지면 자신의 업무를 새로운 방식으로 생각할 수 있게 된다"고 말했다. 시민 데이터 과학자 모델로 더 빨리 전환하지 못한 것을 아쉬워할 정도다.

이어 피켓은 "이런 패러다임 전환에 지름길은 없다"며 "모든 걸 계획대로 시험해보는 대신 작게 시작해서 꾸준히 반복하는 것이 좋다"고 말했다. 이어 "직원이 자신에게 주어진 것을 알게 되면 채택은 급속도로 불붙을 것"이라며 "결국 많은 질문이 쏟아질 텐데 이는 매우 멋진 일”이라고 덧붙였다. ciokr@idg.co.kr

X