2018.08.20

칼럼 | '삽질' 혹은 '애널리틱스'··· 머신러닝에 지름길은 없다

Matt Asay | InfoWorld
빅데이터는 여전히 1%를 위한 게임이다. 최대한 너그럽게 본다고 해도 오라일리 설문조사 결과처럼 15% 정도다. 설문조사에 따르면 대다수 기업(85%)이 아직도 인공지능(AI)과 머신러닝으로 가는 길목에서 방황한다. 불과 15%의 ‘뭘 좀 아는’ 기업만 5년 이상 머신러닝 모델을 실무적으로 운영해왔다.

더 중요한 것은 이들 회사는 모델 편향(model bias), 데이터 프라이버시(data privacy) 등의 중요 분야에 더 많은 시간과 관심을 쏟는 경향이 있다는 점이다. 반면, 상대적으로 초보인 기업은 여전히 실마리를 찾지 못한다. 유감스럽지만, 구글의 오토ML(AutoML) 같은 편리한 자동화 툴을 활용하거나 몸값 비싼 컨설턴트를 통해 데이터 과학의 세계에 들어가려는 기업에 해줄 수 있는 말이라면 이것뿐이다. 데이터 과학을 제대로 활용하려면 시간이 걸린다. 여기에 지름길은 없다는 것이다.

현명한 기업은 데이터에 주목한다
우선, 오라일리의 설문조사 결과는 오라일리가 자체적으로 선정한 집단을 대상으로 한다는 점에 유의하자. 오라일리 오프라인 행사나 웹 세미나에 참석한 사람들이다. 이들은 데이터 과학에 관심이 많다. 설문조사 결과에서 볼 수 있듯 대다수는 데이터 과학을 그다지 크게 활용하지 않는다고 해도 말이다. 그러나 빅데이터 경험이 많은 기업이 15%라는 것은 대단한 수치다. 이른바 ‘뭘 좀 아는(sophisticated)’ 기업은 5년 이상 동안 머신러닝 모델을 실무에서 활용해왔다.

이번 조사의 흥미로운 결과 중 하나는 이들이 사용하는 명칭이다. 머신러닝 경험이 풍부한 기업은 데이터 과학을 ‘스페이드(spade: 삽)’라고 부른다. 반면 90년대의 ‘데이터 마이닝’ 사고방식에 갇힌 사람들은 ‘애널리스트’ 라는 용어를 더 선호한다.



기업이 자사 데이터 전문가를 뭐라고 부르는지는 사실 핵심이 아니다. 더 중요한 것은 AI와 머신러닝 경험이 많은 회사일수록 머신러닝 모델을 만드는 데 사내 데이터 과학팀에 더 의존하는 경향이 있다는 점이다. 사실, 클라우드 머신러닝 서비스를 기대하는 사람은 아무도 없다(적어도 아직은). 실무 경험이 2년 미만인 기업은 머신러닝 모델을 구축하는 데 외부 컨설턴트에 의존하는 경향이 있다. 사람에 투자하지 않으면서 데이터 과학의 혜택을 누리려 하는 것이다. 이들 기업은 외부 전문가를 활용하는 전략이 훌륭하다고 생각하겠지만 사실은 어리석은 것이다.



회사의 데이터 과학이 정교해질수록 회사의 데이터 과학팀은 모델을 더 많이 구축하고 프로젝트 성공에 관한 핵심 지표를 더욱 많이 만들어 관리한다. 예를 들어 업계 전반에 걸쳐 평균치를 보면, 제품 매니저가 프로젝트 성공 지표를 정의하는 경향이 있고(36%), 여기에 경영진(29%)과 데이터 과학팀(21%)이 뒤를 잇는다. 반면 경험 많은 회사로 범위를 좁히면, 제품 매니저가 가장 월등(34%)하고 데이터 과학팀(27%)과 임원(28%)이 거의 비슷한 수준이다.

경험이 가장 부족한 기업은 경영진에 기대는 경향(31%)이 있지만, 데이터 과학팀에게는 별로 기대(16%)하지 않는다. 데이터 과학팀이 데이터를 어떻게 활용하고 성공을 어떻게 측정할 것인가를 파악하는데 가장 적절한 위치에 있다는 점을 고려하면 경험이 부족한 기업이 실패하는 이유를 짐작할 수 있을 것이다.

맹인이 맹인을 인도한다?
더 흥미로운 것은 경영진 주도로 데이터 과학을 추진하는 경우다. 임원은 자신을 '데이터 추종형' 사람이라고 생각하지만, 자신의 '본능적' 결정과 반대되는 데이터가 나오면 이를 무시하는 것으로 나타났다. 이번 조사에서 응답자의 62%가 이를 인정했다. 이처럼 빅데이터를 잘 모르는 기업은 데이터에 대한 립서비스를 기대하는 듯하다. 데이터 과학의 본질을 모르는 것과 같다. 유의미하고 편향 없는 데이터 인사이트를 수집하는 경험이 부족한 것이다.

가트너의 앤드루 화이트는 경험 많은 기업은 머신러닝 모델을 이해하고 이러한 이해가 결과에 대한 신뢰로 이어지는 과정을 다음과 같이 설명한다.

- AI의 가장 새로운 측면은 AI가 문제를 새롭게 규정할 수 있다는 것이다. 너무 복잡해 일상적으로 할 수 없다고 생각했던 작업이 이제 AI를 통해 가능해졌다. AI는 과거의 기술보다 더 복잡하고 더 인지적인 작업을 처리할 수 있다.
- 단, AI가 수행한 작업의 결과가 타당할 때에만 활용할 수 있다. 최신 블랙박스가 인간이 이해하지 못하는 결정을 내리면 사람들은 블랙박스를 꺼버릴 것이기 때문이다. 따라서 어느 수준까지 AI의 결정을 ‘이해하는 것’이 매우 중요하다.
- 그러나 결정을 이해하고 해석하는 것과 그 알고리즘이 어떻게 작용하는지 이해하는 것과는 완전히 다르다. 입력, 선택, 가중치 및 결과의 기본 원리는 이해해야 하고, 프로세스를 검증조차 할 수 없을 만큼 복잡한 데이터 조합 사이를 끊임없이 돌아다녀야 한다.

이러한 숙제를 단기 컨설턴트에 돈을 내고 해결한다는 것은 사실상 불가능하다. 클라우드에 있는 기성품으로도 '당연히' 불가능하다. 구글의 오토ML 같은 툴은 머신러닝 전문성이 떨어지는 개발자가 특정 비즈니스 요구에 특화된 고급 모델을 훈련하기 위한 기술이다. 그럴듯하게 들리지만 데이터 과학에서 얻을 수 있는 혜택의 많은 부분은 데이터 과학에 대한 경험을 필수적으로 요구한다. 이는 모델을 단지 학습하고 조율하는 문제가 아니고, 조율하는 방법을 아는 것의 문제이다. 그리고 이는 무수히 많은 시행착오를 통해 얻을 수 있다.

이와 더불어 데이터 과학을 적절히 활용하는 것 또한 경험에 의해 얻어지는 문화적 마음가짐을 요구한다. 이런 과정에 지름길은 없다. 실무적으로 데이터 과학에 먼저 투자한 기업은 그렇지 않은 기업을 당연히 앞서갈 것이고, 이는 상당 기간 지속할 가능성이 높은 경쟁 우위다.


그렇다면 뒤늦게 추격을 시작한 회사라면 어떻게 해야 할까? 가트너의 애널리스트 스벳틀레이너 시큘라의 고전적 조언이 여전히 정답이다. 그는 “회사는 내부로 눈을 돌려야 한다. 기업에는 신비스러운 데이터 과학자보다 내부 데이터를 더 잘 아는 적임자가 이미 있다”라고 말했다. 양질의 데이터 과학이 정착하기까지 시간이 걸린다는 점을 충분히 이해한 후 직원들이 배우고 성장할 여건을 만들어주라는 것이다. 이 조언을 충실히 따른다면 다른 지름길은 필요 없을 것이다. ciokr@idg.co.kr 



2018.08.20

칼럼 | '삽질' 혹은 '애널리틱스'··· 머신러닝에 지름길은 없다

Matt Asay | InfoWorld
빅데이터는 여전히 1%를 위한 게임이다. 최대한 너그럽게 본다고 해도 오라일리 설문조사 결과처럼 15% 정도다. 설문조사에 따르면 대다수 기업(85%)이 아직도 인공지능(AI)과 머신러닝으로 가는 길목에서 방황한다. 불과 15%의 ‘뭘 좀 아는’ 기업만 5년 이상 머신러닝 모델을 실무적으로 운영해왔다.

더 중요한 것은 이들 회사는 모델 편향(model bias), 데이터 프라이버시(data privacy) 등의 중요 분야에 더 많은 시간과 관심을 쏟는 경향이 있다는 점이다. 반면, 상대적으로 초보인 기업은 여전히 실마리를 찾지 못한다. 유감스럽지만, 구글의 오토ML(AutoML) 같은 편리한 자동화 툴을 활용하거나 몸값 비싼 컨설턴트를 통해 데이터 과학의 세계에 들어가려는 기업에 해줄 수 있는 말이라면 이것뿐이다. 데이터 과학을 제대로 활용하려면 시간이 걸린다. 여기에 지름길은 없다는 것이다.

현명한 기업은 데이터에 주목한다
우선, 오라일리의 설문조사 결과는 오라일리가 자체적으로 선정한 집단을 대상으로 한다는 점에 유의하자. 오라일리 오프라인 행사나 웹 세미나에 참석한 사람들이다. 이들은 데이터 과학에 관심이 많다. 설문조사 결과에서 볼 수 있듯 대다수는 데이터 과학을 그다지 크게 활용하지 않는다고 해도 말이다. 그러나 빅데이터 경험이 많은 기업이 15%라는 것은 대단한 수치다. 이른바 ‘뭘 좀 아는(sophisticated)’ 기업은 5년 이상 동안 머신러닝 모델을 실무에서 활용해왔다.

이번 조사의 흥미로운 결과 중 하나는 이들이 사용하는 명칭이다. 머신러닝 경험이 풍부한 기업은 데이터 과학을 ‘스페이드(spade: 삽)’라고 부른다. 반면 90년대의 ‘데이터 마이닝’ 사고방식에 갇힌 사람들은 ‘애널리스트’ 라는 용어를 더 선호한다.



기업이 자사 데이터 전문가를 뭐라고 부르는지는 사실 핵심이 아니다. 더 중요한 것은 AI와 머신러닝 경험이 많은 회사일수록 머신러닝 모델을 만드는 데 사내 데이터 과학팀에 더 의존하는 경향이 있다는 점이다. 사실, 클라우드 머신러닝 서비스를 기대하는 사람은 아무도 없다(적어도 아직은). 실무 경험이 2년 미만인 기업은 머신러닝 모델을 구축하는 데 외부 컨설턴트에 의존하는 경향이 있다. 사람에 투자하지 않으면서 데이터 과학의 혜택을 누리려 하는 것이다. 이들 기업은 외부 전문가를 활용하는 전략이 훌륭하다고 생각하겠지만 사실은 어리석은 것이다.



회사의 데이터 과학이 정교해질수록 회사의 데이터 과학팀은 모델을 더 많이 구축하고 프로젝트 성공에 관한 핵심 지표를 더욱 많이 만들어 관리한다. 예를 들어 업계 전반에 걸쳐 평균치를 보면, 제품 매니저가 프로젝트 성공 지표를 정의하는 경향이 있고(36%), 여기에 경영진(29%)과 데이터 과학팀(21%)이 뒤를 잇는다. 반면 경험 많은 회사로 범위를 좁히면, 제품 매니저가 가장 월등(34%)하고 데이터 과학팀(27%)과 임원(28%)이 거의 비슷한 수준이다.

경험이 가장 부족한 기업은 경영진에 기대는 경향(31%)이 있지만, 데이터 과학팀에게는 별로 기대(16%)하지 않는다. 데이터 과학팀이 데이터를 어떻게 활용하고 성공을 어떻게 측정할 것인가를 파악하는데 가장 적절한 위치에 있다는 점을 고려하면 경험이 부족한 기업이 실패하는 이유를 짐작할 수 있을 것이다.

맹인이 맹인을 인도한다?
더 흥미로운 것은 경영진 주도로 데이터 과학을 추진하는 경우다. 임원은 자신을 '데이터 추종형' 사람이라고 생각하지만, 자신의 '본능적' 결정과 반대되는 데이터가 나오면 이를 무시하는 것으로 나타났다. 이번 조사에서 응답자의 62%가 이를 인정했다. 이처럼 빅데이터를 잘 모르는 기업은 데이터에 대한 립서비스를 기대하는 듯하다. 데이터 과학의 본질을 모르는 것과 같다. 유의미하고 편향 없는 데이터 인사이트를 수집하는 경험이 부족한 것이다.

가트너의 앤드루 화이트는 경험 많은 기업은 머신러닝 모델을 이해하고 이러한 이해가 결과에 대한 신뢰로 이어지는 과정을 다음과 같이 설명한다.

- AI의 가장 새로운 측면은 AI가 문제를 새롭게 규정할 수 있다는 것이다. 너무 복잡해 일상적으로 할 수 없다고 생각했던 작업이 이제 AI를 통해 가능해졌다. AI는 과거의 기술보다 더 복잡하고 더 인지적인 작업을 처리할 수 있다.
- 단, AI가 수행한 작업의 결과가 타당할 때에만 활용할 수 있다. 최신 블랙박스가 인간이 이해하지 못하는 결정을 내리면 사람들은 블랙박스를 꺼버릴 것이기 때문이다. 따라서 어느 수준까지 AI의 결정을 ‘이해하는 것’이 매우 중요하다.
- 그러나 결정을 이해하고 해석하는 것과 그 알고리즘이 어떻게 작용하는지 이해하는 것과는 완전히 다르다. 입력, 선택, 가중치 및 결과의 기본 원리는 이해해야 하고, 프로세스를 검증조차 할 수 없을 만큼 복잡한 데이터 조합 사이를 끊임없이 돌아다녀야 한다.

이러한 숙제를 단기 컨설턴트에 돈을 내고 해결한다는 것은 사실상 불가능하다. 클라우드에 있는 기성품으로도 '당연히' 불가능하다. 구글의 오토ML 같은 툴은 머신러닝 전문성이 떨어지는 개발자가 특정 비즈니스 요구에 특화된 고급 모델을 훈련하기 위한 기술이다. 그럴듯하게 들리지만 데이터 과학에서 얻을 수 있는 혜택의 많은 부분은 데이터 과학에 대한 경험을 필수적으로 요구한다. 이는 모델을 단지 학습하고 조율하는 문제가 아니고, 조율하는 방법을 아는 것의 문제이다. 그리고 이는 무수히 많은 시행착오를 통해 얻을 수 있다.

이와 더불어 데이터 과학을 적절히 활용하는 것 또한 경험에 의해 얻어지는 문화적 마음가짐을 요구한다. 이런 과정에 지름길은 없다. 실무적으로 데이터 과학에 먼저 투자한 기업은 그렇지 않은 기업을 당연히 앞서갈 것이고, 이는 상당 기간 지속할 가능성이 높은 경쟁 우위다.


그렇다면 뒤늦게 추격을 시작한 회사라면 어떻게 해야 할까? 가트너의 애널리스트 스벳틀레이너 시큘라의 고전적 조언이 여전히 정답이다. 그는 “회사는 내부로 눈을 돌려야 한다. 기업에는 신비스러운 데이터 과학자보다 내부 데이터를 더 잘 아는 적임자가 이미 있다”라고 말했다. 양질의 데이터 과학이 정착하기까지 시간이 걸린다는 점을 충분히 이해한 후 직원들이 배우고 성장할 여건을 만들어주라는 것이다. 이 조언을 충실히 따른다면 다른 지름길은 필요 없을 것이다. ciokr@idg.co.kr 

X