2021.03.04

CIO조차 없었지만... 美 SI 업체의 '데이터 과학' 도전기

Thor Olavsrud | CIO
美 시스템 통합업체 컨버진트 테크놀로지스(Convergint Technologies)의 CIO 부바나 바드리나단은 자동화된 데이터 수집 및 기능 엔지니어링을 사용해 판매 수익을 예측하는 알고리즘 모델을 개발했다. 

데이터, 애널리틱스, 머신러닝을 활용하는 것은 기업에 경쟁 우위를 제공할 수 있다. 그러나 많은 기업에게 성공적인 머신러닝 프로그램은 눈에는 보이지만 잡을 수 없는 것처럼 느껴질 수 있다. 

이는 컨버진트 테크놀로지스가 몇 년 전에 직면했던 과제였다. 전자보안, 화재경보, 생명안전 시스템 등의 통합 빌딩 시스템을 설계하고 설치하며 관리하는 이 시스템 통합업체의 경영진은 판매 수익 예측에 AI를 활용하고 싶어했다. 유일한 문제라고 한다면 컨버진트에 데이터 과학 부서가 없었다는 것이다. 심지어 CIO조차 없었다. 
 
ⓒConvergint

이 모든 상황이 바뀌기 시작한 건 지난 2019년 5월 컨버진트가 부바나 바드리나탄을 초대 CIO로 영입하면서부터다. 바드리나탄은 “이 회사에 합류할 당시 공식적인 데이터 팀이 없었다. 물론 데이터 과학자도 아예 없었다”라면서, “탄탄한 팀을 구축하고 예산을 확보하는 데 있어서 데이터는 필수적인 요소다. 따라서 데이터 거버넌스를 수립하고 데이터 운영위원회를 설립하기 시작했다”라고 말했다.  

그리고 컨버진트는 새로운 ERP 시스템과 수많은 고객용 애플리케이션 지원이 필요하다는 것을 알게 됐다. 그에 따르면 “데이터 역량을 향상시켜야 했다. 데이터를 가지고 있지 않다면 또는 수많은 데이터가 있더라도 이를 의사결정 및 전략에 실제로 사용할 수 없다면 마치 눈을 가리고 있는 것과 같다. 정확하게 어떤 방향으로 나아가야 할지 모르기 때문이다.”
 
‘미개척 영역’이었던 데이터 과학 
바드리나탄이 취임할 당시 컨버진트는 선제적 데이터 분석을 위한 충분한 리소스가 없었고, 이 회사의 기존 프로세스로 유용한 인사이트를 얻기 위해서는 수많은 통합을 필요로 했다고 그는 설명했다. 

그 결과 실행할 수 있는 모델을 위해 확장 및 반복 가능한 프로세스를 만드는 데 어려움을 겪었다. 컨버진트에서 생성했던 모델은 빌드 및 배포에 수개월이 걸렸으며, 예측은 부정확했고, 시장 출시 속도를 늦췄다. 

그는 “컨버진트로 오게 된 이유는 데이터 측면의 일을 전담할 수 있으리라는 점 때문이었다”라면서, “컨버진트를 데이터 기반 의사결정을 내리는 기업으로 만드는 것이 목표이며, 이 과정을 단순화하는 것도 또 다른 목표다”라고 언급했다. 

바드리나탄이 밝힌 컨버전트의 성공적인 디지털 트랜스포메이션을 좌우할 3가지 사항은 다음과 같다. 

1. 가치가 큰 2~3가지 사용 사례를 식별하는 견고한 기반
2. 수익, 목표, 가치에 따라 경쟁 우위를 극대화하는 현명한 투자
3. 사용 사례와 경쟁 우위에 끊임없이 집중하려는 노력


한편 의사결정에 데이터를 활용하려면 컨버진트의 모든 구성원이 검증된 데이터에 간편하게 액세스 할 수 있어야 했다. 

바드리나탄은 “그러려면 신뢰할 수 있는 검증된 데이터 소스는 물론이고, 데이터를 보여줄 뿐만 아니라 의사결정을 내릴 때 사용할 수 있는 공통의 정보원, 이를테면 파워BI 대시보드 등을 확보해야 했다”라고 전했다. 그러고나서 그의 팀은 신뢰할 수 있는 데이터 수집 및 딜리버리 프로세스를 갖춘 개발 파이프라인을 구축했다. 

그에 따르면 이러한 데이터 민주화는 말로는 쉽지만 실제로는 그리 만만하지 않았다. 바드리나탄은 한 소스에서 데이터를 추출하고 변환한 다음, 다른 소스로 로드하는 데이터 이동에 주력하면서 데이터 민주화를 시작했다. 또 데이터가 적절하게 정제되고 정리됐는지 확인하기 위한 프로세스의 일부로 마스터 데이터 관리(MDM)를 도입하기도 했다. 

바드리나탄은 이런 프로세스를 가이드할 데이터 과학자를 우선적으로 영입해야 한다고 주장했지만 이 또한 쉽지 않은 일이었다. 

그는 “데이터 과학자가 즉시 필요했지만 데이터 과학자를 영입한 후 알게 된 사실은 모든 일에 엄청난 시간이 걸린다는 것이다”라면서, “데이터와 비즈니스에 관한 양질의 질문 세트를 만들어 POC에 통합하는 일은 많은 시간이 걸리지 않았다. 하지만 이를 실무에서 사용할 수 있도록 만드는 데 시간이 엄청나게 걸렸다”라고 설명했다. 

그는 처음엔 세 명의 데이터 과학자로 시작했지만 이내 인력을 1명을 줄였다고 밝히면서, 이를 지원하기 위해 머신러닝 회사 닷데이터(dotData)와 협력해 데이터 과학 자동화를 위한 ‘오토ML 2.0 플랫폼(AutoML 2.0 platform)’을 도입했다고 전했다. 

바드리나탄은 이 플랫폼이 데이터 수집부터 기능 엔지니어링, 머신러닝 선택, 머신러닝 모델의 프로덕션 환경 통합까지 전체 데이터 과학 프로세스를 자동화하는 데 도움을 줬다고 언급했다. 이러한 자동화를 통해 해당 데이터 과학자는 더욱더 정확한 예측 모델과 훨씬 더 빠른 클립을 구축할 수 있었다고 그는 덧붙였다. 

바드리나탄은 “2~3명의 데이터 과학자가 이 작업을 처리할 때 ‘트렌드가 무엇인가?’, ‘원인이 무엇인가?’, ‘무엇을 기대할 수 있는가?’와 같은 질문의 답을 찾느라 몇 달이 걸리곤 했다. 지금은 며칠 또는 몇 주밖에 걸리지 않는다”라면서, “이제 매달 열리는 데이터 운영위원회에서는 거의 대부분의 시간을 ‘비즈니스 사용 사례는 무엇인가?’, ‘우선순위는 무엇인가?’ 등을 검토하는 데 쓴다”라고 설명했다. 

전체적으로 봤을 때 트랜스포메이션은 아직 가야 할 길이 멀지만 그래도 바드리나탄은 결실을 거두기 시작했다고 전했다. 이를테면 컨버진트가 판매 수익을 예측하도록 하는 머신러닝 알고리즘이다. 이 알고리즘 그리고 해당 모델을 신속하게 도입할 수 있었던 역량은 컨버진트가 코로나19 팬데믹이라는 ‘블랙스완’을 헤쳐 나가는 데 도움을 줬다. 

그는 “당연한 말이지만 기계는 팬데믹을 모른다. 기계가 아는 것은 사용자가 입력한 과거 데이터뿐이다. 그런데 팬데믹으로 인해 트렌드가 바뀌었다. 트렌드가 바뀌면서 기계를 학습시키고 조정했다. 첫 달에는 기계가 이를 이해하지 못했다. 둘째 달에는 과도한 예측을 했다. 셋째, 넷째 달이 되자 정상화되기 시작했다. 기계가 데이터로부터 학습한 셈이다”라고 말했다. ciokr@idg.co.kr


 



2021.03.04

CIO조차 없었지만... 美 SI 업체의 '데이터 과학' 도전기

Thor Olavsrud | CIO
美 시스템 통합업체 컨버진트 테크놀로지스(Convergint Technologies)의 CIO 부바나 바드리나단은 자동화된 데이터 수집 및 기능 엔지니어링을 사용해 판매 수익을 예측하는 알고리즘 모델을 개발했다. 

데이터, 애널리틱스, 머신러닝을 활용하는 것은 기업에 경쟁 우위를 제공할 수 있다. 그러나 많은 기업에게 성공적인 머신러닝 프로그램은 눈에는 보이지만 잡을 수 없는 것처럼 느껴질 수 있다. 

이는 컨버진트 테크놀로지스가 몇 년 전에 직면했던 과제였다. 전자보안, 화재경보, 생명안전 시스템 등의 통합 빌딩 시스템을 설계하고 설치하며 관리하는 이 시스템 통합업체의 경영진은 판매 수익 예측에 AI를 활용하고 싶어했다. 유일한 문제라고 한다면 컨버진트에 데이터 과학 부서가 없었다는 것이다. 심지어 CIO조차 없었다. 
 
ⓒConvergint

이 모든 상황이 바뀌기 시작한 건 지난 2019년 5월 컨버진트가 부바나 바드리나탄을 초대 CIO로 영입하면서부터다. 바드리나탄은 “이 회사에 합류할 당시 공식적인 데이터 팀이 없었다. 물론 데이터 과학자도 아예 없었다”라면서, “탄탄한 팀을 구축하고 예산을 확보하는 데 있어서 데이터는 필수적인 요소다. 따라서 데이터 거버넌스를 수립하고 데이터 운영위원회를 설립하기 시작했다”라고 말했다.  

그리고 컨버진트는 새로운 ERP 시스템과 수많은 고객용 애플리케이션 지원이 필요하다는 것을 알게 됐다. 그에 따르면 “데이터 역량을 향상시켜야 했다. 데이터를 가지고 있지 않다면 또는 수많은 데이터가 있더라도 이를 의사결정 및 전략에 실제로 사용할 수 없다면 마치 눈을 가리고 있는 것과 같다. 정확하게 어떤 방향으로 나아가야 할지 모르기 때문이다.”
 
‘미개척 영역’이었던 데이터 과학 
바드리나탄이 취임할 당시 컨버진트는 선제적 데이터 분석을 위한 충분한 리소스가 없었고, 이 회사의 기존 프로세스로 유용한 인사이트를 얻기 위해서는 수많은 통합을 필요로 했다고 그는 설명했다. 

그 결과 실행할 수 있는 모델을 위해 확장 및 반복 가능한 프로세스를 만드는 데 어려움을 겪었다. 컨버진트에서 생성했던 모델은 빌드 및 배포에 수개월이 걸렸으며, 예측은 부정확했고, 시장 출시 속도를 늦췄다. 

그는 “컨버진트로 오게 된 이유는 데이터 측면의 일을 전담할 수 있으리라는 점 때문이었다”라면서, “컨버진트를 데이터 기반 의사결정을 내리는 기업으로 만드는 것이 목표이며, 이 과정을 단순화하는 것도 또 다른 목표다”라고 언급했다. 

바드리나탄이 밝힌 컨버전트의 성공적인 디지털 트랜스포메이션을 좌우할 3가지 사항은 다음과 같다. 

1. 가치가 큰 2~3가지 사용 사례를 식별하는 견고한 기반
2. 수익, 목표, 가치에 따라 경쟁 우위를 극대화하는 현명한 투자
3. 사용 사례와 경쟁 우위에 끊임없이 집중하려는 노력


한편 의사결정에 데이터를 활용하려면 컨버진트의 모든 구성원이 검증된 데이터에 간편하게 액세스 할 수 있어야 했다. 

바드리나탄은 “그러려면 신뢰할 수 있는 검증된 데이터 소스는 물론이고, 데이터를 보여줄 뿐만 아니라 의사결정을 내릴 때 사용할 수 있는 공통의 정보원, 이를테면 파워BI 대시보드 등을 확보해야 했다”라고 전했다. 그러고나서 그의 팀은 신뢰할 수 있는 데이터 수집 및 딜리버리 프로세스를 갖춘 개발 파이프라인을 구축했다. 

그에 따르면 이러한 데이터 민주화는 말로는 쉽지만 실제로는 그리 만만하지 않았다. 바드리나탄은 한 소스에서 데이터를 추출하고 변환한 다음, 다른 소스로 로드하는 데이터 이동에 주력하면서 데이터 민주화를 시작했다. 또 데이터가 적절하게 정제되고 정리됐는지 확인하기 위한 프로세스의 일부로 마스터 데이터 관리(MDM)를 도입하기도 했다. 

바드리나탄은 이런 프로세스를 가이드할 데이터 과학자를 우선적으로 영입해야 한다고 주장했지만 이 또한 쉽지 않은 일이었다. 

그는 “데이터 과학자가 즉시 필요했지만 데이터 과학자를 영입한 후 알게 된 사실은 모든 일에 엄청난 시간이 걸린다는 것이다”라면서, “데이터와 비즈니스에 관한 양질의 질문 세트를 만들어 POC에 통합하는 일은 많은 시간이 걸리지 않았다. 하지만 이를 실무에서 사용할 수 있도록 만드는 데 시간이 엄청나게 걸렸다”라고 설명했다. 

그는 처음엔 세 명의 데이터 과학자로 시작했지만 이내 인력을 1명을 줄였다고 밝히면서, 이를 지원하기 위해 머신러닝 회사 닷데이터(dotData)와 협력해 데이터 과학 자동화를 위한 ‘오토ML 2.0 플랫폼(AutoML 2.0 platform)’을 도입했다고 전했다. 

바드리나탄은 이 플랫폼이 데이터 수집부터 기능 엔지니어링, 머신러닝 선택, 머신러닝 모델의 프로덕션 환경 통합까지 전체 데이터 과학 프로세스를 자동화하는 데 도움을 줬다고 언급했다. 이러한 자동화를 통해 해당 데이터 과학자는 더욱더 정확한 예측 모델과 훨씬 더 빠른 클립을 구축할 수 있었다고 그는 덧붙였다. 

바드리나탄은 “2~3명의 데이터 과학자가 이 작업을 처리할 때 ‘트렌드가 무엇인가?’, ‘원인이 무엇인가?’, ‘무엇을 기대할 수 있는가?’와 같은 질문의 답을 찾느라 몇 달이 걸리곤 했다. 지금은 며칠 또는 몇 주밖에 걸리지 않는다”라면서, “이제 매달 열리는 데이터 운영위원회에서는 거의 대부분의 시간을 ‘비즈니스 사용 사례는 무엇인가?’, ‘우선순위는 무엇인가?’ 등을 검토하는 데 쓴다”라고 설명했다. 

전체적으로 봤을 때 트랜스포메이션은 아직 가야 할 길이 멀지만 그래도 바드리나탄은 결실을 거두기 시작했다고 전했다. 이를테면 컨버진트가 판매 수익을 예측하도록 하는 머신러닝 알고리즘이다. 이 알고리즘 그리고 해당 모델을 신속하게 도입할 수 있었던 역량은 컨버진트가 코로나19 팬데믹이라는 ‘블랙스완’을 헤쳐 나가는 데 도움을 줬다. 

그는 “당연한 말이지만 기계는 팬데믹을 모른다. 기계가 아는 것은 사용자가 입력한 과거 데이터뿐이다. 그런데 팬데믹으로 인해 트렌드가 바뀌었다. 트렌드가 바뀌면서 기계를 학습시키고 조정했다. 첫 달에는 기계가 이를 이해하지 못했다. 둘째 달에는 과도한 예측을 했다. 셋째, 넷째 달이 되자 정상화되기 시작했다. 기계가 데이터로부터 학습한 셈이다”라고 말했다. ciokr@idg.co.kr


 

X