2016.06.27

벤더 기고 | 일상으로 파고든 고급 분석

편집부 | CIO KR

지난 3월 알파고가 프로 바둑기사인 이세돌과 벌인 대국에서 4대 1로 승리했다. 알파고는 사람처럼 학습할 수 있으며 수백만 번의 대국을 치르면서 경험과 지식을 쌓아 최고의 프로기사와 견줄 만큼의 능력을 갖췄다. <네이처>에 따르면, 알파고 등장 이후 한국 내 AI펀드에 무려 8억 6,000만 달러가 조성되기도 했다. 또 삼성, LG, 현대 등의 대기업들은 정부와 손잡고 AI 프로젝트를 추진하겠다고 발표했다.

빅데이터라는 말이 유행한 지 수년이 지난 현재, ‘고급 분석’은 산업 현장에 이미 침투해 있고 곳곳에서 그 사례를 찾아볼 수 있다. 기업들은 임베디드 기기의 센서에서 수집한 엔지니어링 데이터부터 구매 이력 등의 비즈니스 데이터까지 다양하고 많은 양의 데이터를 수집해 분석하기 시작했다. 다양한 형태의 대용량 데이터를 신속하게 처리하고 분석할 수 있는 빅데이터가 엔지니어링이 주도하는 고급 분석으로 변모할 수 있는 것은 기술의 발전 덕분이었다.

왜 엔지니어링 고급 분석인가?
고급 분석이란, 복잡한 시스템에서 강력한 통계적인 데이터 분석 기법을 이용해 어떤 일이 일어났는지를 파악하고, 그로 인해 앞으로 어떤 일이 일어날지를 예측하며, 구체적으로 어떻게 대응하거나 어떤 결정을 내릴지 제안하는 것이다.

그렇다면, 빅데이터 분석과 엔지니어링이 주도하는 고급 분석은 어떻게 다른가? 전통적인 데이터 분석 시스템은 거래 데이터 같은 비즈니스 데이터를 분석하는 데 익숙하며 카메라 등 다른 임베디드 기기에서 수집한 데이터를 제대로 소화하지 못하고 놓치는 경우가 많다. 하지만 엔지니어링이 주도하는 고급 분석에서는 빅데이터보다 훨씬 더 많은 정보를 취합할 수 있다.

비디오 데이터를 예로 들면, 단순히 트랜잭션 데이터보다 훨씬 더 많은 정보를 추출할 수 있다. 여기 어떤 차가 있다고 가정하자. 그 차가 어떤 차인지 알아볼 때 색깔, 형태는 눈으로 확인할 수 있는 정보다. 하지만 머신러닝을 도입하면 그 차가 어떤 색인지를 인지하지 않아도 자동으로 분류할 수 있다. 백화점에서 이를 응용한다고 가정하면, 주차장에 차가 들어오는 순간 그 차가 벤츠인지, BMW인지를 인식하고 후에 머신러닝을 이용해 벤츠를 타는 사람은 주로 어떤 상품을 구매하는지를 알 수 있다. 이는 고차원 분석이다.

그림 | 엔지니어링이 주도하는 고급 분석 부상


엔지니어링이 주도하는 고급 분석이 등장하게 된 배경에는 빅데이터, 컴퓨팅 파워, 머신러닝이 있다. 과거에는 사용자, 기술, 영역 모두 제한적이었다. 데이터를 다루는 사용자도 제한적이었고, 이들이 엔지니어링 데이터, 비즈니스 데이터, 트랜잭션 데이터를 모두 취급할 수 있는 것은 아니었다. 또 데스크톱에서 처리하던 것에서 이제는 하둡을 지원하고 신속하며 최적화된 클러스터링 PC, GPU(Graphic Process Unit), 클라우드 컴퓨팅으로 빅데이터를 분석할 수 있게 돼 컴퓨팅 파워 면에서도 크게 개선됐다. 여기에 머신러닝까지 더해져 신경망, 클래시피케이션(Classification), 클러스터링, 회귀분석 등으로 한층 더 고도화된 분석 기능을 갖추게 됐다.

물론 이 같은 고급 분석을 가능케 하려면 기업에는 대용량 데이터를 보관하고 유지하는 데 비용 부담이라는 압박이 있다. 기업은 많은 데이터 가운데 어떤 데이터를 취하고 어떤 데이터를 버릴지 구분해야 한다. 이렇게 데이터를 구분한 다음 예측 모델을 만들어 어떤 데이터가 가치 있고 상관관계가 있는지 인식하는 워크플로우를 거쳐야 한다. 임베디드 시스템의 센서에서 데이터를 수집하는 단계에서 결정해 취합할 수 있다.

기업에 이미 딥러닝과 관련해 필요한 데이터가 있지만, 이들이 서로 다른 형태로 저장돼 있고 또 여기저기에 흩어져 있다는 것이 문제다. 때문에 기업은 중앙에서 데이터를 보관할 수 있는 데이터 리포지트리에 투자해야 한다. 또 데이터를 변환, 이전, 조정하는 작업을 통해 서로 잘 맞게 모을 수 있는 시스템도 필요하다. 이밖에 기업 내 데이터양 자체가 적어 아직 측정하고 보관하지 못하고 있다면, 데이터를 측정하고 보관할 시설도 필요하다.

데이터를 얻는데도 시간이 걸린다. 기업의 데이터는 그 조직의 사업경력과도 관련이 있다. 오래된 회사일수록 쌓여 있는 데이터도 많을 것이다. 하지만 사업경력에 비해 데이터양이 적다면 데이터에서 얻는 가치를 인지하지 못해 거기에 투자하지 않는 것으로 생각해 볼 수 있다.

데이터에 가치가 있다는 신념을 갖는 문화도 필요하다. 데이터 분석에서 얻은 통찰력이 아닌, 직관이나 관행에 따라 의사결정을 내리는 기업을 볼 수 있다. 이런 기업들에는 ‘시스템을 통해 꾸준히 학습해 경험을 쌓으라’고 조언하고 싶다.

매스웍스의 고객사 중에 소매업에 종사하는 회사가 있는데, 이 회사가 보유한 많은 데이터를 기반으로 더 나은 전략을 수립하기 위해 예측모델을 만들었다. 처음에는 고객사가 이 모델을 믿기 어렵다고 했다. 왜냐하면 소규모 데이터를 가지고 그에 기반해 결정한다고 생각했기 때문이다. 물론 데이터 세트 전체를 보고 내린 결정과 하나의 데이터 세트를 보고 내린 결정은 다를 수밖에 없다. 데이터를 분석해 예측 모델을 통해 결정한 것을 신뢰하고 기다려주는 것도 필요하다.
 




2016.06.27

벤더 기고 | 일상으로 파고든 고급 분석

편집부 | CIO KR

지난 3월 알파고가 프로 바둑기사인 이세돌과 벌인 대국에서 4대 1로 승리했다. 알파고는 사람처럼 학습할 수 있으며 수백만 번의 대국을 치르면서 경험과 지식을 쌓아 최고의 프로기사와 견줄 만큼의 능력을 갖췄다. <네이처>에 따르면, 알파고 등장 이후 한국 내 AI펀드에 무려 8억 6,000만 달러가 조성되기도 했다. 또 삼성, LG, 현대 등의 대기업들은 정부와 손잡고 AI 프로젝트를 추진하겠다고 발표했다.

빅데이터라는 말이 유행한 지 수년이 지난 현재, ‘고급 분석’은 산업 현장에 이미 침투해 있고 곳곳에서 그 사례를 찾아볼 수 있다. 기업들은 임베디드 기기의 센서에서 수집한 엔지니어링 데이터부터 구매 이력 등의 비즈니스 데이터까지 다양하고 많은 양의 데이터를 수집해 분석하기 시작했다. 다양한 형태의 대용량 데이터를 신속하게 처리하고 분석할 수 있는 빅데이터가 엔지니어링이 주도하는 고급 분석으로 변모할 수 있는 것은 기술의 발전 덕분이었다.

왜 엔지니어링 고급 분석인가?
고급 분석이란, 복잡한 시스템에서 강력한 통계적인 데이터 분석 기법을 이용해 어떤 일이 일어났는지를 파악하고, 그로 인해 앞으로 어떤 일이 일어날지를 예측하며, 구체적으로 어떻게 대응하거나 어떤 결정을 내릴지 제안하는 것이다.

그렇다면, 빅데이터 분석과 엔지니어링이 주도하는 고급 분석은 어떻게 다른가? 전통적인 데이터 분석 시스템은 거래 데이터 같은 비즈니스 데이터를 분석하는 데 익숙하며 카메라 등 다른 임베디드 기기에서 수집한 데이터를 제대로 소화하지 못하고 놓치는 경우가 많다. 하지만 엔지니어링이 주도하는 고급 분석에서는 빅데이터보다 훨씬 더 많은 정보를 취합할 수 있다.

비디오 데이터를 예로 들면, 단순히 트랜잭션 데이터보다 훨씬 더 많은 정보를 추출할 수 있다. 여기 어떤 차가 있다고 가정하자. 그 차가 어떤 차인지 알아볼 때 색깔, 형태는 눈으로 확인할 수 있는 정보다. 하지만 머신러닝을 도입하면 그 차가 어떤 색인지를 인지하지 않아도 자동으로 분류할 수 있다. 백화점에서 이를 응용한다고 가정하면, 주차장에 차가 들어오는 순간 그 차가 벤츠인지, BMW인지를 인식하고 후에 머신러닝을 이용해 벤츠를 타는 사람은 주로 어떤 상품을 구매하는지를 알 수 있다. 이는 고차원 분석이다.

그림 | 엔지니어링이 주도하는 고급 분석 부상


엔지니어링이 주도하는 고급 분석이 등장하게 된 배경에는 빅데이터, 컴퓨팅 파워, 머신러닝이 있다. 과거에는 사용자, 기술, 영역 모두 제한적이었다. 데이터를 다루는 사용자도 제한적이었고, 이들이 엔지니어링 데이터, 비즈니스 데이터, 트랜잭션 데이터를 모두 취급할 수 있는 것은 아니었다. 또 데스크톱에서 처리하던 것에서 이제는 하둡을 지원하고 신속하며 최적화된 클러스터링 PC, GPU(Graphic Process Unit), 클라우드 컴퓨팅으로 빅데이터를 분석할 수 있게 돼 컴퓨팅 파워 면에서도 크게 개선됐다. 여기에 머신러닝까지 더해져 신경망, 클래시피케이션(Classification), 클러스터링, 회귀분석 등으로 한층 더 고도화된 분석 기능을 갖추게 됐다.

물론 이 같은 고급 분석을 가능케 하려면 기업에는 대용량 데이터를 보관하고 유지하는 데 비용 부담이라는 압박이 있다. 기업은 많은 데이터 가운데 어떤 데이터를 취하고 어떤 데이터를 버릴지 구분해야 한다. 이렇게 데이터를 구분한 다음 예측 모델을 만들어 어떤 데이터가 가치 있고 상관관계가 있는지 인식하는 워크플로우를 거쳐야 한다. 임베디드 시스템의 센서에서 데이터를 수집하는 단계에서 결정해 취합할 수 있다.

기업에 이미 딥러닝과 관련해 필요한 데이터가 있지만, 이들이 서로 다른 형태로 저장돼 있고 또 여기저기에 흩어져 있다는 것이 문제다. 때문에 기업은 중앙에서 데이터를 보관할 수 있는 데이터 리포지트리에 투자해야 한다. 또 데이터를 변환, 이전, 조정하는 작업을 통해 서로 잘 맞게 모을 수 있는 시스템도 필요하다. 이밖에 기업 내 데이터양 자체가 적어 아직 측정하고 보관하지 못하고 있다면, 데이터를 측정하고 보관할 시설도 필요하다.

데이터를 얻는데도 시간이 걸린다. 기업의 데이터는 그 조직의 사업경력과도 관련이 있다. 오래된 회사일수록 쌓여 있는 데이터도 많을 것이다. 하지만 사업경력에 비해 데이터양이 적다면 데이터에서 얻는 가치를 인지하지 못해 거기에 투자하지 않는 것으로 생각해 볼 수 있다.

데이터에 가치가 있다는 신념을 갖는 문화도 필요하다. 데이터 분석에서 얻은 통찰력이 아닌, 직관이나 관행에 따라 의사결정을 내리는 기업을 볼 수 있다. 이런 기업들에는 ‘시스템을 통해 꾸준히 학습해 경험을 쌓으라’고 조언하고 싶다.

매스웍스의 고객사 중에 소매업에 종사하는 회사가 있는데, 이 회사가 보유한 많은 데이터를 기반으로 더 나은 전략을 수립하기 위해 예측모델을 만들었다. 처음에는 고객사가 이 모델을 믿기 어렵다고 했다. 왜냐하면 소규모 데이터를 가지고 그에 기반해 결정한다고 생각했기 때문이다. 물론 데이터 세트 전체를 보고 내린 결정과 하나의 데이터 세트를 보고 내린 결정은 다를 수밖에 없다. 데이터를 분석해 예측 모델을 통해 결정한 것을 신뢰하고 기다려주는 것도 필요하다.
 


X