2017.06.12

데이터 레이크가 데이터 늪이 되지 않도록 하려면... '핵심 원칙 3가지'

Thor Olavsrud | CIO
아파치 하둡(Apache Hadoop) 같은 기술에 들떠 있던 여러 조직들은 지난 몇 년 동안 모든 데이터를 본래의 형태로 저장할 수 있는 전사적인 데이터 관리 플랫폼인 ‘데이터 레이크’(Data Lake) 구축 방안을 모색하곤 했다. 데이터 레이크가 비즈니스 분석부터 데이터 마이닝까지 모든 것에 활용할 수 있는 단일 데이터 저장소를 제공함으로써 정보 사일로를 무너뜨릴 수 있는 존재로 기대됐기 때문이다. 데이터 레이크가 빅데이터 잡동사니 만병통치약이라 불리기도 했던 이유다.

하지만 BI소프트웨어 전문기업 피라미드 어낼리틱스(Pyramid Analytics)의 CTO 애비 페레즈는 데이터 레이크가 ‘데이터 늪지’로 바뀌는 상황을 많이 목격했다고 말했다. 그가 말하는 데이터 늪지란, 최종 사용자가 절대 수용할 수 없는 난잡하고도 거대한 데이터 저장소를 의미한다.

페레스는 “데이터베이스에 요구되는 비용은 정말이지 크다. 데이터 레이크는 그런 문제의 근본적인 해답이다. 데이터 레이크와 각종 빅데이터 계획이 많은 양의 데이터를 생성하는 실제 데이터 생성자들에 의해서 수립되고 있다”라고 전했다.

세계적으로 성공한 여러 기업들이 데이터 레이크를 중심으로 사업을 구축했다. 구글이 대표적인 사례다. 그러나 많은 다른 기업들은 가치를 끌어낼 수 있는 명확한 방법 없이 그저 데이터를 수집하고 있다는 지적이다.

페레즈는 “그들은 단지 먼지를 수집할 뿐이다. 쓰레기를 수집하고 있다. 결국은 버리게 될 것이다. 결국에는 크고 비용이 높으면서 아무런 효용이 없다는 판단 아래 예산을 삭감한다”라고 말했다.

데이터 레이크라는 아이디어가 나쁘다는 것은 아니다. 페레즈는 결국에는 모든 기업들이 필요로 하게 될 것이라고 전망했다. 하지만 최종 사용자들이 실제로 이익을 얻을 수 있는 데이터 레이크를 구축하기 위해서는 심사숙고가 필요하다고 그는 강조했다.

페레즈는 자신의 데이터 레이크에 빠져 죽지 않으려면 3가지 원칙을 도입해야 한다고 조언했다.



최소한 처음에는 적은 데이터를 수집하라
페레즈는 역량이 있다는 이유만으로 너무 많은 데이터를 수집하는 것이 조직들이 범하는 가장 큰 실수라고 말했다. 스마트폰을 생각해 보자. 스마트폰 하나에 수 백 장 이상의 사진을 저장하는 경우가 많다.

그는 “휴대폰에 수많은 사진이 저장되겠지만 그 중 99%는 생각할 필요 없이 당장에 삭제할 쓰레기일 것이다. 스마트폰으로 사진을 촬영하기가 너무 쉬워졌다. 또 기본적으로 비용이 들지 않는다. 그리고 ‘언젠가는 정리할 것이다.'고 생각하겠지만 그렇게 하는 사람은 없다. 엄청난 양의 정보를 수집하고 있지만 이를 효과적으로 활용할 수 있는 방법은 찾지 못하고 있다”라고 말했다.

누군가에게 특정 사진을 보여주고 싶을 때 찾으려면 엄청난 양의 쓰레기 속을 뒤져야 하는 것처럼 데이터 레이크도 변화해갈 수 있다는 이야기다. 하둡에 데이터를 저장하는 비용이 충분히 낮아서 비용이 무료라는 생각이 들 때가 많다. 하지만 축적되는 데이터의 양 때문에 실제로 중요한 통찰을 제공할 수 있는 데이터에 실제로 접근하기가 어려워질 수 있다.

페레즈는 “이를 방지하기 위해서는 수도 꼭지를 많이 잠그는 것이 중요하다. 데이터 수집 비용이 저렴하기 때문에 데이터 활용 비용도 저렴할 것이라는 생각을 버려야 한다. 실제로 비용이 꽤 높을 수 있다. 따라서 항상 모든 곳에서 데이터를 수집하지 않아야 한다. 마이닝(Mining) 방법과 관련하여 구체적인 계획이 이는 데이터 세트에만 집중하자”라고 말했다.

머신러닝 전략을 도입하라
데이터 세트에 집중한다 하더라도 대량의 데이터에서 통찰을 얻기 위해서는 자동화가 필요하다.

페레즈는 “정리를 위해서는 자동화된 시스템이 필요하다. AI, 머신러닝, 딥러닝(Deep Learning) 등은 그 이름에 상관 없이 정보를 처리할 수 있는 마법 같은 솔루션이다. 거대한 5PB 데이터 레이크에서 가치를 얻는 가장 쉬운 방법은 여기에서 어떻게 교훈을 얻을지에 대한 기법을 확보하는 것부터 시작하는 것이다”라고 말했다.

페레즈는 우선 자신이 알고 있는 데이터 세트를 선택하고 이를 처리할 머신러닝 기법을 선택하라고 말했다. 교육 또는 고용을 통해 이를 효과적으로 수행할 수 있는 새로운 기술을 확보해야 할 가능성이 높다. 그는 “머신러닝은 쉽지 않다. 매우 구체적인 기술이 필요하다”라고 전했다.

해결하려는 비즈니스 문제를 결정하라
여기에서 모든 것이 원점으로 돌아온다. 자신이 해결하려는 비즈니스 문제를 명확히 파악해야 한다. 목표를 세우면 자신이 수집해야 하는 데이터와 해당 데이터로부터 통찰을 얻기 위한 머신러닝 기법에 초점을 맞추기가 상대적으로 쉬워진다.

예를 들어, 페레즈는 스스로를 빅 박스(Big Box) 소매 기업이라고 생각해 보라고 말했다. 자신의 매장에 어떤 종류의 고객들이 방문하고 있는지 파악하고 싶은지 여부를 판단할 수도 있다. 매장에 입장하는 고객들의 사진을 캡처한 후 컴퓨터 비전 문제에 뛰어난 딥러닝 신경망의 일종의 CNN(Convoluted Neural Network)을 활용해 이미지를 처리할 수 있을 것이다. CNN은 이미지의 사람이 남성인지 여성인지, 아동인지 성인인지, 아동과 성인인지, 젊은이와 노인인지 등을 판단할 수 있게 해줄 수 있다.

페레즈는 “이 모든 것을 완료하고 나면 비즈니스 계획과 연계하여 해당 기능을 비즈니스 사용자들에게 제공해보라. 남성 고객이 충분하지 않기 때문에 남성을 대상으로 하는 마케팅이 더 필요하다’등을 판단하는데 도움이 될 수 있다. 사전에 명확한 전략을 마련해야 한다. 그렇지 않으면 더 많은 것을 수집할수록 그 과정에 대한 부정적인 영향이 더욱 커진다”라고 말했다.

비즈니스 계획을 염두에 두고 역량을 구축하면 해당 역량을 반복함으로써 기업에 더욱 표적화된 솔루션으로 진화하는 경우가 발생한다. 예를 들어, 자신의 매장에 방문하는 사람들이 누구인지 파악할 수 있으면 화장품 카운터를 그냥 지나치는 사람을 판단하는 데도 해당 역량을 적용할 수 있다고 페레즈는 설명했다. ciokr@idg.co.kr 



2017.06.12

데이터 레이크가 데이터 늪이 되지 않도록 하려면... '핵심 원칙 3가지'

Thor Olavsrud | CIO
아파치 하둡(Apache Hadoop) 같은 기술에 들떠 있던 여러 조직들은 지난 몇 년 동안 모든 데이터를 본래의 형태로 저장할 수 있는 전사적인 데이터 관리 플랫폼인 ‘데이터 레이크’(Data Lake) 구축 방안을 모색하곤 했다. 데이터 레이크가 비즈니스 분석부터 데이터 마이닝까지 모든 것에 활용할 수 있는 단일 데이터 저장소를 제공함으로써 정보 사일로를 무너뜨릴 수 있는 존재로 기대됐기 때문이다. 데이터 레이크가 빅데이터 잡동사니 만병통치약이라 불리기도 했던 이유다.

하지만 BI소프트웨어 전문기업 피라미드 어낼리틱스(Pyramid Analytics)의 CTO 애비 페레즈는 데이터 레이크가 ‘데이터 늪지’로 바뀌는 상황을 많이 목격했다고 말했다. 그가 말하는 데이터 늪지란, 최종 사용자가 절대 수용할 수 없는 난잡하고도 거대한 데이터 저장소를 의미한다.

페레스는 “데이터베이스에 요구되는 비용은 정말이지 크다. 데이터 레이크는 그런 문제의 근본적인 해답이다. 데이터 레이크와 각종 빅데이터 계획이 많은 양의 데이터를 생성하는 실제 데이터 생성자들에 의해서 수립되고 있다”라고 전했다.

세계적으로 성공한 여러 기업들이 데이터 레이크를 중심으로 사업을 구축했다. 구글이 대표적인 사례다. 그러나 많은 다른 기업들은 가치를 끌어낼 수 있는 명확한 방법 없이 그저 데이터를 수집하고 있다는 지적이다.

페레즈는 “그들은 단지 먼지를 수집할 뿐이다. 쓰레기를 수집하고 있다. 결국은 버리게 될 것이다. 결국에는 크고 비용이 높으면서 아무런 효용이 없다는 판단 아래 예산을 삭감한다”라고 말했다.

데이터 레이크라는 아이디어가 나쁘다는 것은 아니다. 페레즈는 결국에는 모든 기업들이 필요로 하게 될 것이라고 전망했다. 하지만 최종 사용자들이 실제로 이익을 얻을 수 있는 데이터 레이크를 구축하기 위해서는 심사숙고가 필요하다고 그는 강조했다.

페레즈는 자신의 데이터 레이크에 빠져 죽지 않으려면 3가지 원칙을 도입해야 한다고 조언했다.



최소한 처음에는 적은 데이터를 수집하라
페레즈는 역량이 있다는 이유만으로 너무 많은 데이터를 수집하는 것이 조직들이 범하는 가장 큰 실수라고 말했다. 스마트폰을 생각해 보자. 스마트폰 하나에 수 백 장 이상의 사진을 저장하는 경우가 많다.

그는 “휴대폰에 수많은 사진이 저장되겠지만 그 중 99%는 생각할 필요 없이 당장에 삭제할 쓰레기일 것이다. 스마트폰으로 사진을 촬영하기가 너무 쉬워졌다. 또 기본적으로 비용이 들지 않는다. 그리고 ‘언젠가는 정리할 것이다.'고 생각하겠지만 그렇게 하는 사람은 없다. 엄청난 양의 정보를 수집하고 있지만 이를 효과적으로 활용할 수 있는 방법은 찾지 못하고 있다”라고 말했다.

누군가에게 특정 사진을 보여주고 싶을 때 찾으려면 엄청난 양의 쓰레기 속을 뒤져야 하는 것처럼 데이터 레이크도 변화해갈 수 있다는 이야기다. 하둡에 데이터를 저장하는 비용이 충분히 낮아서 비용이 무료라는 생각이 들 때가 많다. 하지만 축적되는 데이터의 양 때문에 실제로 중요한 통찰을 제공할 수 있는 데이터에 실제로 접근하기가 어려워질 수 있다.

페레즈는 “이를 방지하기 위해서는 수도 꼭지를 많이 잠그는 것이 중요하다. 데이터 수집 비용이 저렴하기 때문에 데이터 활용 비용도 저렴할 것이라는 생각을 버려야 한다. 실제로 비용이 꽤 높을 수 있다. 따라서 항상 모든 곳에서 데이터를 수집하지 않아야 한다. 마이닝(Mining) 방법과 관련하여 구체적인 계획이 이는 데이터 세트에만 집중하자”라고 말했다.

머신러닝 전략을 도입하라
데이터 세트에 집중한다 하더라도 대량의 데이터에서 통찰을 얻기 위해서는 자동화가 필요하다.

페레즈는 “정리를 위해서는 자동화된 시스템이 필요하다. AI, 머신러닝, 딥러닝(Deep Learning) 등은 그 이름에 상관 없이 정보를 처리할 수 있는 마법 같은 솔루션이다. 거대한 5PB 데이터 레이크에서 가치를 얻는 가장 쉬운 방법은 여기에서 어떻게 교훈을 얻을지에 대한 기법을 확보하는 것부터 시작하는 것이다”라고 말했다.

페레즈는 우선 자신이 알고 있는 데이터 세트를 선택하고 이를 처리할 머신러닝 기법을 선택하라고 말했다. 교육 또는 고용을 통해 이를 효과적으로 수행할 수 있는 새로운 기술을 확보해야 할 가능성이 높다. 그는 “머신러닝은 쉽지 않다. 매우 구체적인 기술이 필요하다”라고 전했다.

해결하려는 비즈니스 문제를 결정하라
여기에서 모든 것이 원점으로 돌아온다. 자신이 해결하려는 비즈니스 문제를 명확히 파악해야 한다. 목표를 세우면 자신이 수집해야 하는 데이터와 해당 데이터로부터 통찰을 얻기 위한 머신러닝 기법에 초점을 맞추기가 상대적으로 쉬워진다.

예를 들어, 페레즈는 스스로를 빅 박스(Big Box) 소매 기업이라고 생각해 보라고 말했다. 자신의 매장에 어떤 종류의 고객들이 방문하고 있는지 파악하고 싶은지 여부를 판단할 수도 있다. 매장에 입장하는 고객들의 사진을 캡처한 후 컴퓨터 비전 문제에 뛰어난 딥러닝 신경망의 일종의 CNN(Convoluted Neural Network)을 활용해 이미지를 처리할 수 있을 것이다. CNN은 이미지의 사람이 남성인지 여성인지, 아동인지 성인인지, 아동과 성인인지, 젊은이와 노인인지 등을 판단할 수 있게 해줄 수 있다.

페레즈는 “이 모든 것을 완료하고 나면 비즈니스 계획과 연계하여 해당 기능을 비즈니스 사용자들에게 제공해보라. 남성 고객이 충분하지 않기 때문에 남성을 대상으로 하는 마케팅이 더 필요하다’등을 판단하는데 도움이 될 수 있다. 사전에 명확한 전략을 마련해야 한다. 그렇지 않으면 더 많은 것을 수집할수록 그 과정에 대한 부정적인 영향이 더욱 커진다”라고 말했다.

비즈니스 계획을 염두에 두고 역량을 구축하면 해당 역량을 반복함으로써 기업에 더욱 표적화된 솔루션으로 진화하는 경우가 발생한다. 예를 들어, 자신의 매장에 방문하는 사람들이 누구인지 파악할 수 있으면 화장품 카운터를 그냥 지나치는 사람을 판단하는 데도 해당 역량을 적용할 수 있다고 페레즈는 설명했다. ciokr@idg.co.kr 

X