Offcanvas

������������������������

일명 ‘쿼리 가속기’ 데이터 레이크하우스 활용 사례 4선

쿼리 가속기(query accelerator)라고도 불리는 데이터 레이크하우스는 데이터에서 신속하게 인사이트를 도출해내 여러 산업에 걸쳐 다양한 용도로 활용되고 있다.    코로나19 팬데믹이 미국에서 기승을 부릴 때였다. 대형 약국 운영기업 월그린의 의약품 및 헬스케어 플랫폼 기술 담당 부사장 루이지 구아다뇨는 6,500만 개가 넘는 백신의 유통 업무를 도맡았다. 이를 위해 그는 마이크로소프트 애저 기반 데이터브릭스 기술로 구현된 회사의 데이터 레이크하우스를 활용했다. 그는 “먼저 상황을 파악하기 위해 레이크하우스를 활용했다”라고 말했다. 회사는 백신 잔여분과 환자 수요를 정확히 알아내야 했고, 때마침 기술적 기반이 갖춰져 있었다. 비슷한 비즈니스 목표를 위해 데이터 레이크하우스를 막 도입했던 시기였다. 구아다뇨는 “적재적소에 제품을 공급하자”라는 목표로 구축한 이 시스템이 팬데믹의 요건과 맞아떨어졌다고 전했다. 이전에 회사는 데이터 레이크로 이 목표를 이루려 했지만 비용과 시간이라는 두 가지 장애물에 직면했다. 이는 월그린스뿐만 아니라 대다수 기업이 겪는 문제다. 그 결과 최근에는 기업이 가치 있는 인사이트를 손쉽게 도출하도록 지원하는 새로운 기술 패러다임이 등장했다.  일명 ‘쿼리 가속기’라 불리는 데이터 레이크하우스  기존 기업은 데이터에서 인사이트를 도출하고자 크게 2가지 시스템을 동시에 운영해왔다. 비즈니스를 운영하고 BI를 수집하는 기록 시스템인 데이터 웨어하우스와 그 뒤에 나온 데이터 레이크다. 데이터 레이크는 AI·ML로 더 고도화된 인사이트를 제공하기 위한 용도로 사용되곤 한다. 하지만 이러한 이중체계가 지속 가능하지 않음을 체감하는 기업이 점점 늘어나고 있다. 데이터 웨어하우스에서 데이터를 정형화해 쿼리한 뒤 결과값을 얻으려면 ETL이라는 매우 긴 프로세스를 거쳐야 한다. 한편 데이터 레이크에서 인사이트를 도출하려면 비정형 데이터를 모조리 집어넣은 뒤 숙련된 데이터 과학자가 파이썬, 아파치...

데이터웨어하우스 데이터레이크 데이터레이크하우스 비즈니스인텔리전스 쿼리가속기 데이터쿼리

2022.08.23

쿼리 가속기(query accelerator)라고도 불리는 데이터 레이크하우스는 데이터에서 신속하게 인사이트를 도출해내 여러 산업에 걸쳐 다양한 용도로 활용되고 있다.    코로나19 팬데믹이 미국에서 기승을 부릴 때였다. 대형 약국 운영기업 월그린의 의약품 및 헬스케어 플랫폼 기술 담당 부사장 루이지 구아다뇨는 6,500만 개가 넘는 백신의 유통 업무를 도맡았다. 이를 위해 그는 마이크로소프트 애저 기반 데이터브릭스 기술로 구현된 회사의 데이터 레이크하우스를 활용했다. 그는 “먼저 상황을 파악하기 위해 레이크하우스를 활용했다”라고 말했다. 회사는 백신 잔여분과 환자 수요를 정확히 알아내야 했고, 때마침 기술적 기반이 갖춰져 있었다. 비슷한 비즈니스 목표를 위해 데이터 레이크하우스를 막 도입했던 시기였다. 구아다뇨는 “적재적소에 제품을 공급하자”라는 목표로 구축한 이 시스템이 팬데믹의 요건과 맞아떨어졌다고 전했다. 이전에 회사는 데이터 레이크로 이 목표를 이루려 했지만 비용과 시간이라는 두 가지 장애물에 직면했다. 이는 월그린스뿐만 아니라 대다수 기업이 겪는 문제다. 그 결과 최근에는 기업이 가치 있는 인사이트를 손쉽게 도출하도록 지원하는 새로운 기술 패러다임이 등장했다.  일명 ‘쿼리 가속기’라 불리는 데이터 레이크하우스  기존 기업은 데이터에서 인사이트를 도출하고자 크게 2가지 시스템을 동시에 운영해왔다. 비즈니스를 운영하고 BI를 수집하는 기록 시스템인 데이터 웨어하우스와 그 뒤에 나온 데이터 레이크다. 데이터 레이크는 AI·ML로 더 고도화된 인사이트를 제공하기 위한 용도로 사용되곤 한다. 하지만 이러한 이중체계가 지속 가능하지 않음을 체감하는 기업이 점점 늘어나고 있다. 데이터 웨어하우스에서 데이터를 정형화해 쿼리한 뒤 결과값을 얻으려면 ETL이라는 매우 긴 프로세스를 거쳐야 한다. 한편 데이터 레이크에서 인사이트를 도출하려면 비정형 데이터를 모조리 집어넣은 뒤 숙련된 데이터 과학자가 파이썬, 아파치...

2022.08.23

현실판 ‘냉정한 이타주의자’ 사례… 데이터 기술로 기아 퇴치 혁신한 美 비영리단체

미국 최대 규모의 기아 구호 단체 피딩 아메리카(Feeding America)의 첫 CIO 마리안 버닥은 데이터와 애널리스틱스를 활용해 기술 변혁을 주도하고 있다.     모든 국민에게 충분한 식량을 생산하고 있음에도, 미국에서는 1,200만 명의 아동을 포함해 3,800만 명이 기아로 고통받고 있다. 미국 최대의 기아 구호 단체 피딩 아메리카(Feeding America)는 최근 들어 이 문제를 더 효과적으로 해결하고자 정보 기술을 활용하기 시작했다. 단체는 3년 전 한 IT 전문가를 채용하면서 IT 기반의 문제 해결 전략에 시동을 걸었다. 이 전문가의 임무는 200개가 넘는 푸드뱅크로 이뤄진 단체가 음식을 제공하는 방식을 변혁하는 것이었다.  이 막중한 임무를 맡게 된 사람은 바로 피딩 아메리카의 CITO인 마리안 버닥이다. 그는 “피딩 아메리카는 흡사 영리 단체처럼 운영되는 비영리 단체다. 제조사, 소매기업 및 식료품 유통기업의 기부를 받지만, 식품을 직접 구매하기도 한다. 따라서 영리 단체와 비슷한 다양한 내부 프로세스가 있다. 프로세스, 도구, 팀을 확보하고, 최적화하고, 보안을 강화하는 것이 나의 임무다. 이 모든 목표를 이룰 수 있는 디지털 역량을 갖추기 위해 노력하고 있다”라고 말했다.    버닥은 피딩 아메리카가 몇몇 측면에서 영리 단체처럼 운영된다고 말했지만, 단체의 특성상 다른 영리 단체와는 다른 난해한 여러 문제에 직면해 있다. 단체는 200개의 푸드뱅크로 이루어진 연방 네트워크다. 개별 푸드뱅크 모두가 하나의 독립적인 ‘501(c)(3) 조직(편집자 주: 비영리 단체에 비과세 혜택을 제공하는 미국의 501(c)(3) 소득세법 조항이 적용되는 조직을 일컫는 말)’으로서 자체적인 전략을 개발하고, 자체적으로 리더와 팀을 고용하며 자체 IT 시스템을 구축한다. 그 결과, 수많은 푸드뱅크 조직의 기술 솔루션, 표준 및 버전이 모두 제각각이다. 기술 역량 격차 또한 심하다. 버닥에 따르면 이 ...

애저클라우드 애저ID서비스 애저데브옵스 IICS 타블로 ERP CRM 데이터웨어하우스

2022.07.21

미국 최대 규모의 기아 구호 단체 피딩 아메리카(Feeding America)의 첫 CIO 마리안 버닥은 데이터와 애널리스틱스를 활용해 기술 변혁을 주도하고 있다.     모든 국민에게 충분한 식량을 생산하고 있음에도, 미국에서는 1,200만 명의 아동을 포함해 3,800만 명이 기아로 고통받고 있다. 미국 최대의 기아 구호 단체 피딩 아메리카(Feeding America)는 최근 들어 이 문제를 더 효과적으로 해결하고자 정보 기술을 활용하기 시작했다. 단체는 3년 전 한 IT 전문가를 채용하면서 IT 기반의 문제 해결 전략에 시동을 걸었다. 이 전문가의 임무는 200개가 넘는 푸드뱅크로 이뤄진 단체가 음식을 제공하는 방식을 변혁하는 것이었다.  이 막중한 임무를 맡게 된 사람은 바로 피딩 아메리카의 CITO인 마리안 버닥이다. 그는 “피딩 아메리카는 흡사 영리 단체처럼 운영되는 비영리 단체다. 제조사, 소매기업 및 식료품 유통기업의 기부를 받지만, 식품을 직접 구매하기도 한다. 따라서 영리 단체와 비슷한 다양한 내부 프로세스가 있다. 프로세스, 도구, 팀을 확보하고, 최적화하고, 보안을 강화하는 것이 나의 임무다. 이 모든 목표를 이룰 수 있는 디지털 역량을 갖추기 위해 노력하고 있다”라고 말했다.    버닥은 피딩 아메리카가 몇몇 측면에서 영리 단체처럼 운영된다고 말했지만, 단체의 특성상 다른 영리 단체와는 다른 난해한 여러 문제에 직면해 있다. 단체는 200개의 푸드뱅크로 이루어진 연방 네트워크다. 개별 푸드뱅크 모두가 하나의 독립적인 ‘501(c)(3) 조직(편집자 주: 비영리 단체에 비과세 혜택을 제공하는 미국의 501(c)(3) 소득세법 조항이 적용되는 조직을 일컫는 말)’으로서 자체적인 전략을 개발하고, 자체적으로 리더와 팀을 고용하며 자체 IT 시스템을 구축한다. 그 결과, 수많은 푸드뱅크 조직의 기술 솔루션, 표준 및 버전이 모두 제각각이다. 기술 역량 격차 또한 심하다. 버닥에 따르면 이 ...

2022.07.21

‘일관성·유연성’ 덕에 각광… 데이터 레이크하우스 활용 사례

데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다.    보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다.  데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다.  데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.   반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.   론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.   대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflak...

데이터레이크 데이터웨어하우스 데이터레이크하우스 데이터브릭스 스노우플레이크 아마존레드시프트 비정형데이터 세가 엔터테인먼트

2022.07.11

데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다.    보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다.  데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다.  데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.   반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.   론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.   대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflak...

2022.07.11

'클라우드 데이터 웨어하우스'를 선택하는 방법

엔터프라이즈 데이터 웨어하우스(EDW)는 전사적으로 모든 역사적 데이터를 저장하는 통합 데이터베이스로 분석에 최적화돼 있다. 최근 데이터 웨어하우스를 구축하는 기업은 온프레미스보다 클라우드에 데이터 웨어하우스를 구축하는 경우가 많다. 또한 전통적인 데이터 웨어하우스 대신 쿼리를 지원하는 데이터 레이크를 활용한다. 이밖에 역사적 데이터와 스트리밍 라이브 데이터의 결합 여부도 EDW 프로젝트에서 중요한 결정 사항이다.   데이터 웨어하우스(Data warehouse)는 일반적으로 역사적 데이터를 저장하기 위해 2개 이상의 데이터 소스로 만든 분석(관계형) 데이터베이스다. 페타바이트급까지 크기가 커지기도 한다. 데이터 웨어하우스는 복잡한 쿼리를 실행시키고 보고서를 생성하는 상당한 컴퓨팅 및 메모리 리소스를 갖춘 경우가 많으며, 종종 비즈니스 인텔리전스(BI) 시스템과 머신러닝의 데이터 소스 기능을 한다. 트랜잭션 운영 데이터베이스의 쓰기 처리량 요건은 생성할 수 있는 인덱스의 종류와 수를 제한한다(인덱스가 많을 수록 추가되는 레코드당 쓰기와 업데이트가 많아지며 경합이 증가할 수 있음). 이로 인해 운영 데이터베이스에 대한 분석 쿼리가 느려진다. 데이터를 데이터 웨어하우스로 내보낸 후, 별개 OLTP(Online Transaction Processing) 데이터베이스의 쓰기 성능에 영향을 주지 않고 상당히 좋은 분석 쿼리 성능으로 데이터 웨어하우스에서 필요한 모든 것을 인덱스 처리할 수 있다. 데이터 마트에는 특정 비즈니스 라인을 대상으로 한 데이터가 포함돼 있다. 데이터 마트는 데이터 웨어하우스에 종속적일 수도, (운영 데이터베이스나 외부 소스에서 가져오는 형태로) 독립적일 수도 있다. 또는 둘이 혼합될 수도 있다. 자체 형식으로 데이터 파일을 저장하는 데이터 레이크는 ‘읽기 스키마(Schema on read)’다. 레이크에서 데이터를 읽는 애플리케이션은 데이터에 독자적인 유형과 관계를 적용해야 한다는 의미이다. 반면 전통적인 데이터 웨어하우스...

클라우드데이터웨어하우스 데이터웨어하우스

2021.12.31

엔터프라이즈 데이터 웨어하우스(EDW)는 전사적으로 모든 역사적 데이터를 저장하는 통합 데이터베이스로 분석에 최적화돼 있다. 최근 데이터 웨어하우스를 구축하는 기업은 온프레미스보다 클라우드에 데이터 웨어하우스를 구축하는 경우가 많다. 또한 전통적인 데이터 웨어하우스 대신 쿼리를 지원하는 데이터 레이크를 활용한다. 이밖에 역사적 데이터와 스트리밍 라이브 데이터의 결합 여부도 EDW 프로젝트에서 중요한 결정 사항이다.   데이터 웨어하우스(Data warehouse)는 일반적으로 역사적 데이터를 저장하기 위해 2개 이상의 데이터 소스로 만든 분석(관계형) 데이터베이스다. 페타바이트급까지 크기가 커지기도 한다. 데이터 웨어하우스는 복잡한 쿼리를 실행시키고 보고서를 생성하는 상당한 컴퓨팅 및 메모리 리소스를 갖춘 경우가 많으며, 종종 비즈니스 인텔리전스(BI) 시스템과 머신러닝의 데이터 소스 기능을 한다. 트랜잭션 운영 데이터베이스의 쓰기 처리량 요건은 생성할 수 있는 인덱스의 종류와 수를 제한한다(인덱스가 많을 수록 추가되는 레코드당 쓰기와 업데이트가 많아지며 경합이 증가할 수 있음). 이로 인해 운영 데이터베이스에 대한 분석 쿼리가 느려진다. 데이터를 데이터 웨어하우스로 내보낸 후, 별개 OLTP(Online Transaction Processing) 데이터베이스의 쓰기 성능에 영향을 주지 않고 상당히 좋은 분석 쿼리 성능으로 데이터 웨어하우스에서 필요한 모든 것을 인덱스 처리할 수 있다. 데이터 마트에는 특정 비즈니스 라인을 대상으로 한 데이터가 포함돼 있다. 데이터 마트는 데이터 웨어하우스에 종속적일 수도, (운영 데이터베이스나 외부 소스에서 가져오는 형태로) 독립적일 수도 있다. 또는 둘이 혼합될 수도 있다. 자체 형식으로 데이터 파일을 저장하는 데이터 레이크는 ‘읽기 스키마(Schema on read)’다. 레이크에서 데이터를 읽는 애플리케이션은 데이터에 독자적인 유형과 관계를 적용해야 한다는 의미이다. 반면 전통적인 데이터 웨어하우스...

2021.12.31

칼럼 | 클라우드 데이터 웨어하우스의 미래

지난 5년 동안 우리는 스노우플레이크(Snowflake)와 빅쿼리(BigQuery)로 대표되는 클라우드 데이터 웨어하우스가 수많은 데이터를 결합하고 분석해야 하는 기업에 지배적인 툴이 되어가는 과정을 목격했다. 초기 데이터 웨어하우스는 매출이나 고객 수, 각 지표의 변화 추이 및 원인 파악 등 기업의 전형적인 의사결정을 지원하는 데 활용됐다.   하지만 데이터가 워크로드를 끌어당기는 것이 데이터베이스의 철칙이다. 모든 데이터를 한 곳에 모으면, 팀 내 똑똑한 직원이 예상치도 못한 데이터 활용 방법을 생각해내기 마련이다. 클라우드 데이터 웨어하우스는 새로운 사용 사례를 ‘탄력성(elasticity)’이라는 특징으로 실현한다. 데이터를 활용하는 새로운 방법을 발견하면 새로운 컴퓨팅 자원을 제한없이 추가한다. 가끔 데이터 웨어하우스에 최적화된 일반적인 분석 쿼리와 새로운 워크로드의 형태가 다른 경우가 있다. 지난 20년간 상용 데이터 웨어하우스는 소수의 대형 쿼리를 처리하는 데 최적화되어 있었다. 전체 테이블을 스캔해 요약 통계를 집계하는 방식이다. 예컨대 상용 데이터 웨어하우스는 다음과 같은 쿼리에 최적화됐다.    지난 1년 동안 각 지역에서 매월 확보한 신규 회원 수 그러나 다음과 같은 질문에는 최적화되어 있지 않다.   특정 고객 한 명과 주고받은 모든 상호작용 이런 쿼리는 많은 데이터 소스를 한 곳에 배치한 뒤 특정 소스의 데이터 가운데 아주 적은 비율만 처리해야 한다. 분석적 특성과 운영적 특성을 모두 포함하고 있으며, 클라우드 데이터 웨어하우스가 보편화되면서 등장한 워크로드의 대표적인 유형이다. 주요 데이터 웨어하우스 서비스 업체는 이런 유형의 쿼리를 보다 효과적으로 지원하기 위해 변화를 시도하고 있다. 스노우플레이크는 최근 데이터 웨어하우스에 인덱스를 만드는 검색 최적화 서비스를 출시했다. 현재 인덱스 기능은 운영 데이터베이스 어디에나 존재하지만, 과거에는 데이터 웨어하우스가 분석 워크로드와 무...

데이터웨어하우스 스노우플레이크 빅쿼리

2021.12.20

지난 5년 동안 우리는 스노우플레이크(Snowflake)와 빅쿼리(BigQuery)로 대표되는 클라우드 데이터 웨어하우스가 수많은 데이터를 결합하고 분석해야 하는 기업에 지배적인 툴이 되어가는 과정을 목격했다. 초기 데이터 웨어하우스는 매출이나 고객 수, 각 지표의 변화 추이 및 원인 파악 등 기업의 전형적인 의사결정을 지원하는 데 활용됐다.   하지만 데이터가 워크로드를 끌어당기는 것이 데이터베이스의 철칙이다. 모든 데이터를 한 곳에 모으면, 팀 내 똑똑한 직원이 예상치도 못한 데이터 활용 방법을 생각해내기 마련이다. 클라우드 데이터 웨어하우스는 새로운 사용 사례를 ‘탄력성(elasticity)’이라는 특징으로 실현한다. 데이터를 활용하는 새로운 방법을 발견하면 새로운 컴퓨팅 자원을 제한없이 추가한다. 가끔 데이터 웨어하우스에 최적화된 일반적인 분석 쿼리와 새로운 워크로드의 형태가 다른 경우가 있다. 지난 20년간 상용 데이터 웨어하우스는 소수의 대형 쿼리를 처리하는 데 최적화되어 있었다. 전체 테이블을 스캔해 요약 통계를 집계하는 방식이다. 예컨대 상용 데이터 웨어하우스는 다음과 같은 쿼리에 최적화됐다.    지난 1년 동안 각 지역에서 매월 확보한 신규 회원 수 그러나 다음과 같은 질문에는 최적화되어 있지 않다.   특정 고객 한 명과 주고받은 모든 상호작용 이런 쿼리는 많은 데이터 소스를 한 곳에 배치한 뒤 특정 소스의 데이터 가운데 아주 적은 비율만 처리해야 한다. 분석적 특성과 운영적 특성을 모두 포함하고 있으며, 클라우드 데이터 웨어하우스가 보편화되면서 등장한 워크로드의 대표적인 유형이다. 주요 데이터 웨어하우스 서비스 업체는 이런 유형의 쿼리를 보다 효과적으로 지원하기 위해 변화를 시도하고 있다. 스노우플레이크는 최근 데이터 웨어하우스에 인덱스를 만드는 검색 최적화 서비스를 출시했다. 현재 인덱스 기능은 운영 데이터베이스 어디에나 존재하지만, 과거에는 데이터 웨어하우스가 분석 워크로드와 무...

2021.12.20

김진철의 How-to-Big Data | 빅데이터 괴담

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

김진철 빅데이터 데이터 과학 데이터 과학자 시행착오 데이터 레이크 하둡 스타트업 스파크 플링크 에어플로우 데이터웨어하우스 도커 서비스메시 쿠버네티스

2021.03.29

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

2021.03.29

심리·통계·파이썬··· '융합' 역량 갖춘 9년차 머신러닝 전문가 이야기

머신러닝은 현재 IT 업계에서 가장 수요가 많은 기술이다. 개인화 소프트웨어 및 서비스 제공업체 세일쓰루(Sailthru)의 수석 머신러닝 엔지니어 카일 햄린과 머신러닝 경력에 관해 이야기를 나눴다. 인공지능의 하위개념이자 패턴과 추론을 통해 시스템이 특정 작업을 수행하도록 하는 통계학적 모델 및 알고리즘인 머신러닝은 오늘날 기술 구직 시장에서 가장 수요가 많은 기술에 속한다.  머신러닝 엔지니어라는 직업 전망이 밝은 것은 어쩌면 너무나도 당연한 일이다. 온라인 교육 플랫폼 스터디닷컴(Study.com)에 따르면, 머신러닝 엔지니어는 습득한 지식을 응용해 시스템과 기계를 개발할 수 있는 고급 전문가다. 머신러닝 엔지니어의 주요 업무는 기계가 특정 작업을 수행하도록 프로그래밍하는 차원을 넘어서 구체적인 지시를 내리지 않아도 알아서 행동하게 하는 프로그램을 만드는 것이라고 스터디닷컴은 설명했다.  예를 들면 자율주행차나 특정 개인의 관심사를 파악할 수 있는 프로그램을 개발하는 것 등이 머신러닝 엔지니어의 업무에 포함된다. 스터디닷컴은 “맞춤형 뉴스 피드부터 맞춤형 웹 검색에 이르기까지 머신러닝 엔지니어는 수많은 개인들의 일상생활과 기술 사용 방식에 일조하고 있다”라고 말했다.    머신러닝 엔지니어가 갖춰야 할 직무 역량에는 컴퓨터 프로그래밍(C++ 또는 자바와 같은 특정 언어에 대한 지식 포함), 수학, 데이터 애널리틱스, 데이터 마이닝, 클라우드 애플리케이션 지식, 원활한 의사소통 능력 등이 있다. 링크드인 선정 2019년 가장 유망한 직업 순위(Most Promising Jobs listing for 2019)에 따르면 머신러닝 엔지니어는 15위를 차지했다. 해당 순위는 링크드인 회원 정보와 채용 및 연봉 데이터를 바탕으로 연봉, 구인 건수, 전년 대비 구인 건수 증가율 등을 분석한 결과다.  이밖에 구인구직 사이트 인디드(Indeed)에 따르면, 2018년과 2019년 사이 직무 설명에 ‘A...

빅데이터 데이터엔지니어링 데이터애널리틱스 데이터레이크 데이터과학 딥러닝 머신러닝 파이썬 자동화 인공지능 사이버보안 데이터웨어하우스 머신러닝엔지니어

2020.04.29

머신러닝은 현재 IT 업계에서 가장 수요가 많은 기술이다. 개인화 소프트웨어 및 서비스 제공업체 세일쓰루(Sailthru)의 수석 머신러닝 엔지니어 카일 햄린과 머신러닝 경력에 관해 이야기를 나눴다. 인공지능의 하위개념이자 패턴과 추론을 통해 시스템이 특정 작업을 수행하도록 하는 통계학적 모델 및 알고리즘인 머신러닝은 오늘날 기술 구직 시장에서 가장 수요가 많은 기술에 속한다.  머신러닝 엔지니어라는 직업 전망이 밝은 것은 어쩌면 너무나도 당연한 일이다. 온라인 교육 플랫폼 스터디닷컴(Study.com)에 따르면, 머신러닝 엔지니어는 습득한 지식을 응용해 시스템과 기계를 개발할 수 있는 고급 전문가다. 머신러닝 엔지니어의 주요 업무는 기계가 특정 작업을 수행하도록 프로그래밍하는 차원을 넘어서 구체적인 지시를 내리지 않아도 알아서 행동하게 하는 프로그램을 만드는 것이라고 스터디닷컴은 설명했다.  예를 들면 자율주행차나 특정 개인의 관심사를 파악할 수 있는 프로그램을 개발하는 것 등이 머신러닝 엔지니어의 업무에 포함된다. 스터디닷컴은 “맞춤형 뉴스 피드부터 맞춤형 웹 검색에 이르기까지 머신러닝 엔지니어는 수많은 개인들의 일상생활과 기술 사용 방식에 일조하고 있다”라고 말했다.    머신러닝 엔지니어가 갖춰야 할 직무 역량에는 컴퓨터 프로그래밍(C++ 또는 자바와 같은 특정 언어에 대한 지식 포함), 수학, 데이터 애널리틱스, 데이터 마이닝, 클라우드 애플리케이션 지식, 원활한 의사소통 능력 등이 있다. 링크드인 선정 2019년 가장 유망한 직업 순위(Most Promising Jobs listing for 2019)에 따르면 머신러닝 엔지니어는 15위를 차지했다. 해당 순위는 링크드인 회원 정보와 채용 및 연봉 데이터를 바탕으로 연봉, 구인 건수, 전년 대비 구인 건수 증가율 등을 분석한 결과다.  이밖에 구인구직 사이트 인디드(Indeed)에 따르면, 2018년과 2019년 사이 직무 설명에 ‘A...

2020.04.29

클라우데라, ‘빅데이터 플랫폼’ 실시간 온라인 세미나 4월 28일 개최

클라우데라가 4월 28일 온라인으로 빅데이터 플랫폼의 최신 기술을 조망하는 ‘클라우데라 포럼 서울(Cloudera Forum Seoul)’을 개최한다고 밝혔다. 클라우데라는 계속되는 코로나19 확산 우려로, 참석자, 고객, 파트너, 직원들의 안전과 건강을 보호하기 위해 ‘클라우데라 포럼 서울’을 버추얼 이벤트(Virtual Event)로 변경하고, 지난해 발표된 엔터프라이즈 데이터 클라우드 ‘클라우데라 데이터 플랫폼(CDP)’을 국내에 상세히 전달하는 기회를 마련했다. 클라우데라 포럼은 서울을 비롯해 파리, 런던, 뉴욕, 시카고, 시드니, 모스크바, 뭄바이, 프랑크푸르트, 마드리드, 밀란 등 세계 20여개 주요 도시에서 열리는 컨퍼런스로, 엔터프라이즈급 보안과 거버넌스, 다기능 데이터 분석 및 탄력적인 클라우드 환경을 결합하는 엔터프라이즈 데이터 플랫폼인 ‘클라우데라 데이터 플랫폼’을 집중 조명한다. 회사에 따르면 ‘클라우데라 포럼 서울’ 온라인 세미나는 엣지부터 AI에 이르는 데이터 플랫폼과 데이터 분석 서비스에서 차별화한 ‘클라우데라 데이터 플랫폼’을, 엔터프라이즈 데이터 클라우드 전문가, 엔지니어, 에밴젤리스트의 강의와 데모, 질의응답을 통해 참가자들이 실시간 온라인 상에서 체험할 수 있도록 준비했다. 이 행사는 4월 28일 오후 2시부터 4시까지 진행되며, 클라우데라코리아 강형준 지사장의 환영 인사말로 시작한다. 행사는 총 4개 세션으로 구성됐다. 첫번째 세션은 클라우데라 조성현 상무가 엔터프라이즈 데이터 클라우드 플랫폼인 클라우데라 데이터 플랫폼(Cloudera Data Platform)의 비전과 전략을 발표한다. 상용 빅데이터 플랫폼을 선보였던 클라우데라가 데이터의 가치 실현 방법으로 제시한 ‘클라우데라 데이터 플랫폼’의 주요 기능과 데이터센터, 다양한 클라우드 환경에서의 지원 정책 등을 소개한다. 두번째 세션에서는 데이터 스트리밍 분야의 최고 전문가인 클라우데라 아태지역 필드 CTO인 앤드류 살티스를 실시간 온라인으로 만날 수 있다. ...

빅데이터 데이터웨어하우스 클라우데라 머신러닝 하이브리드클라우드 데이터플로우 데이터스트리밍 아파치플링크 클라우데라포럼

2020.04.24

클라우데라가 4월 28일 온라인으로 빅데이터 플랫폼의 최신 기술을 조망하는 ‘클라우데라 포럼 서울(Cloudera Forum Seoul)’을 개최한다고 밝혔다. 클라우데라는 계속되는 코로나19 확산 우려로, 참석자, 고객, 파트너, 직원들의 안전과 건강을 보호하기 위해 ‘클라우데라 포럼 서울’을 버추얼 이벤트(Virtual Event)로 변경하고, 지난해 발표된 엔터프라이즈 데이터 클라우드 ‘클라우데라 데이터 플랫폼(CDP)’을 국내에 상세히 전달하는 기회를 마련했다. 클라우데라 포럼은 서울을 비롯해 파리, 런던, 뉴욕, 시카고, 시드니, 모스크바, 뭄바이, 프랑크푸르트, 마드리드, 밀란 등 세계 20여개 주요 도시에서 열리는 컨퍼런스로, 엔터프라이즈급 보안과 거버넌스, 다기능 데이터 분석 및 탄력적인 클라우드 환경을 결합하는 엔터프라이즈 데이터 플랫폼인 ‘클라우데라 데이터 플랫폼’을 집중 조명한다. 회사에 따르면 ‘클라우데라 포럼 서울’ 온라인 세미나는 엣지부터 AI에 이르는 데이터 플랫폼과 데이터 분석 서비스에서 차별화한 ‘클라우데라 데이터 플랫폼’을, 엔터프라이즈 데이터 클라우드 전문가, 엔지니어, 에밴젤리스트의 강의와 데모, 질의응답을 통해 참가자들이 실시간 온라인 상에서 체험할 수 있도록 준비했다. 이 행사는 4월 28일 오후 2시부터 4시까지 진행되며, 클라우데라코리아 강형준 지사장의 환영 인사말로 시작한다. 행사는 총 4개 세션으로 구성됐다. 첫번째 세션은 클라우데라 조성현 상무가 엔터프라이즈 데이터 클라우드 플랫폼인 클라우데라 데이터 플랫폼(Cloudera Data Platform)의 비전과 전략을 발표한다. 상용 빅데이터 플랫폼을 선보였던 클라우데라가 데이터의 가치 실현 방법으로 제시한 ‘클라우데라 데이터 플랫폼’의 주요 기능과 데이터센터, 다양한 클라우드 환경에서의 지원 정책 등을 소개한다. 두번째 세션에서는 데이터 스트리밍 분야의 최고 전문가인 클라우데라 아태지역 필드 CTO인 앤드류 살티스를 실시간 온라인으로 만날 수 있다. ...

2020.04.24

리뷰 | 클라우드 데이터 분석 기능을 하나로, 'MS 애저 시냅스'

마이크로소프트 애저와 같은 하이퍼스케일 클라우드 서비스는 대량의 데이터를 다루도록 설계되며 스토리지 하드웨어를 구매할 때 규모의 경제를 활용한다. 또한 빙, 구글과 같은 검색 엔진과의 긴밀한 관계를 활용, 공중 인터넷 분석을 위해 개발된 알고리즘과 툴을 기반으로 서비스를 구축한다. 이와 같은 특성의 조합 덕분에 자체 데이터센터에서는 불가능한 규모로 방대한 데이터 집합을 처리해야 하는 애플리케이션을 구축하기 위한 플랫폼으로 이상적이다.   마이크로소프트는 애저 초기부터 자체 SQL 데이터베이스부터 시작해 하둡 및 기타 아파치 데이터 서비스를 위한 HD인사이트(HDInsight)를 추가하고 구조적 데이터와 비구조적 데이터를 혼합할 수 있는 대규모 데이터 레이크를 제공하는 등 다양한 데이터 및 분석 서비스를 제공해왔다. 하지만 최근까지 대부분 서비스는 독립형이었으므로 각 서비스를 결합하려면 고객 스스로 자체 툴을 구축해야 했다. 마이크로소프트는 이그나이트(Ignite) 2019에서 애저의 기존 SQL 데이터 웨어하우스에서 아키텍처와 상표를 바꾸고 아파치 스파크와 자체 스튜디오 개발 및 분석 툴에 대한 지원을 추가해 애저 시냅스(Synapse)로 출범했다.   클러스터 기반의 데이터 웨어하우스 애저 시냅스는 단순히 기존 제품의 상표를 바꾼 것 이상으로, 애저의 데이터 분석 기능 대부분을 하나의 서비스로 통합하는 데 초점을 둔다. 전통적인 데이터 웨어하우스와 달리 관계 및 비구조적 데이터의 혼합을 지원하는 동시에 기존 SQL 스킬을 사용해서 애저 SQL의 폴리베이스(PolyBase) 빅 데이터 쿼리 엔진을 기반으로 분석 모델을 만들고 테스트할 수 있게 해준다. 메모리의 열 저장소를 사용하므로 빠르고 효율적이다. 이는 클라우드 서비스 소비 모델을 사용할 때 중요한 특성이다. 시냅스가 다른 데이터 웨어하우스 제품과 구분되는 부분은 애저 SQL 하이퍼스케일 옵션에 뿌리를 두고 있다는 점이다. 하나의 컴퓨팅 노드가 모든 쿼리를 처리하는 것이 아니라, 마...

애저 데이터웨어하우스 SQL 시냅스

2019.12.13

마이크로소프트 애저와 같은 하이퍼스케일 클라우드 서비스는 대량의 데이터를 다루도록 설계되며 스토리지 하드웨어를 구매할 때 규모의 경제를 활용한다. 또한 빙, 구글과 같은 검색 엔진과의 긴밀한 관계를 활용, 공중 인터넷 분석을 위해 개발된 알고리즘과 툴을 기반으로 서비스를 구축한다. 이와 같은 특성의 조합 덕분에 자체 데이터센터에서는 불가능한 규모로 방대한 데이터 집합을 처리해야 하는 애플리케이션을 구축하기 위한 플랫폼으로 이상적이다.   마이크로소프트는 애저 초기부터 자체 SQL 데이터베이스부터 시작해 하둡 및 기타 아파치 데이터 서비스를 위한 HD인사이트(HDInsight)를 추가하고 구조적 데이터와 비구조적 데이터를 혼합할 수 있는 대규모 데이터 레이크를 제공하는 등 다양한 데이터 및 분석 서비스를 제공해왔다. 하지만 최근까지 대부분 서비스는 독립형이었으므로 각 서비스를 결합하려면 고객 스스로 자체 툴을 구축해야 했다. 마이크로소프트는 이그나이트(Ignite) 2019에서 애저의 기존 SQL 데이터 웨어하우스에서 아키텍처와 상표를 바꾸고 아파치 스파크와 자체 스튜디오 개발 및 분석 툴에 대한 지원을 추가해 애저 시냅스(Synapse)로 출범했다.   클러스터 기반의 데이터 웨어하우스 애저 시냅스는 단순히 기존 제품의 상표를 바꾼 것 이상으로, 애저의 데이터 분석 기능 대부분을 하나의 서비스로 통합하는 데 초점을 둔다. 전통적인 데이터 웨어하우스와 달리 관계 및 비구조적 데이터의 혼합을 지원하는 동시에 기존 SQL 스킬을 사용해서 애저 SQL의 폴리베이스(PolyBase) 빅 데이터 쿼리 엔진을 기반으로 분석 모델을 만들고 테스트할 수 있게 해준다. 메모리의 열 저장소를 사용하므로 빠르고 효율적이다. 이는 클라우드 서비스 소비 모델을 사용할 때 중요한 특성이다. 시냅스가 다른 데이터 웨어하우스 제품과 구분되는 부분은 애저 SQL 하이퍼스케일 옵션에 뿌리를 두고 있다는 점이다. 하나의 컴퓨팅 노드가 모든 쿼리를 처리하는 것이 아니라, 마...

2019.12.13

블로그 | 데이터 레이크, 새로운 데이터웨어하우스가 된다

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

AWS 데이터웨어하우스 데이터레이크 스노우플레이크 레이크포메이션

2019.07.03

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

2019.07.03

"실패 가능성 85%" 빅데이터 프로젝트의 문제와 해법

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다며 실패 비율이 85%에 근접한다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 본다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 구축한 기업은 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지 생각하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하지만 그건 착...

프로젝트 데이터웨어하우스 데이터레이크

2019.05.21

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다며 실패 비율이 85%에 근접한다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 본다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 구축한 기업은 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지 생각하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하지만 그건 착...

2019.05.21

“보안, DB, 컴퓨팅, 스토리지... 우리는 차원이 다른 클라우드다” AWS CEO

아마존 웹 서비스(AWS)의 CEO인 앤디 재시는 라스베이거스에서 열린 리인벤트의 기존연설에서 경쟁사보다 뛰어난 클라우드 제품의 깊이에 대해, 그리고 좀더 명시적인 솔루션을 기업에게 제공하고 있고, 오랜 명성을 가진 오라클의 제품을 추격하고 있다고 소리 높여 말했다.    재시는 라스베이거스의 샌즈 엑스포 센터에서 “매년 우리는 개발자가 원하는 것이 무엇인지 생각한다. 현재 140가지 서비스를 제공하고, 이는 단순히 지역, 가용 구역, 컴퓨팅, 스토리지 유형, 데이터베이스, 분석, 머신러닝, 메시징, 인력 서비스만을 의미하지 않는다. 이는 더욱 깊이 있는 서비스와 서비스 안의 더욱 다양한 기능을 의미한다”고 강조했다.  그러면서 그는 ‘몇 주 전에 일어난 실제 이야기’를 언급했다. AWS의 한 고위 임원이 시애틀을 떠나는 비행편에서 경쟁 업체의 임원 옆에 착석한 것이다. 그는 이들이 작업 중인 파워포인트 프레젠테이션을 볼 기회가 있었다.   재시는 “프레젠테이션 내용을 보면, 우리의 제품 전략은 AWS가 시작하는 모든 것을 관찰하면서 이를 최대한 빨리 따라 하는 것이다. 기능이나 역량이 동일한 것은 중요하지 않다. 사람들이 이를 검토할 것이고 애널리스트가 속아 넘어갈 것이다”라면서 점잖은 공격에 익숙한 커뮤니티에 이례적인 공세를 가했다.   그는 “개발자는 현혹되지 않을 것이다. 클라우드에서 이들 서비스를 시도하는 것이 매우 저렴해서 개발자가 플랫폼 깊이의 차이를 아는 데 오랜 시간이 걸리지 않을 것이다”고 덧붙였다.  여기서 재시는 보안, 데이터베이스, 컴퓨팅, 그리고 가장 중요한 스토리지에 걸쳐 장황하게 설명하며 경쟁자의 상품보다 우월한 깊이를 증명했다.  예를 들어, 데이터베이스에 관해 그는 “AWS는 11개의 관계형 및 비-관계형 데이터베이스를 확보했고, 어떤 사업자도 이보다 더 많은...

검색 다아나모DB 서버리스컴퓨팅 오로라 데이터레이크 아마존웹서비스 Re:Invent 리인벤트 레드시프트 애널리틱스 분석 기조연설 데이터웨어하우스 DB AWS 데이터베이스 CEO 오라클 데이터베이스프리덤

2018.12.03

아마존 웹 서비스(AWS)의 CEO인 앤디 재시는 라스베이거스에서 열린 리인벤트의 기존연설에서 경쟁사보다 뛰어난 클라우드 제품의 깊이에 대해, 그리고 좀더 명시적인 솔루션을 기업에게 제공하고 있고, 오랜 명성을 가진 오라클의 제품을 추격하고 있다고 소리 높여 말했다.    재시는 라스베이거스의 샌즈 엑스포 센터에서 “매년 우리는 개발자가 원하는 것이 무엇인지 생각한다. 현재 140가지 서비스를 제공하고, 이는 단순히 지역, 가용 구역, 컴퓨팅, 스토리지 유형, 데이터베이스, 분석, 머신러닝, 메시징, 인력 서비스만을 의미하지 않는다. 이는 더욱 깊이 있는 서비스와 서비스 안의 더욱 다양한 기능을 의미한다”고 강조했다.  그러면서 그는 ‘몇 주 전에 일어난 실제 이야기’를 언급했다. AWS의 한 고위 임원이 시애틀을 떠나는 비행편에서 경쟁 업체의 임원 옆에 착석한 것이다. 그는 이들이 작업 중인 파워포인트 프레젠테이션을 볼 기회가 있었다.   재시는 “프레젠테이션 내용을 보면, 우리의 제품 전략은 AWS가 시작하는 모든 것을 관찰하면서 이를 최대한 빨리 따라 하는 것이다. 기능이나 역량이 동일한 것은 중요하지 않다. 사람들이 이를 검토할 것이고 애널리스트가 속아 넘어갈 것이다”라면서 점잖은 공격에 익숙한 커뮤니티에 이례적인 공세를 가했다.   그는 “개발자는 현혹되지 않을 것이다. 클라우드에서 이들 서비스를 시도하는 것이 매우 저렴해서 개발자가 플랫폼 깊이의 차이를 아는 데 오랜 시간이 걸리지 않을 것이다”고 덧붙였다.  여기서 재시는 보안, 데이터베이스, 컴퓨팅, 그리고 가장 중요한 스토리지에 걸쳐 장황하게 설명하며 경쟁자의 상품보다 우월한 깊이를 증명했다.  예를 들어, 데이터베이스에 관해 그는 “AWS는 11개의 관계형 및 비-관계형 데이터베이스를 확보했고, 어떤 사업자도 이보다 더 많은...

2018.12.03

클라우데라-호튼웍스 합병이 빅데이터 업계에 의미하는 바는?

클라우데라-호튼웍스 합병은 엔터프라이즈급 오픈소스 데이터 솔루션으로 계속해서 수익을 수익 창출하고자 분투하는 빅데이터 업계를 놀라게 했다. 또한 이번 합병을 두고 ‘피할 수 없는 선택’이라는 시각도 일부 있다. 클라우데라와 호튼웍스은 한때 벤처캐피탈 투자에서 주목받던 ‘유니콘’이었다. 이 두 업체는 오픈소스 지원 솔루션으로 수익을 낸다는 공통점이 있다. ->클라우데라-호튼웍스, 전격 합병··· '52억 달러' 거대 데이터 기업 탄생 이번 합병에 관해 호튼웍스 CEO 롭 베어든은 "두 회사 주주들의 가치 창출을 물론이고 고객, 파트너, 직원, 오픈소스 공동체가 이 제품에 내재된 강화된 제품, 더 큰 규모 및 향상된 비용 경쟁력의 혜택을 누리게 될 것이다"라고 밝혔다. 새로운 합병 회사에서 클라우데라는 주식의 약 60%를 보유하게 되며 클라우데라의 CEO인 톰 레일리는 새로운 합병 회사의 CEO를 맡을 예정이다. 규제 및 주주 승인을 조건으로 이 합병은 2019년 1분기에 마무리될 것으로 예상된다. 재무 현황 두 회사의 재무 상태는 상당히 비슷하다. 클라우데라는 2017년에 2억 6,100만 달러의 매출을 올렸고, 2억 8,000만 달러의 영업 손실을 기록했다. 호튼웍스는 2017년에 2억 6,200만 달러의 매출을 올렸고, 1억 9,000만 달러의 영업 손실을 기록했다. 클라우데라의 IPO 과정은 인텔의 엄청난 투자 때문에 순탄하지 못했다. 인텔이 클라우데라의 20% 이상을 소유할 수 없다는 조항 때문이었다. 시킹 알파(Seeking Alpha)에 따르면 올해 초 클라우데라는 "충분한 매출을 올리지 못하는 고객에 초점을 맞춤으로써 영업 전략을 잘못 이해했다"며 "목표 시장을 벗어난 새로운 고객을 유치하는 데 주력했기 때문에 기존 고객의 확대가 부족했다"고 밝힌...

M&A 멀티 클라우드 데이터 과학 사물인터넷 호튼웍스 클라우데라 하둡 데이터웨어하우스 합병 매출 DW 빅데이터 재무 영업 손실

2018.10.10

클라우데라-호튼웍스 합병은 엔터프라이즈급 오픈소스 데이터 솔루션으로 계속해서 수익을 수익 창출하고자 분투하는 빅데이터 업계를 놀라게 했다. 또한 이번 합병을 두고 ‘피할 수 없는 선택’이라는 시각도 일부 있다. 클라우데라와 호튼웍스은 한때 벤처캐피탈 투자에서 주목받던 ‘유니콘’이었다. 이 두 업체는 오픈소스 지원 솔루션으로 수익을 낸다는 공통점이 있다. ->클라우데라-호튼웍스, 전격 합병··· '52억 달러' 거대 데이터 기업 탄생 이번 합병에 관해 호튼웍스 CEO 롭 베어든은 "두 회사 주주들의 가치 창출을 물론이고 고객, 파트너, 직원, 오픈소스 공동체가 이 제품에 내재된 강화된 제품, 더 큰 규모 및 향상된 비용 경쟁력의 혜택을 누리게 될 것이다"라고 밝혔다. 새로운 합병 회사에서 클라우데라는 주식의 약 60%를 보유하게 되며 클라우데라의 CEO인 톰 레일리는 새로운 합병 회사의 CEO를 맡을 예정이다. 규제 및 주주 승인을 조건으로 이 합병은 2019년 1분기에 마무리될 것으로 예상된다. 재무 현황 두 회사의 재무 상태는 상당히 비슷하다. 클라우데라는 2017년에 2억 6,100만 달러의 매출을 올렸고, 2억 8,000만 달러의 영업 손실을 기록했다. 호튼웍스는 2017년에 2억 6,200만 달러의 매출을 올렸고, 1억 9,000만 달러의 영업 손실을 기록했다. 클라우데라의 IPO 과정은 인텔의 엄청난 투자 때문에 순탄하지 못했다. 인텔이 클라우데라의 20% 이상을 소유할 수 없다는 조항 때문이었다. 시킹 알파(Seeking Alpha)에 따르면 올해 초 클라우데라는 "충분한 매출을 올리지 못하는 고객에 초점을 맞춤으로써 영업 전략을 잘못 이해했다"며 "목표 시장을 벗어난 새로운 고객을 유치하는 데 주력했기 때문에 기존 고객의 확대가 부족했다"고 밝힌...

2018.10.10

'좀더 유연한 빅데이터 관리 방안'··· 데이터 레이크 이해하기

빅데이터에 관한 최신 기술 소식에 촉각을 기울인다면 아마 “데이터 레이크(Data Lake)”라는 용어를 들어본 적이 있을 것이다. 데이터 호수라고 하면 큰 저수지 이미지가 떠오르는데, 실제 개념도 그 이미지와 별반 다르지 않다. 물 대신 데이터가 있을 뿐이다. 데이터 호수의 정의 데이터 호수는 방대한 양의 비구조적 데이터를 원시 네이티브 형식으로 담고 있다. 따라서 사용자는 평범한 파일 시스템을 지원하는 디바이스만 있으면 된다. 즉, 원한다면 메인프레임을 사용해도 무방하다. 데이터는 처리를 위해 다른 서버로 이동된다. 대부분의 기업은 하둡 파일 시스템(HDFS)을 선택한다. 대용량 데이터를 빠르게 처리하는 데 유리하게 설계됐고, 데이터 호수가 사용될 가능성이 높은 빅데이터 환경에서 사용되고 있기 때문이다. 네이티브 형식 데이터 지원에는 중요한 이점이 있다. 데이터 관리 소프트웨어 솔루션 업체인 세마키(Semarchy)의 마이클 히스키는 “엄청난 양의 데이터를 확보하고, 이 데이터로 무엇을 할지는 나중에 판단하려고 한다면 현재 데이터 호수의 개념과 딱 맞는 것”이라고 강조했다. 히스키는 “데이터 호수 사용자는 나중에 흥미가 발생하면 적절한 조치를 취할 수 있도록 알려진 것들과 알려지지 않은 온갖 것들을 저장해 둔다. 지금 던져 넣는 데이터에 어떤 가치가 있는지 알 수 없지만 미래에 그 데이터에 흥미가 생길 수 있기 때문”이라고 설명했다. 여러 클라우드 데이터 소스를 연결하는 ETL 서비스인 스티치(Stitch)의 CEO 제이크 스테인도 “데이터를 언제 사용하게 될지 확실치 않고 1초 미만의 액세스 시간을 확보할 필요가 없어 저렴한 형태로 저장하기를 원한다면 데이터 호수가 적절하다. 지금 데이터를 잡아두지 않으면 나중에는 그 데이터를 획득할 수 없는 경우가 많으므로 미래를 대비한다는 측면에서 중요하다”고 말했다. 데이터...

데이터웨어하우스 데이터호수 원시데이터

2018.10.05

빅데이터에 관한 최신 기술 소식에 촉각을 기울인다면 아마 “데이터 레이크(Data Lake)”라는 용어를 들어본 적이 있을 것이다. 데이터 호수라고 하면 큰 저수지 이미지가 떠오르는데, 실제 개념도 그 이미지와 별반 다르지 않다. 물 대신 데이터가 있을 뿐이다. 데이터 호수의 정의 데이터 호수는 방대한 양의 비구조적 데이터를 원시 네이티브 형식으로 담고 있다. 따라서 사용자는 평범한 파일 시스템을 지원하는 디바이스만 있으면 된다. 즉, 원한다면 메인프레임을 사용해도 무방하다. 데이터는 처리를 위해 다른 서버로 이동된다. 대부분의 기업은 하둡 파일 시스템(HDFS)을 선택한다. 대용량 데이터를 빠르게 처리하는 데 유리하게 설계됐고, 데이터 호수가 사용될 가능성이 높은 빅데이터 환경에서 사용되고 있기 때문이다. 네이티브 형식 데이터 지원에는 중요한 이점이 있다. 데이터 관리 소프트웨어 솔루션 업체인 세마키(Semarchy)의 마이클 히스키는 “엄청난 양의 데이터를 확보하고, 이 데이터로 무엇을 할지는 나중에 판단하려고 한다면 현재 데이터 호수의 개념과 딱 맞는 것”이라고 강조했다. 히스키는 “데이터 호수 사용자는 나중에 흥미가 발생하면 적절한 조치를 취할 수 있도록 알려진 것들과 알려지지 않은 온갖 것들을 저장해 둔다. 지금 던져 넣는 데이터에 어떤 가치가 있는지 알 수 없지만 미래에 그 데이터에 흥미가 생길 수 있기 때문”이라고 설명했다. 여러 클라우드 데이터 소스를 연결하는 ETL 서비스인 스티치(Stitch)의 CEO 제이크 스테인도 “데이터를 언제 사용하게 될지 확실치 않고 1초 미만의 액세스 시간을 확보할 필요가 없어 저렴한 형태로 저장하기를 원한다면 데이터 호수가 적절하다. 지금 데이터를 잡아두지 않으면 나중에는 그 데이터를 획득할 수 없는 경우가 많으므로 미래를 대비한다는 측면에서 중요하다”고 말했다. 데이터...

2018.10.05

블로그 | 데이터 분석을 클라우드로 옮기는 것이 어려운 이유

클라우드라는 새로운 플랫폼으로 데이터 웨어하우스와 데이터마트를 현대화하고자 한다면, 주의해야 한다. 생각보다 쉽지 않을 수 있다. 과거의 데이터 웨어하우스와 데이터 마트가 잘 사용되지 않았다는 것을 이해하는 것은 어렵지 않다. 이들 환경의 데이터는 보통 너무 오래 됐고, 처리하기도 성가시고 비용도 너무 많이 든다. 오늘날의 클라우드 기반 데이터 분석은 실시간으로 이런 작업을 처리할 수 있는 역량이 있으며, 데이터베이스 역시 “필요한 만큼의 속도”로 운영할 수 있다. 또한, 아무리 작은 규모의 기업이라도 데이터 분석 처리를 머신러닝이나 예측 알고리즘 같은 최신 기술과 결합해 사용할 수 있다. 이런 멋진 가능성에 찬물을 끼얹기는 싫지만, 클라우드 기반 데이터 분석으로 가는 길이 많은 기업이 생각했던 것보다 멀고 험하다는 것이 드러났다. 이런저런 실패 사례가 필자의 레이더에 걸려들기 시작했는데, IT 부서가 과도한 비용에 직면하거나 기술이 기대치를 만족하지 못하기도 하며, 단지 데이터의 규모 자체가 문제인 것으로 드러나기도 했다. 우선 데이터를 기업에서 퍼블릭 클라우드로 전송하는 것이 예상 밖의 힘든 일인데, 대부분 수작업이라는 특성이 이를 더욱 악화시킨다. AWS나 구글, 마이크로소프트 등은 이를 위한 자체 기술을 갖추고 있다. 하지만 이런 툴을 이용해도 페타바이트급 데이터를 옮기는 과정은 매우 까다롭다. 두번째, 데이터 통합은 클라우드에서는 여전히 문젯거리다. 데이터를 옮긴다고 통합이라는 과제가 저절로 해결되는 것은 아니다. 기록 시스템은 여전히 온프레미스에 남고, 그래서 이제 클라우드에 저장된 데이터를 시의적절한 방식으로 최신 결과치와 동기화해야 할 필요도 있다. 이는 신구 데이터 통합 기술을 섞어 사용해야 하고, 데이터 이전과 구조 변환을 포함한 프로세스를 마련해야 한다는 의미이다. 마지막으로 클라우드 기반 분석 데이터베이스 자체가 복잡하고 설정하기 어렵다는 점이다. 이런 복잡성 중 일부는 데이터베...

마이그레이션 온프레미스 데이터웨어하우스 데이터마트

2018.04.19

클라우드라는 새로운 플랫폼으로 데이터 웨어하우스와 데이터마트를 현대화하고자 한다면, 주의해야 한다. 생각보다 쉽지 않을 수 있다. 과거의 데이터 웨어하우스와 데이터 마트가 잘 사용되지 않았다는 것을 이해하는 것은 어렵지 않다. 이들 환경의 데이터는 보통 너무 오래 됐고, 처리하기도 성가시고 비용도 너무 많이 든다. 오늘날의 클라우드 기반 데이터 분석은 실시간으로 이런 작업을 처리할 수 있는 역량이 있으며, 데이터베이스 역시 “필요한 만큼의 속도”로 운영할 수 있다. 또한, 아무리 작은 규모의 기업이라도 데이터 분석 처리를 머신러닝이나 예측 알고리즘 같은 최신 기술과 결합해 사용할 수 있다. 이런 멋진 가능성에 찬물을 끼얹기는 싫지만, 클라우드 기반 데이터 분석으로 가는 길이 많은 기업이 생각했던 것보다 멀고 험하다는 것이 드러났다. 이런저런 실패 사례가 필자의 레이더에 걸려들기 시작했는데, IT 부서가 과도한 비용에 직면하거나 기술이 기대치를 만족하지 못하기도 하며, 단지 데이터의 규모 자체가 문제인 것으로 드러나기도 했다. 우선 데이터를 기업에서 퍼블릭 클라우드로 전송하는 것이 예상 밖의 힘든 일인데, 대부분 수작업이라는 특성이 이를 더욱 악화시킨다. AWS나 구글, 마이크로소프트 등은 이를 위한 자체 기술을 갖추고 있다. 하지만 이런 툴을 이용해도 페타바이트급 데이터를 옮기는 과정은 매우 까다롭다. 두번째, 데이터 통합은 클라우드에서는 여전히 문젯거리다. 데이터를 옮긴다고 통합이라는 과제가 저절로 해결되는 것은 아니다. 기록 시스템은 여전히 온프레미스에 남고, 그래서 이제 클라우드에 저장된 데이터를 시의적절한 방식으로 최신 결과치와 동기화해야 할 필요도 있다. 이는 신구 데이터 통합 기술을 섞어 사용해야 하고, 데이터 이전과 구조 변환을 포함한 프로세스를 마련해야 한다는 의미이다. 마지막으로 클라우드 기반 분석 데이터베이스 자체가 복잡하고 설정하기 어렵다는 점이다. 이런 복잡성 중 일부는 데이터베...

2018.04.19

원격근무에 우호적인 IT기업 10선

원격근무는 회사와 직원 모두에게 이익이다. 재택근무를 허용하거나 장려하는 회사를 찾고 있다면, 여기서 소개하는 10개 IT기업을 검색해 봐도 좋을 것이다. 원격근무는 업무 생산성을 높여주는 혜택이며, 기술 인력을 유치하고 유지하는 데 핵심적인 역할을 한다. 야후, IBM 같은 회사는 더 큰 비즈니스 및 문화적인 문제를 해결하고자 재택근무 정책을 폐지했지만, 성공적인 원격근무 정책을 수립하면 기업이 생산성을 높이고 결근을 줄이며 근속기간을 늘릴 수 있어 IT업계에서 환영받고 있다. 지난 4년 동안 시간제근무자, 재택근무자, 프리랜서를 포함한 모든 종류의 유연한 구인정보를 제공해 온 플젝스잡스(FlexJobs)는 2017년에 재택근무, 원격근무, 업무분산 기회를 제공하는 상위 100대 기업의 목록을 작성했다. 이 목록은 플렉스잡스의 데이터베이스에서 총 4만 7,000개의 회사 중 가장 많은 원격근무직을 찾는 기업으로 구성돼 있다. 여기에는 시간제근무와 전일제 재택근무자 모두를 포함한다. IT업계에서 재택근무를 전일제나 시간제로 할 수 있는 일자리를 찾고 있다면 2017년에 플렉스잡스의 원격근무 일자리 100대 기업 중 상위 10개 기업 목록이 도움이 될 것이다. 10. 앱프리오(Appirio) 앱프리오는 IT아웃소싱 및 서비스 업체인 위프로(Wipro)의 자회사로 고객이 클라우드 기술을 사용하여 첨단 고객경험을 창출할 수 있도록 지원한다. 현재 구인 중인 원격근무직은 마케팅 클라우드 플랫폼 아키텍트, 아마존 웹 서비스(AWS) 클라우드 아키텍트, 모바일 디지털 개발 리드가 있다. 9. VM웨어 1998년에 설립돼 델의 자회사로 편입된 VM웨어는 전세계 50개국 이상 현지 법인을 두고 있으며 1만 3,000명 이상의 직원을 고용하고 있다. 이 회사는 가상화 기술로 이름을 알렸지만 이후 클라우드 소프트웨어와 관련 서비스로 확장하고 있다. 현재 구인 중인 원격근무직은 최종 사용자 컴퓨팅(EUC) 전문가, EUC 시스템 엔지니어...

CRM 아키텍트 데이터웨어하우스 하둡 문화 인튜이트 아마존 웹 서비스 소프트웨어 엔지니어 데브옵스 인디드닷컴 앱프리오 플렉스잡스 IT프로스 제록스 재택근무 CIO SAP 세일즈포스 원격근무 빅데이터 생산성 IBM DW 야후 AWS 위프로 컨버지스

2017.10.30

원격근무는 회사와 직원 모두에게 이익이다. 재택근무를 허용하거나 장려하는 회사를 찾고 있다면, 여기서 소개하는 10개 IT기업을 검색해 봐도 좋을 것이다. 원격근무는 업무 생산성을 높여주는 혜택이며, 기술 인력을 유치하고 유지하는 데 핵심적인 역할을 한다. 야후, IBM 같은 회사는 더 큰 비즈니스 및 문화적인 문제를 해결하고자 재택근무 정책을 폐지했지만, 성공적인 원격근무 정책을 수립하면 기업이 생산성을 높이고 결근을 줄이며 근속기간을 늘릴 수 있어 IT업계에서 환영받고 있다. 지난 4년 동안 시간제근무자, 재택근무자, 프리랜서를 포함한 모든 종류의 유연한 구인정보를 제공해 온 플젝스잡스(FlexJobs)는 2017년에 재택근무, 원격근무, 업무분산 기회를 제공하는 상위 100대 기업의 목록을 작성했다. 이 목록은 플렉스잡스의 데이터베이스에서 총 4만 7,000개의 회사 중 가장 많은 원격근무직을 찾는 기업으로 구성돼 있다. 여기에는 시간제근무와 전일제 재택근무자 모두를 포함한다. IT업계에서 재택근무를 전일제나 시간제로 할 수 있는 일자리를 찾고 있다면 2017년에 플렉스잡스의 원격근무 일자리 100대 기업 중 상위 10개 기업 목록이 도움이 될 것이다. 10. 앱프리오(Appirio) 앱프리오는 IT아웃소싱 및 서비스 업체인 위프로(Wipro)의 자회사로 고객이 클라우드 기술을 사용하여 첨단 고객경험을 창출할 수 있도록 지원한다. 현재 구인 중인 원격근무직은 마케팅 클라우드 플랫폼 아키텍트, 아마존 웹 서비스(AWS) 클라우드 아키텍트, 모바일 디지털 개발 리드가 있다. 9. VM웨어 1998년에 설립돼 델의 자회사로 편입된 VM웨어는 전세계 50개국 이상 현지 법인을 두고 있으며 1만 3,000명 이상의 직원을 고용하고 있다. 이 회사는 가상화 기술로 이름을 알렸지만 이후 클라우드 소프트웨어와 관련 서비스로 확장하고 있다. 현재 구인 중인 원격근무직은 최종 사용자 컴퓨팅(EUC) 전문가, EUC 시스템 엔지니어...

2017.10.30

마이크론은 어떻게 수요 예측 정확도를 15% 높였나

오늘날 기업 대부분은 마치 석유처럼 솟아나는 데이터의 바다에 빠져 허우적대고 있다. 그러나 미국 아이다호 주 보이시에 있는 반도체 기업 마이크론 테크놀로지(Micron Technology)는 예외다. 이 기업은 전문가가 일명 '미래의 공장(the factory of the future)'이라고 부르는 초기 모델을 만드는 데 성공했다. 제품에 대한 데이터뿐만 아니라 생산 설비에 대한 데이터를 분석하는 소프트웨어를 이용해 거의 모든 공정을 자동화한 것이다. 마이크론이 이를 실현한 비결은 중앙 집중화된 데이터 관리 전략과 머신러닝 소프트웨어를 결합한 것이다. 그 결과 비효율적인 공정으로 인한 낭비는 줄이고 누적 수율을 개선했으며 신제품 출시 속도를 높였다. 마이크론 CIO 트레버 슐즈는 “생산 현장의 설비와 공급망 등 다양한 곳에서 엄청난 데이터가 나온다. 이를 분석해 예측과 의사결정에 반영하면 경쟁 우위를 확보할 수 있다고 생각했다"고 말했다. 최근 나온 맥킨지 글로벌 연구소(McKinsey Global Institute) 보고서를 보면, 매출과 수익을 증대시킬 수 있는 가치 있는 데이터가 늘어나고 있는 반면 이를 제대로 활용하는 기업 비율은 여전히 형편없다는 상황이다. 이 조사는 기업 임원 500인을 대상으로 했는데, 데이터 및 분석 계획 관련 목표 달성과 관련한 질문에 85%가 “일부 효과적”이라며 소극적으로 평가했다. 이런 상황에서 마이크론은 어떻게 성과를 낸 것일까? 올바른 '데이터 문화' 만들기 슐즈가 마이크론에 합류한 것은 지난 2015년이다. 당시 사내에는 다양한 빅데이터 분석 프로젝트가 있었지만 정비되지 않은 많은 양의 데이터를 처리할 제대로 된 체계가 없었다. 상황이 이렇다 보니 제조업체의 핵심 경쟁력인 '자본 자산 활용도'를 높이기 위해 데이터 과학과 머신러닝을 활용하는 것도 요원했다. 더구나 당시 마이크론은 데이터를 활용할 수 있는...

CIO 마이크론 데이터웨어하우스 머신러닝 수요예측

2017.06.28

오늘날 기업 대부분은 마치 석유처럼 솟아나는 데이터의 바다에 빠져 허우적대고 있다. 그러나 미국 아이다호 주 보이시에 있는 반도체 기업 마이크론 테크놀로지(Micron Technology)는 예외다. 이 기업은 전문가가 일명 '미래의 공장(the factory of the future)'이라고 부르는 초기 모델을 만드는 데 성공했다. 제품에 대한 데이터뿐만 아니라 생산 설비에 대한 데이터를 분석하는 소프트웨어를 이용해 거의 모든 공정을 자동화한 것이다. 마이크론이 이를 실현한 비결은 중앙 집중화된 데이터 관리 전략과 머신러닝 소프트웨어를 결합한 것이다. 그 결과 비효율적인 공정으로 인한 낭비는 줄이고 누적 수율을 개선했으며 신제품 출시 속도를 높였다. 마이크론 CIO 트레버 슐즈는 “생산 현장의 설비와 공급망 등 다양한 곳에서 엄청난 데이터가 나온다. 이를 분석해 예측과 의사결정에 반영하면 경쟁 우위를 확보할 수 있다고 생각했다"고 말했다. 최근 나온 맥킨지 글로벌 연구소(McKinsey Global Institute) 보고서를 보면, 매출과 수익을 증대시킬 수 있는 가치 있는 데이터가 늘어나고 있는 반면 이를 제대로 활용하는 기업 비율은 여전히 형편없다는 상황이다. 이 조사는 기업 임원 500인을 대상으로 했는데, 데이터 및 분석 계획 관련 목표 달성과 관련한 질문에 85%가 “일부 효과적”이라며 소극적으로 평가했다. 이런 상황에서 마이크론은 어떻게 성과를 낸 것일까? 올바른 '데이터 문화' 만들기 슐즈가 마이크론에 합류한 것은 지난 2015년이다. 당시 사내에는 다양한 빅데이터 분석 프로젝트가 있었지만 정비되지 않은 많은 양의 데이터를 처리할 제대로 된 체계가 없었다. 상황이 이렇다 보니 제조업체의 핵심 경쟁력인 '자본 자산 활용도'를 높이기 위해 데이터 과학과 머신러닝을 활용하는 것도 요원했다. 더구나 당시 마이크론은 데이터를 활용할 수 있는...

2017.06.28

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31