Offcanvas

������������������

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

데이터브릭스 데이터 통합 플랫폼 데이터 파이프라인 ETL 데이터레이크 데이터 웨어하우스

2022.04.08

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

2022.04.08

효성인포메이션시스템, 데이터 레이크 시장 공략 강화··· "기업들 데이터 혁신 지원"

효성인포메이션시스템은 오브젝트 스토리지 및 초고성능 파일 스토리지 솔루션 ‘HCSF(Hitachi Content Software for File)’를 활용해 데이터 레이크(Data Lake) 시장을 적극 공략한다고 27일 밝혔다. 이를 통해 대용량 데이터를 보유하고 데이터 기반 의사 결정으로 디지털 트랜스포메이션을 추진하는 기업들의 데이터 혁신을 지원할 계획이다. 효성인포메이션시스템은 국내 대형 제조기업의 ‘데이터 분석 플랫폼 구축 프로젝트’를 진행 중이다. 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축하고, 대용량 데이터 증가시 선형적으로 확장 가능한 아키텍처 설계, 고성능 데이터 자동 티어링을 통해 IT 비용 절감까지 기대된다고 업체 측은 설명했다. 이 프로젝트에는 효성인포메이션시스템이 올해 공개한 HCSF가 도입됐다. HCSF는 고성능 병렬 파일 시스템과 오브젝트 스토리지가 통합된 초고성능 파일 스토리지 솔루션으로, HPC(High-Performance Computing), AI/ML 분석, GPU 가속화 워크로드 최적 환경을 제공한다고 회사 측은 전했다. HCSF는 오브젝트 스토리지의 가용량과 클라우드 기능을 갖춘 분산 파일시스템 속도를 제공하며, 파일과 오브젝트 프로토콜이 지원되어 데이터 수집이 용이하다. 또한 정책기반 티어링 파일 시스템 운영으로 각 티어별 데이터 관리와 모니터링을 지원하고, 비용 효율적인 데이터 관리가 가능하다. 특히 POSIX, SMB, S3, CSI(Container Storage Interface) 및 엔비디아 GDS(GPUDirect Storage) 지원으로 모든 프로토콜 간 완전한 데이터 공유가 가능하다. HCSF는 검증된 초고성능 병렬 파일시스템(WekaFS)을 탑재하고 있으며, 굵직한 글로벌 구축 사례들을 확보했다. 한 글로벌 카드사는 HCSF를 도입해 실시간 부정거래 방지 시스템, 고성능 데이터 보호 등 새로운 분석 워크로드를 위한 고성능 스토리지로 활용하고 있다. 신약 개발, ...

효성인포메이션시스템 스토리지 데이터레이크

2021.10.27

효성인포메이션시스템은 오브젝트 스토리지 및 초고성능 파일 스토리지 솔루션 ‘HCSF(Hitachi Content Software for File)’를 활용해 데이터 레이크(Data Lake) 시장을 적극 공략한다고 27일 밝혔다. 이를 통해 대용량 데이터를 보유하고 데이터 기반 의사 결정으로 디지털 트랜스포메이션을 추진하는 기업들의 데이터 혁신을 지원할 계획이다. 효성인포메이션시스템은 국내 대형 제조기업의 ‘데이터 분석 플랫폼 구축 프로젝트’를 진행 중이다. 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축하고, 대용량 데이터 증가시 선형적으로 확장 가능한 아키텍처 설계, 고성능 데이터 자동 티어링을 통해 IT 비용 절감까지 기대된다고 업체 측은 설명했다. 이 프로젝트에는 효성인포메이션시스템이 올해 공개한 HCSF가 도입됐다. HCSF는 고성능 병렬 파일 시스템과 오브젝트 스토리지가 통합된 초고성능 파일 스토리지 솔루션으로, HPC(High-Performance Computing), AI/ML 분석, GPU 가속화 워크로드 최적 환경을 제공한다고 회사 측은 전했다. HCSF는 오브젝트 스토리지의 가용량과 클라우드 기능을 갖춘 분산 파일시스템 속도를 제공하며, 파일과 오브젝트 프로토콜이 지원되어 데이터 수집이 용이하다. 또한 정책기반 티어링 파일 시스템 운영으로 각 티어별 데이터 관리와 모니터링을 지원하고, 비용 효율적인 데이터 관리가 가능하다. 특히 POSIX, SMB, S3, CSI(Container Storage Interface) 및 엔비디아 GDS(GPUDirect Storage) 지원으로 모든 프로토콜 간 완전한 데이터 공유가 가능하다. HCSF는 검증된 초고성능 병렬 파일시스템(WekaFS)을 탑재하고 있으며, 굵직한 글로벌 구축 사례들을 확보했다. 한 글로벌 카드사는 HCSF를 도입해 실시간 부정거래 방지 시스템, 고성능 데이터 보호 등 새로운 분석 워크로드를 위한 고성능 스토리지로 활용하고 있다. 신약 개발, ...

2021.10.27

블로그 | 데이터베이스는 잊어라, 이제 필요한 것은 '데이터 플랫폼'

마크 포터의 이력은 흥미롭다. 포터는 AWS의 RDS(Relational Database Service)와 오로라(Aurora)를 운영한 적이 있으며, 그 이전에는 오라클에서 10년 이상을 근무하고, 이제는 몽고DB에서 일하고 있다. 데이터베이스 선구자격인 기업 3곳을 거친 포터는 데이터베이스 환경의 진화를 이야기할 수 있는 흥미로운 위치에 있다. 포터는 “백 오피스와 프론트 오피스 간의 분열이 해소되고 있다”고 관찰한다. 즉, 한때 명확하게 분리됐던 기록 시스템과 참여(engagement) 시스템이 통합되고 있다는 것이다. 정말 그렇다면 포터의 관찰이 데이터 전략 현대화에 전념하는 기업에는 어떤 의미가 있을까? 포터는 기업이 “데이터베이스 이상을 생각하고, 모든 관련 데이터 세트에서 실시간으로 데이터를 처리, 저장, 보호, 분석할 수 있는 ‘진짜 데이터 플랫폼’을 설계”해야 할 시점이라고 주장한다. 동시에 데이터 웨어하우스와 데이터 레이크를 새롭게 재구상하는 방법이 될 수도 있지 않을까?   데이터 시스템이 던지는 질문 오랫동안 데이터는 정말 각양각색으로 존재했다. 백 오피스 시스템은 행과 열에 잘 맞는 정형화된 데이터에 의존했다. 이러한 관계형 데이터베이스는 당시 놀라운 혁신이었으며, 지금까지도 기업에 많은 기여를 하고 있다. 하지만 필자는 과거 다음과 같은 주장을 했다. “편리하게 정형화된 관계형 데이터베이스의 세계는 산더미 같은 비정형, 반정형 데이터로 인해 점점 복잡해진다. 새로운 데이터 대다수는 지난 수십 년 동안 (ERP와 CRM 시스템 등)기록 시스템을 밑바탕으로 구축되었지만, 제프리 무어가 말한 참여 시스템으로 만들어진다.” 포터는 세 번째 유형으로 ‘인사이트 시스템(Systems of Insight)’을 추가했다. 포터는 다음과 같이 설명한다. “수십년 동안 기업은 기록 시스템과 참여 시스템을 유지해왔다. 기록 시스템은 주로 내부 프로그램과 사용자가 액세스하는 미션 크리티컬한 기본 정보 소스이고, 참여 시스템은 고객과 직원이...

데이터레이크

2021.03.18

마크 포터의 이력은 흥미롭다. 포터는 AWS의 RDS(Relational Database Service)와 오로라(Aurora)를 운영한 적이 있으며, 그 이전에는 오라클에서 10년 이상을 근무하고, 이제는 몽고DB에서 일하고 있다. 데이터베이스 선구자격인 기업 3곳을 거친 포터는 데이터베이스 환경의 진화를 이야기할 수 있는 흥미로운 위치에 있다. 포터는 “백 오피스와 프론트 오피스 간의 분열이 해소되고 있다”고 관찰한다. 즉, 한때 명확하게 분리됐던 기록 시스템과 참여(engagement) 시스템이 통합되고 있다는 것이다. 정말 그렇다면 포터의 관찰이 데이터 전략 현대화에 전념하는 기업에는 어떤 의미가 있을까? 포터는 기업이 “데이터베이스 이상을 생각하고, 모든 관련 데이터 세트에서 실시간으로 데이터를 처리, 저장, 보호, 분석할 수 있는 ‘진짜 데이터 플랫폼’을 설계”해야 할 시점이라고 주장한다. 동시에 데이터 웨어하우스와 데이터 레이크를 새롭게 재구상하는 방법이 될 수도 있지 않을까?   데이터 시스템이 던지는 질문 오랫동안 데이터는 정말 각양각색으로 존재했다. 백 오피스 시스템은 행과 열에 잘 맞는 정형화된 데이터에 의존했다. 이러한 관계형 데이터베이스는 당시 놀라운 혁신이었으며, 지금까지도 기업에 많은 기여를 하고 있다. 하지만 필자는 과거 다음과 같은 주장을 했다. “편리하게 정형화된 관계형 데이터베이스의 세계는 산더미 같은 비정형, 반정형 데이터로 인해 점점 복잡해진다. 새로운 데이터 대다수는 지난 수십 년 동안 (ERP와 CRM 시스템 등)기록 시스템을 밑바탕으로 구축되었지만, 제프리 무어가 말한 참여 시스템으로 만들어진다.” 포터는 세 번째 유형으로 ‘인사이트 시스템(Systems of Insight)’을 추가했다. 포터는 다음과 같이 설명한다. “수십년 동안 기업은 기록 시스템과 참여 시스템을 유지해왔다. 기록 시스템은 주로 내부 프로그램과 사용자가 액세스하는 미션 크리티컬한 기본 정보 소스이고, 참여 시스템은 고객과 직원이...

2021.03.18

칼럼ㅣ쿠버네티스와 클라우드 이식성은 ‘사람’에 관한 것이다

‘쿠버네티스(Kubernetes)’가 마법처럼 애플리케이션을 이식해주리라 기대한다면 오산이다. 쿠버네티스는 그렇진 않다. 그러나 더 나은 역량을 제공하는 건 분명하다.  쿠버네티스가 멀티클라우드 전략의 성공 비결이라고 들었는가? 쿠버네티스가 데이터센터에서 실행되든 또는 퍼블릭 클라우드에서 실행되든 상관없이 여러 클라우드 간에 애플리케이션을 원활하게 이식해준다고 믿었는가? 그렇다면 안타깝게 됐다. 물론 믿은 게 잘못은 아니다. 벤더들이 ‘이식성’과 ‘쿠버네티스’에 관해 온갖 종류의 마법을 약속해왔기 때문이다.    가트너 애널리스트 마르코 마이나르디도 애플리케이션 이식성을 위해 쿠버네티스를 채택하는 것이 좋은 생각이 아니라고 지적했다. 그에 따르면 ‘기업이 애플리케이션을 이식할 수 있도록 쿠버네티스를 사용해야 하는가?’라는 질문에 대한 대답은 바로 ‘아니요’다.  애플리케이션을 이식하는 데 쿠버네티스를 사용할 수 없다는 것은 아니다. 사용할 수 있다. 그러나 ‘이식성’의 본질은 일반적으로 생각되는 방식과 다르다. 그렇다면, 기업은 쿠버네티스 기반 이식성을 어떻게 생각해야 할까?  여기서 거기까지 갈 수 없다 먼저, 멀티클라우드에 관한 모든 아이디어가 잘못됐을 수 있다. 물론 편견일지도 모르겠다(현재 필자는 AWS에서 일하고 있다). 그러나 필자는 멀티클라우드, 마법 같은 애플리케이션 이식성에 대한 편견은 잘못된 생각에서 비롯됐다고 진단하고 싶다.  AWS에 합류하기 훨씬 더 이전에, 필자는 “벤더들이 멀티클라우드로 허풍을 떨면서 거금을 벌고 있다. 반면에 고객은 최소한의 공통분모 기능만 사용할 수 있는 클라우드 전략과 엄청난 비용에 발이 묶이고 있다”라고 기술한 바 있다.  클라우드 비용 절감을 지원하는 덕빌 그룹(Duckbill Group)의 CEO 코리 퀸도 여러 이유로 멀티클라우드가 ‘최악의 관행(the worst practice)’이라고 주장하면서 다음과 같이 말했다.  ...

클라우드 애플리케이션 이식성 쿠버네티스 멀티클라우드 가트너 데이터레이크 워크로드 서버리스 네이티브 클라우드

2020.09.15

‘쿠버네티스(Kubernetes)’가 마법처럼 애플리케이션을 이식해주리라 기대한다면 오산이다. 쿠버네티스는 그렇진 않다. 그러나 더 나은 역량을 제공하는 건 분명하다.  쿠버네티스가 멀티클라우드 전략의 성공 비결이라고 들었는가? 쿠버네티스가 데이터센터에서 실행되든 또는 퍼블릭 클라우드에서 실행되든 상관없이 여러 클라우드 간에 애플리케이션을 원활하게 이식해준다고 믿었는가? 그렇다면 안타깝게 됐다. 물론 믿은 게 잘못은 아니다. 벤더들이 ‘이식성’과 ‘쿠버네티스’에 관해 온갖 종류의 마법을 약속해왔기 때문이다.    가트너 애널리스트 마르코 마이나르디도 애플리케이션 이식성을 위해 쿠버네티스를 채택하는 것이 좋은 생각이 아니라고 지적했다. 그에 따르면 ‘기업이 애플리케이션을 이식할 수 있도록 쿠버네티스를 사용해야 하는가?’라는 질문에 대한 대답은 바로 ‘아니요’다.  애플리케이션을 이식하는 데 쿠버네티스를 사용할 수 없다는 것은 아니다. 사용할 수 있다. 그러나 ‘이식성’의 본질은 일반적으로 생각되는 방식과 다르다. 그렇다면, 기업은 쿠버네티스 기반 이식성을 어떻게 생각해야 할까?  여기서 거기까지 갈 수 없다 먼저, 멀티클라우드에 관한 모든 아이디어가 잘못됐을 수 있다. 물론 편견일지도 모르겠다(현재 필자는 AWS에서 일하고 있다). 그러나 필자는 멀티클라우드, 마법 같은 애플리케이션 이식성에 대한 편견은 잘못된 생각에서 비롯됐다고 진단하고 싶다.  AWS에 합류하기 훨씬 더 이전에, 필자는 “벤더들이 멀티클라우드로 허풍을 떨면서 거금을 벌고 있다. 반면에 고객은 최소한의 공통분모 기능만 사용할 수 있는 클라우드 전략과 엄청난 비용에 발이 묶이고 있다”라고 기술한 바 있다.  클라우드 비용 절감을 지원하는 덕빌 그룹(Duckbill Group)의 CEO 코리 퀸도 여러 이유로 멀티클라우드가 ‘최악의 관행(the worst practice)’이라고 주장하면서 다음과 같이 말했다.  ...

2020.09.15

"비즈니스 가치 입증이 핵심"··· 美 엔진 제조사의 디지털 변혁 사례 

230억 달러 규모의 엔진 제조사 커민스(Cummins)의 CIO 셰리 아홀름이 대규모 변화를 끌어내기 위한 전략을 공유했다.  ‘커민스(Cummins)’는 모든 것이 거대하다. 포춘 500대 기업인 커민스는 대형 차량용 엔진을 제조하고 있다. 전 세계적으로 6만 3,000명의 직원이 있으며, 작년 약 230억 달러의 매출을 기록했다.  ‘디지털 기술’이 커민스 제품에 적용되면서 이 거대한 기업의 많은 부분이 모두 함께 변화하고 있다. 여기에는 제품 엔지니어링과 연계된 IT의 역할, 새 디지털 제품을 다루는 영업팀의 접근방식, 데이터를 중심으로 한 경영진의 마인드셋 등이 포함된다.  커민스 CIO 셰리 아홀름에 따르면 대규모 변화를 주도하는 그의 접근방식은 비즈니스 가치를 입증하는 것, 그리고 인내심을 가지는 것에 중점을 두고 있다.    Q: 커민스에게 ‘디지털 전략’이 갖는 의미는? A: 커민스의 디지털 전략은 두 가지 요소로 나뉜다. 첫 번째는 핵심 인프라다. 우리는 물리적인 문서와 프로세스를 디지털화하고, 클라우드로 이전하고 있다. 현장 서비스 운영이 한 사례다.  예를 들어 기관차 또는 광산에서 사용하는 덤프트럭에 넣는 엔진을 포함해 커민스 제품 다수는 현장 서비스 기술자가 필요하다. 공장에서 정비하기에는 너무 크기 때문이다.  전통적으로, 기술자들은 현장에 나가기 전에 문서를 통해 안전성을 점검했다. 현재 이 과정은 디지털로 이뤄진다. 기술자들은 사진과 코멘트를 통해 현장에서 실제로 보고 있는 것을 캡처할 수 있다. 그리고 이미지 분석을 사용해 전 세계 지역 사무소에 있는 팀 리더들에게 실시간 보고서를 제공하고, 여러 현장에 걸쳐 안전 문제가 있는지 확인한다.  또한 여러 현장의 다른 기술자들에게 얻은 안전 관련 데이터를 바탕으로 안전장비 권고사항을 제공한다. 이는 ‘연필을 드는 것(pencil lifting)’처럼 단순 반복 업무를 자동화하는 것이 아니다. 실제로...

커민스 제조사 빅데이터 데이터 애널리틱스 데이터레이크 비즈니스 가치 클라우드 디지털 변혁 디지털 트랜스포메이션 데브옵스 프라이버시

2020.08.07

230억 달러 규모의 엔진 제조사 커민스(Cummins)의 CIO 셰리 아홀름이 대규모 변화를 끌어내기 위한 전략을 공유했다.  ‘커민스(Cummins)’는 모든 것이 거대하다. 포춘 500대 기업인 커민스는 대형 차량용 엔진을 제조하고 있다. 전 세계적으로 6만 3,000명의 직원이 있으며, 작년 약 230억 달러의 매출을 기록했다.  ‘디지털 기술’이 커민스 제품에 적용되면서 이 거대한 기업의 많은 부분이 모두 함께 변화하고 있다. 여기에는 제품 엔지니어링과 연계된 IT의 역할, 새 디지털 제품을 다루는 영업팀의 접근방식, 데이터를 중심으로 한 경영진의 마인드셋 등이 포함된다.  커민스 CIO 셰리 아홀름에 따르면 대규모 변화를 주도하는 그의 접근방식은 비즈니스 가치를 입증하는 것, 그리고 인내심을 가지는 것에 중점을 두고 있다.    Q: 커민스에게 ‘디지털 전략’이 갖는 의미는? A: 커민스의 디지털 전략은 두 가지 요소로 나뉜다. 첫 번째는 핵심 인프라다. 우리는 물리적인 문서와 프로세스를 디지털화하고, 클라우드로 이전하고 있다. 현장 서비스 운영이 한 사례다.  예를 들어 기관차 또는 광산에서 사용하는 덤프트럭에 넣는 엔진을 포함해 커민스 제품 다수는 현장 서비스 기술자가 필요하다. 공장에서 정비하기에는 너무 크기 때문이다.  전통적으로, 기술자들은 현장에 나가기 전에 문서를 통해 안전성을 점검했다. 현재 이 과정은 디지털로 이뤄진다. 기술자들은 사진과 코멘트를 통해 현장에서 실제로 보고 있는 것을 캡처할 수 있다. 그리고 이미지 분석을 사용해 전 세계 지역 사무소에 있는 팀 리더들에게 실시간 보고서를 제공하고, 여러 현장에 걸쳐 안전 문제가 있는지 확인한다.  또한 여러 현장의 다른 기술자들에게 얻은 안전 관련 데이터를 바탕으로 안전장비 권고사항을 제공한다. 이는 ‘연필을 드는 것(pencil lifting)’처럼 단순 반복 업무를 자동화하는 것이 아니다. 실제로...

2020.08.07

심리·통계·파이썬··· '융합' 역량 갖춘 9년차 머신러닝 전문가 이야기

머신러닝은 현재 IT 업계에서 가장 수요가 많은 기술이다. 개인화 소프트웨어 및 서비스 제공업체 세일쓰루(Sailthru)의 수석 머신러닝 엔지니어 카일 햄린과 머신러닝 경력에 관해 이야기를 나눴다. 인공지능의 하위개념이자 패턴과 추론을 통해 시스템이 특정 작업을 수행하도록 하는 통계학적 모델 및 알고리즘인 머신러닝은 오늘날 기술 구직 시장에서 가장 수요가 많은 기술에 속한다.  머신러닝 엔지니어라는 직업 전망이 밝은 것은 어쩌면 너무나도 당연한 일이다. 온라인 교육 플랫폼 스터디닷컴(Study.com)에 따르면, 머신러닝 엔지니어는 습득한 지식을 응용해 시스템과 기계를 개발할 수 있는 고급 전문가다. 머신러닝 엔지니어의 주요 업무는 기계가 특정 작업을 수행하도록 프로그래밍하는 차원을 넘어서 구체적인 지시를 내리지 않아도 알아서 행동하게 하는 프로그램을 만드는 것이라고 스터디닷컴은 설명했다.  예를 들면 자율주행차나 특정 개인의 관심사를 파악할 수 있는 프로그램을 개발하는 것 등이 머신러닝 엔지니어의 업무에 포함된다. 스터디닷컴은 “맞춤형 뉴스 피드부터 맞춤형 웹 검색에 이르기까지 머신러닝 엔지니어는 수많은 개인들의 일상생활과 기술 사용 방식에 일조하고 있다”라고 말했다.    머신러닝 엔지니어가 갖춰야 할 직무 역량에는 컴퓨터 프로그래밍(C++ 또는 자바와 같은 특정 언어에 대한 지식 포함), 수학, 데이터 애널리틱스, 데이터 마이닝, 클라우드 애플리케이션 지식, 원활한 의사소통 능력 등이 있다. 링크드인 선정 2019년 가장 유망한 직업 순위(Most Promising Jobs listing for 2019)에 따르면 머신러닝 엔지니어는 15위를 차지했다. 해당 순위는 링크드인 회원 정보와 채용 및 연봉 데이터를 바탕으로 연봉, 구인 건수, 전년 대비 구인 건수 증가율 등을 분석한 결과다.  이밖에 구인구직 사이트 인디드(Indeed)에 따르면, 2018년과 2019년 사이 직무 설명에 ‘A...

빅데이터 데이터엔지니어링 데이터애널리틱스 데이터레이크 데이터과학 딥러닝 머신러닝 파이썬 자동화 인공지능 사이버보안 데이터웨어하우스 머신러닝엔지니어

2020.04.29

머신러닝은 현재 IT 업계에서 가장 수요가 많은 기술이다. 개인화 소프트웨어 및 서비스 제공업체 세일쓰루(Sailthru)의 수석 머신러닝 엔지니어 카일 햄린과 머신러닝 경력에 관해 이야기를 나눴다. 인공지능의 하위개념이자 패턴과 추론을 통해 시스템이 특정 작업을 수행하도록 하는 통계학적 모델 및 알고리즘인 머신러닝은 오늘날 기술 구직 시장에서 가장 수요가 많은 기술에 속한다.  머신러닝 엔지니어라는 직업 전망이 밝은 것은 어쩌면 너무나도 당연한 일이다. 온라인 교육 플랫폼 스터디닷컴(Study.com)에 따르면, 머신러닝 엔지니어는 습득한 지식을 응용해 시스템과 기계를 개발할 수 있는 고급 전문가다. 머신러닝 엔지니어의 주요 업무는 기계가 특정 작업을 수행하도록 프로그래밍하는 차원을 넘어서 구체적인 지시를 내리지 않아도 알아서 행동하게 하는 프로그램을 만드는 것이라고 스터디닷컴은 설명했다.  예를 들면 자율주행차나 특정 개인의 관심사를 파악할 수 있는 프로그램을 개발하는 것 등이 머신러닝 엔지니어의 업무에 포함된다. 스터디닷컴은 “맞춤형 뉴스 피드부터 맞춤형 웹 검색에 이르기까지 머신러닝 엔지니어는 수많은 개인들의 일상생활과 기술 사용 방식에 일조하고 있다”라고 말했다.    머신러닝 엔지니어가 갖춰야 할 직무 역량에는 컴퓨터 프로그래밍(C++ 또는 자바와 같은 특정 언어에 대한 지식 포함), 수학, 데이터 애널리틱스, 데이터 마이닝, 클라우드 애플리케이션 지식, 원활한 의사소통 능력 등이 있다. 링크드인 선정 2019년 가장 유망한 직업 순위(Most Promising Jobs listing for 2019)에 따르면 머신러닝 엔지니어는 15위를 차지했다. 해당 순위는 링크드인 회원 정보와 채용 및 연봉 데이터를 바탕으로 연봉, 구인 건수, 전년 대비 구인 건수 증가율 등을 분석한 결과다.  이밖에 구인구직 사이트 인디드(Indeed)에 따르면, 2018년과 2019년 사이 직무 설명에 ‘A...

2020.04.29

우리 회사 데이터 레이크는 얼마나 개방적인가?

데이터 레이크는 변환된, 신뢰할 수 있는 데이터 집합과 함께 원시 형식의 데이터를 저장하고, 데이터 탐색과 인터랙티브 분석, 머신러닝과 같은 다양한 분석 작업을 위해 이 데이터에 대한 프로그램식 액세스와 SQL 기반 액세스를 모두 제공하는 시스템 또는 리포지토리다. 데이터 레이크에 저장되는 데이터에는 관계형 데이터베이스의 구조적 데이터(열과 행), 반구조적 데이터(CSV, 로그, XML, JSON), 비구조적 데이터(이메일, 문서, PDF), 바이너리 데이터(이미지, 오디오, 비디오)가 포함된다.   데이터 레이크의 과제는 사유 형식이나 시스템에 종속되지 않는 것이다. 종속은 다른 용도를 위해 데이터를 시스템 안팎으로 이동하거나 다른 툴을 사용해 데이터를 처리하는 역량을 제약하고, 데이터 레이크를 단일 클라우드 환경에 묶을 수도 있다. 따라서 기업은 데이터를 개방 형식으로 저장하고 개방형 표준 기반 인터페이스를 통해 액세스할 수 있는 개방형 데이터 레이크를 구축하도록 노력해야 한다. 데이터 저장, 데이터 관리, 데이터 처리, 운영, 데이터 액세스, 거버넌스, 보안을 포함한 시스템의 모든 측면에서 개방형 원칙을 고수해야 한다.   개방 형식은 개방형 표준을 기반으로 해서 특정 벤더의 사유 확장 없이 공개 커뮤니티 중심의 프로세스를 통해 개발되고 공유되는 형식이다. 예를 들어 개방형 데이터 형식은 ORC나 파케이(Parquet)과 같이 사양이 커뮤니티에 게시되어 어느 조직에서나 해당 형식으로 된 데이터를 읽는 툴과 애플리케이션을 만들 수 있는, 플랫폼 독립적이고 기계가 읽을 수 있는 데이터 형식이다.   일반적인 데이터 레이크에는 다음과 같은 기능이 있다. -    데이터 흡수와 저장 -    지속적 데이터 엔지니어링을 위한 데이터 처리 및 지원 -    데이터 액세스와 소비 -    디스커버리 가능성(discoverabili...

빅데이터 데이터베이스 머신러닝 데이터레이크

2020.04.16

데이터 레이크는 변환된, 신뢰할 수 있는 데이터 집합과 함께 원시 형식의 데이터를 저장하고, 데이터 탐색과 인터랙티브 분석, 머신러닝과 같은 다양한 분석 작업을 위해 이 데이터에 대한 프로그램식 액세스와 SQL 기반 액세스를 모두 제공하는 시스템 또는 리포지토리다. 데이터 레이크에 저장되는 데이터에는 관계형 데이터베이스의 구조적 데이터(열과 행), 반구조적 데이터(CSV, 로그, XML, JSON), 비구조적 데이터(이메일, 문서, PDF), 바이너리 데이터(이미지, 오디오, 비디오)가 포함된다.   데이터 레이크의 과제는 사유 형식이나 시스템에 종속되지 않는 것이다. 종속은 다른 용도를 위해 데이터를 시스템 안팎으로 이동하거나 다른 툴을 사용해 데이터를 처리하는 역량을 제약하고, 데이터 레이크를 단일 클라우드 환경에 묶을 수도 있다. 따라서 기업은 데이터를 개방 형식으로 저장하고 개방형 표준 기반 인터페이스를 통해 액세스할 수 있는 개방형 데이터 레이크를 구축하도록 노력해야 한다. 데이터 저장, 데이터 관리, 데이터 처리, 운영, 데이터 액세스, 거버넌스, 보안을 포함한 시스템의 모든 측면에서 개방형 원칙을 고수해야 한다.   개방 형식은 개방형 표준을 기반으로 해서 특정 벤더의 사유 확장 없이 공개 커뮤니티 중심의 프로세스를 통해 개발되고 공유되는 형식이다. 예를 들어 개방형 데이터 형식은 ORC나 파케이(Parquet)과 같이 사양이 커뮤니티에 게시되어 어느 조직에서나 해당 형식으로 된 데이터를 읽는 툴과 애플리케이션을 만들 수 있는, 플랫폼 독립적이고 기계가 읽을 수 있는 데이터 형식이다.   일반적인 데이터 레이크에는 다음과 같은 기능이 있다. -    데이터 흡수와 저장 -    지속적 데이터 엔지니어링을 위한 데이터 처리 및 지원 -    데이터 액세스와 소비 -    디스커버리 가능성(discoverabili...

2020.04.16

'전진 위한 후퇴'··· 클라우드서 온프레미스로 송환하는 기업들

퍼블릭 클라우드는 애플리케이션을 신속하게 구축하고 실행시킨다는 이점이 있다. 하지만 일부 CIO는 비즈니스 민첩성을 확보하려다가 오히려 더 비싼 대가를 치르고 있음을 깨닫고 다시 클라우드 송환을 재고하고 있다.  퍼블릭 클라우드가 비즈니스 민첩성을 향상시킬 수 있지만 핵심 컴퓨팅 자원의 오프로딩에는 부정적인 측면이 없지 않다. 일부 IT 리더들은 특정 애플리케이션의 경우 온프레미스보다 퍼블릭 클라우드의 지출 비용이 더 크다는 사실을 깨닫고 있다. 이에 따라 CIO들은 IT 전략을 재검토하며 해당 애플리케이션을 온프레미스로 복귀시키려 하고 있다.    스토리지 회사 씨게이트의 CIO 라비 나이크는 그간의 경험으로 이를 잘 알고 있다고 말했다. AWS로 IT 인프라를 이전했던 당시 나이크는 클라우드 컴퓨팅이 제공하는 이점을 빠르게 실감했다. 해당 마이그레이션은 4곳의 데이터센터를 한 곳으로 통합하는 글로벌 계획의 일환이었다.  하지만 나이크는 빅데이터 시스템을 AWS에서 온프레미스로 복귀시켰다. 빅데이터 시스템에서 생성되는 데이터가 높은 대역폭을 요구하면서 자사 데이터센터보다 훨씬 더 많은 운영 비용이 들어간다는 것을 깨달았기 때문이다. 나이크는 “컴퓨팅은 온디맨드다. 따라서 탄력적인 클라우드에 최적이다. 하지만 스토리지는 매일 매초 비용이 계속 증가한다”라고 진단했다.  이보 전진 위한 클라우드의 일보 후퇴 인터넷을 통해 IT 자원을 임대하는 클라우드 컴퓨팅에서 온프레미스로 복귀하는 현상을 일컫는 용어가 있다. 클라우드 송환(Cloud Repatriation)이다. 퍼블릭 클라우드 사용량이 증가하고 있는 가운데 이러한 송환 현상도 점점 더 보편화되고 있다. IDC의 한 설문조사에 따르면 IT 리더의 85%가 퍼블릭 클라우드로부터 온프레미스로 워크로드를 복귀시키는 중이라고 응답했다.    IDC의 애널리스트 스리람 수브라마니안은 대부분 조직이 처음에는 수정 없이 그저 들어 옮기는 방식(Li...

클라우드 데이터 퍼블릭클라우드 온프레미스 IT인프라 프라이빗클라우드 데이터레이크 멀티클라우드

2020.03.30

퍼블릭 클라우드는 애플리케이션을 신속하게 구축하고 실행시킨다는 이점이 있다. 하지만 일부 CIO는 비즈니스 민첩성을 확보하려다가 오히려 더 비싼 대가를 치르고 있음을 깨닫고 다시 클라우드 송환을 재고하고 있다.  퍼블릭 클라우드가 비즈니스 민첩성을 향상시킬 수 있지만 핵심 컴퓨팅 자원의 오프로딩에는 부정적인 측면이 없지 않다. 일부 IT 리더들은 특정 애플리케이션의 경우 온프레미스보다 퍼블릭 클라우드의 지출 비용이 더 크다는 사실을 깨닫고 있다. 이에 따라 CIO들은 IT 전략을 재검토하며 해당 애플리케이션을 온프레미스로 복귀시키려 하고 있다.    스토리지 회사 씨게이트의 CIO 라비 나이크는 그간의 경험으로 이를 잘 알고 있다고 말했다. AWS로 IT 인프라를 이전했던 당시 나이크는 클라우드 컴퓨팅이 제공하는 이점을 빠르게 실감했다. 해당 마이그레이션은 4곳의 데이터센터를 한 곳으로 통합하는 글로벌 계획의 일환이었다.  하지만 나이크는 빅데이터 시스템을 AWS에서 온프레미스로 복귀시켰다. 빅데이터 시스템에서 생성되는 데이터가 높은 대역폭을 요구하면서 자사 데이터센터보다 훨씬 더 많은 운영 비용이 들어간다는 것을 깨달았기 때문이다. 나이크는 “컴퓨팅은 온디맨드다. 따라서 탄력적인 클라우드에 최적이다. 하지만 스토리지는 매일 매초 비용이 계속 증가한다”라고 진단했다.  이보 전진 위한 클라우드의 일보 후퇴 인터넷을 통해 IT 자원을 임대하는 클라우드 컴퓨팅에서 온프레미스로 복귀하는 현상을 일컫는 용어가 있다. 클라우드 송환(Cloud Repatriation)이다. 퍼블릭 클라우드 사용량이 증가하고 있는 가운데 이러한 송환 현상도 점점 더 보편화되고 있다. IDC의 한 설문조사에 따르면 IT 리더의 85%가 퍼블릭 클라우드로부터 온프레미스로 워크로드를 복귀시키는 중이라고 응답했다.    IDC의 애널리스트 스리람 수브라마니안은 대부분 조직이 처음에는 수정 없이 그저 들어 옮기는 방식(Li...

2020.03.30

AWS·세일즈포스, 상호운용성 확보를 위한 오픈소스 데이터 모델 발표

AWS·세일즈포스·제네시스가 리눅스 재단과 파트너십을 맺고 공동 추진한 클라우드 인포메이션 모델(CIM)을 12일 발표했다. CIM은 클라우드 애플리케이션 간 상호운용성 확보를 위해 데이터를 표준화하는 오픈소스 데이터 모델이다.  CIM은 표준화된 데이터 상호운용성 지침을 제공해 POS, 디지털 마케팅 플랫폼, 콜센터, CRM 시스템 등을 연결한다. 리눅스 재단은 데이터 통합의 복잡성을 줄여 데이터 레이크 생성, 데이터 분석, 머신러닝(ML) 모델 트레이닝 등을 기존보다 빠르게 수행할 수 있다고 전했다.   세 업체는 이미 CIM을 적용해 자사 제품과 서비스를 제공하고 있다. 아마존의 AWS 레이크 파운데이션(AWS Lake Formation), 레드시프트(Amazon Redshift), 세일즈포스의 고객 360(Customer 360)이 바로 그것이다. 클라우드 기반 콜센터 솔루션을 제공하는 제네시스(Genesys)는 음성, 채팅, 이메일, 텍스트, SNS 등 다양한 상호작용 채널에 CIM을 활용한다.  한편 어도비·마이크로소프트·SAP도 2018년 오픈 데이터 이니셔티브(ODI)를 발표한 바 있다. 3사의 데이터를 표준화해 플랫폼과 애플리케이션 간의 상호운용성을 강화한 협력 체계다.  테크크런치(TechCrunch)는 이번 발표와 관련해 "이제 두 개의 오픈 데이터 모델이 경쟁하게 됐다"라며, "두 모델이 통합되기까지는 마찰이 있을 것이다. 하지만 많은 고객이 해당 회사들의 툴을 사용하는 만큼 경쟁이 심화된다면 이러한 이니셔티브를 구축한 당초의 취지에 어긋날 것"이라고 밝혔다. ciokr@idg.co.kr

클라우드 데이터레이크 데이터분석 머신러닝 상호운용성 리눅스재단 어도비 AWS 애플리케이션 마이크로소프트 아마존 오픈소스 세일즈포스 SAP 데이터통합

2019.11.15

AWS·세일즈포스·제네시스가 리눅스 재단과 파트너십을 맺고 공동 추진한 클라우드 인포메이션 모델(CIM)을 12일 발표했다. CIM은 클라우드 애플리케이션 간 상호운용성 확보를 위해 데이터를 표준화하는 오픈소스 데이터 모델이다.  CIM은 표준화된 데이터 상호운용성 지침을 제공해 POS, 디지털 마케팅 플랫폼, 콜센터, CRM 시스템 등을 연결한다. 리눅스 재단은 데이터 통합의 복잡성을 줄여 데이터 레이크 생성, 데이터 분석, 머신러닝(ML) 모델 트레이닝 등을 기존보다 빠르게 수행할 수 있다고 전했다.   세 업체는 이미 CIM을 적용해 자사 제품과 서비스를 제공하고 있다. 아마존의 AWS 레이크 파운데이션(AWS Lake Formation), 레드시프트(Amazon Redshift), 세일즈포스의 고객 360(Customer 360)이 바로 그것이다. 클라우드 기반 콜센터 솔루션을 제공하는 제네시스(Genesys)는 음성, 채팅, 이메일, 텍스트, SNS 등 다양한 상호작용 채널에 CIM을 활용한다.  한편 어도비·마이크로소프트·SAP도 2018년 오픈 데이터 이니셔티브(ODI)를 발표한 바 있다. 3사의 데이터를 표준화해 플랫폼과 애플리케이션 간의 상호운용성을 강화한 협력 체계다.  테크크런치(TechCrunch)는 이번 발표와 관련해 "이제 두 개의 오픈 데이터 모델이 경쟁하게 됐다"라며, "두 모델이 통합되기까지는 마찰이 있을 것이다. 하지만 많은 고객이 해당 회사들의 툴을 사용하는 만큼 경쟁이 심화된다면 이러한 이니셔티브를 구축한 당초의 취지에 어긋날 것"이라고 밝혔다. ciokr@idg.co.kr

2019.11.15

블로그 | 데이터 레이크, 새로운 데이터웨어하우스가 된다

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

AWS 데이터웨어하우스 데이터레이크 스노우플레이크 레이크포메이션

2019.07.03

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

2019.07.03

"실패 가능성 85%" 빅데이터 프로젝트의 문제와 해법

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다며 실패 비율이 85%에 근접한다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 본다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 구축한 기업은 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지 생각하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하지만 그건 착...

프로젝트 데이터웨어하우스 데이터레이크

2019.05.21

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다며 실패 비율이 85%에 근접한다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 본다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 구축한 기업은 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지 생각하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하지만 그건 착...

2019.05.21

“보안, DB, 컴퓨팅, 스토리지... 우리는 차원이 다른 클라우드다” AWS CEO

아마존 웹 서비스(AWS)의 CEO인 앤디 재시는 라스베이거스에서 열린 리인벤트의 기존연설에서 경쟁사보다 뛰어난 클라우드 제품의 깊이에 대해, 그리고 좀더 명시적인 솔루션을 기업에게 제공하고 있고, 오랜 명성을 가진 오라클의 제품을 추격하고 있다고 소리 높여 말했다.    재시는 라스베이거스의 샌즈 엑스포 센터에서 “매년 우리는 개발자가 원하는 것이 무엇인지 생각한다. 현재 140가지 서비스를 제공하고, 이는 단순히 지역, 가용 구역, 컴퓨팅, 스토리지 유형, 데이터베이스, 분석, 머신러닝, 메시징, 인력 서비스만을 의미하지 않는다. 이는 더욱 깊이 있는 서비스와 서비스 안의 더욱 다양한 기능을 의미한다”고 강조했다.  그러면서 그는 ‘몇 주 전에 일어난 실제 이야기’를 언급했다. AWS의 한 고위 임원이 시애틀을 떠나는 비행편에서 경쟁 업체의 임원 옆에 착석한 것이다. 그는 이들이 작업 중인 파워포인트 프레젠테이션을 볼 기회가 있었다.   재시는 “프레젠테이션 내용을 보면, 우리의 제품 전략은 AWS가 시작하는 모든 것을 관찰하면서 이를 최대한 빨리 따라 하는 것이다. 기능이나 역량이 동일한 것은 중요하지 않다. 사람들이 이를 검토할 것이고 애널리스트가 속아 넘어갈 것이다”라면서 점잖은 공격에 익숙한 커뮤니티에 이례적인 공세를 가했다.   그는 “개발자는 현혹되지 않을 것이다. 클라우드에서 이들 서비스를 시도하는 것이 매우 저렴해서 개발자가 플랫폼 깊이의 차이를 아는 데 오랜 시간이 걸리지 않을 것이다”고 덧붙였다.  여기서 재시는 보안, 데이터베이스, 컴퓨팅, 그리고 가장 중요한 스토리지에 걸쳐 장황하게 설명하며 경쟁자의 상품보다 우월한 깊이를 증명했다.  예를 들어, 데이터베이스에 관해 그는 “AWS는 11개의 관계형 및 비-관계형 데이터베이스를 확보했고, 어떤 사업자도 이보다 더 많은...

검색 다아나모DB 서버리스컴퓨팅 오로라 데이터레이크 아마존웹서비스 Re:Invent 리인벤트 레드시프트 애널리틱스 분석 기조연설 데이터웨어하우스 DB AWS 데이터베이스 CEO 오라클 데이터베이스프리덤

2018.12.03

아마존 웹 서비스(AWS)의 CEO인 앤디 재시는 라스베이거스에서 열린 리인벤트의 기존연설에서 경쟁사보다 뛰어난 클라우드 제품의 깊이에 대해, 그리고 좀더 명시적인 솔루션을 기업에게 제공하고 있고, 오랜 명성을 가진 오라클의 제품을 추격하고 있다고 소리 높여 말했다.    재시는 라스베이거스의 샌즈 엑스포 센터에서 “매년 우리는 개발자가 원하는 것이 무엇인지 생각한다. 현재 140가지 서비스를 제공하고, 이는 단순히 지역, 가용 구역, 컴퓨팅, 스토리지 유형, 데이터베이스, 분석, 머신러닝, 메시징, 인력 서비스만을 의미하지 않는다. 이는 더욱 깊이 있는 서비스와 서비스 안의 더욱 다양한 기능을 의미한다”고 강조했다.  그러면서 그는 ‘몇 주 전에 일어난 실제 이야기’를 언급했다. AWS의 한 고위 임원이 시애틀을 떠나는 비행편에서 경쟁 업체의 임원 옆에 착석한 것이다. 그는 이들이 작업 중인 파워포인트 프레젠테이션을 볼 기회가 있었다.   재시는 “프레젠테이션 내용을 보면, 우리의 제품 전략은 AWS가 시작하는 모든 것을 관찰하면서 이를 최대한 빨리 따라 하는 것이다. 기능이나 역량이 동일한 것은 중요하지 않다. 사람들이 이를 검토할 것이고 애널리스트가 속아 넘어갈 것이다”라면서 점잖은 공격에 익숙한 커뮤니티에 이례적인 공세를 가했다.   그는 “개발자는 현혹되지 않을 것이다. 클라우드에서 이들 서비스를 시도하는 것이 매우 저렴해서 개발자가 플랫폼 깊이의 차이를 아는 데 오랜 시간이 걸리지 않을 것이다”고 덧붙였다.  여기서 재시는 보안, 데이터베이스, 컴퓨팅, 그리고 가장 중요한 스토리지에 걸쳐 장황하게 설명하며 경쟁자의 상품보다 우월한 깊이를 증명했다.  예를 들어, 데이터베이스에 관해 그는 “AWS는 11개의 관계형 및 비-관계형 데이터베이스를 확보했고, 어떤 사업자도 이보다 더 많은...

2018.12.03

ETL 병목에 대한 이베이츠의 해법 '클라우드 데이터 레이크'

기업이 데이터 레이크(Data Lake)를 데이터 웨어하우스(Warehouse)로 사용하려다가 문제에 부닥치는 경우가 종종 있다. 가트너의 리서치 부사장 머브 에이드리언은 '끔찍한 아이디어'라고 말할 정도다. 거대 전사상거래 업체 이베이츠(Ebates)의 분석 부사장 마크 스테인지-트리기어가 4년 전 이베이츠에 합류했을 때도 비슷한 상황이었다. 당시 이베이츠는 일부 엔지니어가 단일 SQL 서버와 주요 생산 데이터베이스의 복사본을 사용하는 것 외에는 이렇다 할 비즈니스 인텔리전스(Business Intelligence, BI) 인프라가 없었다. 가장 큰 문제는 ETL(Extract, Transform, and Load) 프로세스였다. 스테인지-트리기어는 "ETL 작업에 28시간이 걸렸다. 필요한 보고서 또는 정보를 제때 확보하기 어려웠다. 또한 동시 실행 성능도 한계에 부딪혀 시스템 전체가 불안정해지고 있었다"라고 말했다. 그래서 대안으로 도입한 것이 바로 하둡(Hadoop) 클러스터 기반의 데이터 레이크였다. 비용과 비전 측면에서 적절한 솔루션이라고 판단했다. 여러 사일로(Silo)를 거치지 않고도 모든 데이터를 한 곳에 통합해 활용할 수 있을 것으로 기대했다. 당시 스테인지-트리기어의 팀은 핵심 ETL 프로세스를 파이썬(Python)으로 작성했고 불과 몇 달 후에는 최고 임원을 위한 보고서용 데이터를 새로운 데이터 레이크에서 뽑아내기 시작했다. 스테인지-트리기어가 "그때부터 임원진이 데이터 레이크를 받아들였다. 훨씬 빠르고 효율적으로 데이터를 뽑아냈기 때문이다. 이후 모든 것이 바뀌었다. 많은 작업이 필요하긴 했지만, 결국 기존에 사용하던 모든 SQL 서버를 걷어낼 수 있었다"라고 말했다. ETL 병목현상 이베이츠의 단일 하둡 클러스터에서 2가지 구별된 데이터 영역이 있다. 하나는 업체가 말하는 '데이터 레이크'로써, 실제 업무에 사용하는 데이터베이스의 원본 그대로...

CIO ETL 데이터레이크 이베이츠 클라이드

2018.08.31

기업이 데이터 레이크(Data Lake)를 데이터 웨어하우스(Warehouse)로 사용하려다가 문제에 부닥치는 경우가 종종 있다. 가트너의 리서치 부사장 머브 에이드리언은 '끔찍한 아이디어'라고 말할 정도다. 거대 전사상거래 업체 이베이츠(Ebates)의 분석 부사장 마크 스테인지-트리기어가 4년 전 이베이츠에 합류했을 때도 비슷한 상황이었다. 당시 이베이츠는 일부 엔지니어가 단일 SQL 서버와 주요 생산 데이터베이스의 복사본을 사용하는 것 외에는 이렇다 할 비즈니스 인텔리전스(Business Intelligence, BI) 인프라가 없었다. 가장 큰 문제는 ETL(Extract, Transform, and Load) 프로세스였다. 스테인지-트리기어는 "ETL 작업에 28시간이 걸렸다. 필요한 보고서 또는 정보를 제때 확보하기 어려웠다. 또한 동시 실행 성능도 한계에 부딪혀 시스템 전체가 불안정해지고 있었다"라고 말했다. 그래서 대안으로 도입한 것이 바로 하둡(Hadoop) 클러스터 기반의 데이터 레이크였다. 비용과 비전 측면에서 적절한 솔루션이라고 판단했다. 여러 사일로(Silo)를 거치지 않고도 모든 데이터를 한 곳에 통합해 활용할 수 있을 것으로 기대했다. 당시 스테인지-트리기어의 팀은 핵심 ETL 프로세스를 파이썬(Python)으로 작성했고 불과 몇 달 후에는 최고 임원을 위한 보고서용 데이터를 새로운 데이터 레이크에서 뽑아내기 시작했다. 스테인지-트리기어가 "그때부터 임원진이 데이터 레이크를 받아들였다. 훨씬 빠르고 효율적으로 데이터를 뽑아냈기 때문이다. 이후 모든 것이 바뀌었다. 많은 작업이 필요하긴 했지만, 결국 기존에 사용하던 모든 SQL 서버를 걷어낼 수 있었다"라고 말했다. ETL 병목현상 이베이츠의 단일 하둡 클러스터에서 2가지 구별된 데이터 영역이 있다. 하나는 업체가 말하는 '데이터 레이크'로써, 실제 업무에 사용하는 데이터베이스의 원본 그대로...

2018.08.31

'단일 데이터 레이크의 힘'··· 로이즈 그룹 데이터 전략의 교훈

로이즈 뱅킹 그룹(Lloyds Banking Group)의 새 데이터 전략이 본궤도에 올랐다. 기존 데이터 사일로 구조에서 벗어나 고객에 대한 단일 뷰를 확보했고, 그동안 오래 걸리고 많은 비용이 들었던 보고서 작성 업무도 간편하게 바꿨다. 로이즈 뱅킹 그룹의 정보관리과 그룹 트랜스포메이션 시스템 담당 임원인 얼라인 헤이스는 장기적으로 이를 통해 확보할 수 있는 정보와 혜택에 초점을 맞춰 이 프로젝트를 진행해 오고 있다. 그는 최근 매니지엔진(ManageEngine)이 개최한 한 행사에서 현재 진행중인 이 작업 관련된 내용을 공개했다. 매니지엔진은 '기업의 디지털화와 일하는 방식의 변화'라는 보고서를 발행하기도 했다. 이날 행사에서 헤이스는 로이즈의 새로운 기업 데이터 활용 프로젝트를 진행하면서 가장 큰 힘으로 최고 경영진의 지원을 꼽았다. 그러나 이는 지지이자 동시에 부담이기도 했다. 그는 "가장 끔찍한 순간은 회장 앞에서 발표할 때였다. 발표를 마치자 그는 내게 '데이터는 이사회가 가장 신경쓰는 것 중에서도 으뜸'이라고 했다"라고 말했다. 로이즈의 새 전략은 한 마디로 '기업의 데이터 자산을 간소화고 단순화하는 것'으로 요약할 수 있다. 헤이스는 "별로 혁신적으로 들리지 않을 수도 있다. 이미 이를 실행하는 기업도 많다. 그러나 250년 된 연합체 형태의 기업인 로이즈엔 기업 전체의 일대 혁신과 같은 의미였다"라고 말했다. 단일 데이터 레이크 로이즈는 이 새로운 전략에 따라 2년간 한 가지 작업에 몰두해 왔다. 즉 모든 계열사가 사용할 단일 데이터 레이크를 구축하고 것이다. 이 은행은 기존 시스템을 잘게 쪼개고 새 것으로 대체하는 대신 이런 방식을 택했다. 헤이스는 "우리는 논리적인 단일 데이터 레이크를 만들고자 했다. 모든 기업 시스템을 바꾸는 것은 처음부터 생각조차 하지 않았다. 이미 수백개 시스템을 운영 중인데,...

데이터레이크 로이즈뱅킹그룹

2018.06.26

로이즈 뱅킹 그룹(Lloyds Banking Group)의 새 데이터 전략이 본궤도에 올랐다. 기존 데이터 사일로 구조에서 벗어나 고객에 대한 단일 뷰를 확보했고, 그동안 오래 걸리고 많은 비용이 들었던 보고서 작성 업무도 간편하게 바꿨다. 로이즈 뱅킹 그룹의 정보관리과 그룹 트랜스포메이션 시스템 담당 임원인 얼라인 헤이스는 장기적으로 이를 통해 확보할 수 있는 정보와 혜택에 초점을 맞춰 이 프로젝트를 진행해 오고 있다. 그는 최근 매니지엔진(ManageEngine)이 개최한 한 행사에서 현재 진행중인 이 작업 관련된 내용을 공개했다. 매니지엔진은 '기업의 디지털화와 일하는 방식의 변화'라는 보고서를 발행하기도 했다. 이날 행사에서 헤이스는 로이즈의 새로운 기업 데이터 활용 프로젝트를 진행하면서 가장 큰 힘으로 최고 경영진의 지원을 꼽았다. 그러나 이는 지지이자 동시에 부담이기도 했다. 그는 "가장 끔찍한 순간은 회장 앞에서 발표할 때였다. 발표를 마치자 그는 내게 '데이터는 이사회가 가장 신경쓰는 것 중에서도 으뜸'이라고 했다"라고 말했다. 로이즈의 새 전략은 한 마디로 '기업의 데이터 자산을 간소화고 단순화하는 것'으로 요약할 수 있다. 헤이스는 "별로 혁신적으로 들리지 않을 수도 있다. 이미 이를 실행하는 기업도 많다. 그러나 250년 된 연합체 형태의 기업인 로이즈엔 기업 전체의 일대 혁신과 같은 의미였다"라고 말했다. 단일 데이터 레이크 로이즈는 이 새로운 전략에 따라 2년간 한 가지 작업에 몰두해 왔다. 즉 모든 계열사가 사용할 단일 데이터 레이크를 구축하고 것이다. 이 은행은 기존 시스템을 잘게 쪼개고 새 것으로 대체하는 대신 이런 방식을 택했다. 헤이스는 "우리는 논리적인 단일 데이터 레이크를 만들고자 했다. 모든 기업 시스템을 바꾸는 것은 처음부터 생각조차 하지 않았다. 이미 수백개 시스템을 운영 중인데,...

2018.06.26

'대박과 쪽박 사이' 애널리틱스 실패를 막기 위한 6가지 조언

빅데이터 및 분석 계획은 판도를 바꿀 수 있다. 경쟁 상대를 제치고 새로운 수익원을 창출하며 고객 서비스를 개선시킬 수 있는 통찰력을 제공하기 때문이다. 그러나 빅데이터 및 분석계획은 엄청난 실패가 될 수도 있다. 그 결과 많은 돈과 시간이 낭비된다. 유능한 기술 전문가들이 답답한 경영진의 실수에 질린 나머지 떠나버리는 손실은 말할 것도 없다. 빅데이터 실패를 방지하려면 어떻게 해야할까? 일부 모범 사례를 기본적인 기업 경영의 관점에서 보면 분명하다. 회사 최고위급 임원의 지원은 물론 기술 투자에 필요한 적정 자금을 확보하며, 필요한 전문지식을 도입하거나 양질의 교육을 실시하는 것이다. 이러한 기본적인 사항을 먼저 해결하지 않는다면 다른 것은 그다지 의미가 없다. 기본적인 사항을 해결했다고 가정한다면, 빅데이터 분석의 성패를 좌우하는 것은 기술적 문제와 과제에 대처하는 방식이다. 지속적인 성공을 위해 할 수 있는 일은 다음과 같다. 1. 빅데이터 분석 도구를 신중하게 선택하라 기술 실패의 원인은 회사가 달성하려는 목표와 전혀 맞지 않는 제품을 구입해서 시행하기 때문인 경우가 많다. 유행에 편승해 “빅데이터”나 “고급 분석”과 같은 말을 제품 설명에 때려 넣은 것은 아무 업체나 할 수 있다. 그러나 제품마다 품질과 효과는 물론 주력 분야도 크게 다르다. 따라서 기술적 역량이 뛰어난 제품을 선택하더라도 막상 사용자에게 필요한 작업에는 능하지 않을 수도 있다. 빅데이터 분석에 거의 예외 없이 적용되는 기본 기능이 있다. 예를 들면 데이터 변환과 스토리지 아키텍처 관련 기능이다(하둡(Hadoop)과 아파치 스파크(Apache Spark))를 떠올리면 된다). 그런데 빅데이터 분석에는 여러 가지 틈새 기능도 있다. 본인의 기술 전략과 실질적으로 관련된 틈새 기능에 맞는 제품을 구해야 한다. 이러한 틈새 기능으로는 프로세스 마이닝(process mining), 예측 분석, 실시간 솔루션, 인공지능, ...

빅데이터 인사이트 분석 데이터레이크

2017.08.14

빅데이터 및 분석 계획은 판도를 바꿀 수 있다. 경쟁 상대를 제치고 새로운 수익원을 창출하며 고객 서비스를 개선시킬 수 있는 통찰력을 제공하기 때문이다. 그러나 빅데이터 및 분석계획은 엄청난 실패가 될 수도 있다. 그 결과 많은 돈과 시간이 낭비된다. 유능한 기술 전문가들이 답답한 경영진의 실수에 질린 나머지 떠나버리는 손실은 말할 것도 없다. 빅데이터 실패를 방지하려면 어떻게 해야할까? 일부 모범 사례를 기본적인 기업 경영의 관점에서 보면 분명하다. 회사 최고위급 임원의 지원은 물론 기술 투자에 필요한 적정 자금을 확보하며, 필요한 전문지식을 도입하거나 양질의 교육을 실시하는 것이다. 이러한 기본적인 사항을 먼저 해결하지 않는다면 다른 것은 그다지 의미가 없다. 기본적인 사항을 해결했다고 가정한다면, 빅데이터 분석의 성패를 좌우하는 것은 기술적 문제와 과제에 대처하는 방식이다. 지속적인 성공을 위해 할 수 있는 일은 다음과 같다. 1. 빅데이터 분석 도구를 신중하게 선택하라 기술 실패의 원인은 회사가 달성하려는 목표와 전혀 맞지 않는 제품을 구입해서 시행하기 때문인 경우가 많다. 유행에 편승해 “빅데이터”나 “고급 분석”과 같은 말을 제품 설명에 때려 넣은 것은 아무 업체나 할 수 있다. 그러나 제품마다 품질과 효과는 물론 주력 분야도 크게 다르다. 따라서 기술적 역량이 뛰어난 제품을 선택하더라도 막상 사용자에게 필요한 작업에는 능하지 않을 수도 있다. 빅데이터 분석에 거의 예외 없이 적용되는 기본 기능이 있다. 예를 들면 데이터 변환과 스토리지 아키텍처 관련 기능이다(하둡(Hadoop)과 아파치 스파크(Apache Spark))를 떠올리면 된다). 그런데 빅데이터 분석에는 여러 가지 틈새 기능도 있다. 본인의 기술 전략과 실질적으로 관련된 틈새 기능에 맞는 제품을 구해야 한다. 이러한 틈새 기능으로는 프로세스 마이닝(process mining), 예측 분석, 실시간 솔루션, 인공지능, ...

2017.08.14

칼럼 | 하둡이 곤경에 빠졌다고? 그건 가트너만의 생각이다

"거짓말, 새빨간 거짓말, 그리고 IT 산업." 5월 말, 가트너는 하둡 산업 전반에 걸친 헛소리같은 설문조사를 발표한 적이 있다. 284명의 가트너 리서치 회원 CIO들을 대상으로 한 이 설문조사에서 응답자 가운데 26%만이 하둡을 도입 중, 또는 파일럿 프로젝트나 테스트를 진행중이라고 가트너는 주장했다. 이 설문조사는 표본 자체가 너무 작아 오차의 폭이 너무 커 실제 세계에서 필자와 같은 사람들의 엄청난 반론을 받고 있다. 가트너는 예전부터 잘못하고 있었다. 반면 최근 앳스케일(AtScale)이 2,100명을 대상으로 한 설문조사는 실제 현장에서 하는 얘기들과 상당히 근접한 것을 볼 수 있었다. 가장 드라마틱한 것은 이 설문조사에서 응답자의 76%가 하둡을 사용할 계획이거나 또는 이미 사용하고 있거나 더 많이 사용할 계획이라고 말했다는 점이다. 물론, 앳스케일 숫자는 조금 걸러서 들을 필요는 있다. 앳스케일이 하둡 솔루션 제공업체이며 이번 설문조사가 자체적으로 실시한 것이기 때문이다. 하지만 필자는 적어도 이 설문조사 결과가 가트너의 완전히 암울한 상황 예상보다는 좀더 실제 상황에 가까운 그림을 그리고 있다고 말할 수 있다. 하둡 킬러 앱, BI 이번 가트너의 설문조사에 충격을 받은 이가 있을 지 모른다. 하지만 앳스케일 설문조사는 하둡의 킬러 애플리케이션이 비즈니스 인텔리전스(business intelligence)라는 것을 시사하고 있다. 하둡을 사용할 계획이라는 응답자 가운데 69%가 BI를 선택했으며, 65%는 이미 사용하고 있었다. 이것이 놀랍다면 '가장 흔해빠진 하둡과 스파크 프로젝트'라는 기사를 읽어보자. 대부분의 기업은 빅데이터를 갖고 있지 않다. 단지 많은 새로운 비정형 또는 반정형 데이터 소스를 갖고 있을 뿐이다. 그리고 기업들은 이 데이터들을 합치고 시각화 툴로 연결시키면 인사이트를 얻을 수 있을 것으로 생각한다. 이 보고서에 따르면 대부분 기업들은 타블...

가트너 하둡 빅 데이터 데이터레이크

2015.09.22

"거짓말, 새빨간 거짓말, 그리고 IT 산업." 5월 말, 가트너는 하둡 산업 전반에 걸친 헛소리같은 설문조사를 발표한 적이 있다. 284명의 가트너 리서치 회원 CIO들을 대상으로 한 이 설문조사에서 응답자 가운데 26%만이 하둡을 도입 중, 또는 파일럿 프로젝트나 테스트를 진행중이라고 가트너는 주장했다. 이 설문조사는 표본 자체가 너무 작아 오차의 폭이 너무 커 실제 세계에서 필자와 같은 사람들의 엄청난 반론을 받고 있다. 가트너는 예전부터 잘못하고 있었다. 반면 최근 앳스케일(AtScale)이 2,100명을 대상으로 한 설문조사는 실제 현장에서 하는 얘기들과 상당히 근접한 것을 볼 수 있었다. 가장 드라마틱한 것은 이 설문조사에서 응답자의 76%가 하둡을 사용할 계획이거나 또는 이미 사용하고 있거나 더 많이 사용할 계획이라고 말했다는 점이다. 물론, 앳스케일 숫자는 조금 걸러서 들을 필요는 있다. 앳스케일이 하둡 솔루션 제공업체이며 이번 설문조사가 자체적으로 실시한 것이기 때문이다. 하지만 필자는 적어도 이 설문조사 결과가 가트너의 완전히 암울한 상황 예상보다는 좀더 실제 상황에 가까운 그림을 그리고 있다고 말할 수 있다. 하둡 킬러 앱, BI 이번 가트너의 설문조사에 충격을 받은 이가 있을 지 모른다. 하지만 앳스케일 설문조사는 하둡의 킬러 애플리케이션이 비즈니스 인텔리전스(business intelligence)라는 것을 시사하고 있다. 하둡을 사용할 계획이라는 응답자 가운데 69%가 BI를 선택했으며, 65%는 이미 사용하고 있었다. 이것이 놀랍다면 '가장 흔해빠진 하둡과 스파크 프로젝트'라는 기사를 읽어보자. 대부분의 기업은 빅데이터를 갖고 있지 않다. 단지 많은 새로운 비정형 또는 반정형 데이터 소스를 갖고 있을 뿐이다. 그리고 기업들은 이 데이터들을 합치고 시각화 툴로 연결시키면 인사이트를 얻을 수 있을 것으로 생각한다. 이 보고서에 따르면 대부분 기업들은 타블...

2015.09.22

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.6