Offcanvas

������������������

데이터 중심 조직의 비결은 ‘접근·활용성'··· 데이터 민주화 가이드

‘데이터 평등’을 이루지 않고서는 데이터 중심 문화를 안착시킬 수 없다. 데이터를 민주화해야 하는 이유다.    진정한 데이터 중심 기업은 그렇지 않은 기업보다 훨씬 더 나은 비즈니스 성과를 달성한다. 최근 한 IDC 백서에 따르면 모범 데이터 수칙을 도입한 리더가 여러 비즈니스 지표에서 그렇지 않은 리더보다 평균 2.5배 더 나은 성과를 얻었다.  특히 데이터 및 애널리틱스 분야에서 선두를 달리고 있는 기업의 경우, 매출이 3배 향상되고, 신제품 및 서비스 출시 기간이 3배 가까이 감소했으며, 고객 만족도, 수익 및 운영 효율성이 2배 이상 향상된 것으로 나타났다.  그러나 데이터 및 애널리틱스에서 최대의 가치를 뽑아내려면 결국 데이터 중심 문화가 기업 전체에 스며들어야 한다. 이는 모든 사업부가 필요한 데이터에 원하는 방식으로 접근할 수 있어야 한다는 뜻이다.  이를 데이터 민주화라고 한다. 이를 현실로 만들려면 데이터를 신중하게 수집해야 하며, 안전한 데이터 플랫폼을 잘 선택해야 한다. 특히 직원들이 '데이터 우선 마인드셋(data-first mindset)'을 갖출 수 있도록 교육 및 역량 강화가 필요하다. 보안 및 컴플라이언스 준수 또한 중요하다.    견고한 데이터 기반에서 시작하기 기업은 데이터 공유용 플랫폼을 선택하기 전에 이미 어떤 데이터를 보유하고 있는지 파악하고, 오류 및 중복을 제거해야 한다.  인사이트 엔터프라이즈(Insight Enterprises)의 수석 설계자이자 저명한 엔지니어인 후안 올란디니는 데이터를 공유할 준비를 하는 데 있어 데이터 정규화(data normalization) 훈련을 우선해야 한다고 말했다.  데이터 형식 및 데이터 아키텍처는 일치하지 않는 경우가 허다하다. 데이터가 불완전할 수도 있다. 올란디니는 "만약 갑자기 이 데이터를 데이터 전문가가 아닌 사람에게 제공한다고 치면, 이 데이터로 잘못되거나 오해의 소지가 있는 인...

데이터중심조직 데이터드리븐 데이터플랫폼 데이터메시 데이터패브릭 데이터레이크

2일 전

‘데이터 평등’을 이루지 않고서는 데이터 중심 문화를 안착시킬 수 없다. 데이터를 민주화해야 하는 이유다.    진정한 데이터 중심 기업은 그렇지 않은 기업보다 훨씬 더 나은 비즈니스 성과를 달성한다. 최근 한 IDC 백서에 따르면 모범 데이터 수칙을 도입한 리더가 여러 비즈니스 지표에서 그렇지 않은 리더보다 평균 2.5배 더 나은 성과를 얻었다.  특히 데이터 및 애널리틱스 분야에서 선두를 달리고 있는 기업의 경우, 매출이 3배 향상되고, 신제품 및 서비스 출시 기간이 3배 가까이 감소했으며, 고객 만족도, 수익 및 운영 효율성이 2배 이상 향상된 것으로 나타났다.  그러나 데이터 및 애널리틱스에서 최대의 가치를 뽑아내려면 결국 데이터 중심 문화가 기업 전체에 스며들어야 한다. 이는 모든 사업부가 필요한 데이터에 원하는 방식으로 접근할 수 있어야 한다는 뜻이다.  이를 데이터 민주화라고 한다. 이를 현실로 만들려면 데이터를 신중하게 수집해야 하며, 안전한 데이터 플랫폼을 잘 선택해야 한다. 특히 직원들이 '데이터 우선 마인드셋(data-first mindset)'을 갖출 수 있도록 교육 및 역량 강화가 필요하다. 보안 및 컴플라이언스 준수 또한 중요하다.    견고한 데이터 기반에서 시작하기 기업은 데이터 공유용 플랫폼을 선택하기 전에 이미 어떤 데이터를 보유하고 있는지 파악하고, 오류 및 중복을 제거해야 한다.  인사이트 엔터프라이즈(Insight Enterprises)의 수석 설계자이자 저명한 엔지니어인 후안 올란디니는 데이터를 공유할 준비를 하는 데 있어 데이터 정규화(data normalization) 훈련을 우선해야 한다고 말했다.  데이터 형식 및 데이터 아키텍처는 일치하지 않는 경우가 허다하다. 데이터가 불완전할 수도 있다. 올란디니는 "만약 갑자기 이 데이터를 데이터 전문가가 아닌 사람에게 제공한다고 치면, 이 데이터로 잘못되거나 오해의 소지가 있는 인...

2일 전

인터뷰 | “일별 1조 9천억 행의 데이터를 레이크로” 쉘 CDIO 댄 제본스의 디지털 에너지 전환

글로벌 에너지 기업 쉘(Shell)은 듀얼 클라우드 아키텍처로 전환하며 데이터 레이크 아키텍처를 도입했다. 쉘에서 컴퓨테이셔널 과학(Computational Science) 및 디지털 혁신(Digital Innovation)을 담담하는 CIDO 댄 제본스는 이 디지털 전환으로 사업 성과를 내며 탄소 중립에도 기여할 수 있다고 말한다.    요즘 쉘과 같은 에너지 대기업은 탄소 배출량을 줄여야 한다는 압박을 받고 있다. 하지만 다국적 정유회사인 쉘에게 이는 거대한 작업이다. 회사는 인공지능을 촉매제 삼아 장기적인 환경 목표를 달성하려 하고 있다.  런던에 본사를 둔 쉘은 하이브리드 클라우드와 데이터브릭스(Databricks) 데이터 레이크 플랫폼으로 디지털 전환을 추진 중이다. 인공지능 기술을 활용해 비즈니스 효율성과 수익성을 최적화하고 장기적으로는 탄소 배출량을 줄이는 게 목표다.    쉘의 AI 책임자 댄 제본스는 “AI는 회사가 진행하는 있는 디지털 전환의 중추다”라며 회사가 마이크로소프트 및 C3.ai 비롯해 2015년부터 데이터브릭스 플랫폼을 사용해왔다고 밝혔다. 그에 따르면 데이터브릭스 직원 20명이 쉘을 전담한다.  제본스는 쉘에서 컴퓨테이셔널 과학 및 디지털 혁신 부사장을 맡고 있으며, 2015년부터 데이터 과학 담당 매니저로 활동했다.  이제 쉘 그룹 CIO 제이 크로츠에게 직접 보고하는 새 역할에서 제본스는 AI뿐만 아니라 블록체인, IoT, 엣지 컴퓨팅 등의 새로운 기술을 활용해 쉘의 미래 기술 전략을 구상하고 2050년까지 탄소중립를 달성하는 역할을 맡았다.  가트너 애널리스트 앤서니 멀렌은 쉘의 AI 활용 능력이 다른 기업에 비해 뛰어나다고 평가했다. 멀렌은 쉘이 AI 전담 조직(Center of Excellence)을 운영하고 OpenAI 같은 오픈소스 프로젝트에 참여한 점을 높이사며 “쉘은 이미 AI 초기 도입 단계를 넘어섰다”라고 말했다. ...

탄소중립 에너지 재생에너지 에너지기업 데이터레이크 데이터브릭스

2022.12.22

글로벌 에너지 기업 쉘(Shell)은 듀얼 클라우드 아키텍처로 전환하며 데이터 레이크 아키텍처를 도입했다. 쉘에서 컴퓨테이셔널 과학(Computational Science) 및 디지털 혁신(Digital Innovation)을 담담하는 CIDO 댄 제본스는 이 디지털 전환으로 사업 성과를 내며 탄소 중립에도 기여할 수 있다고 말한다.    요즘 쉘과 같은 에너지 대기업은 탄소 배출량을 줄여야 한다는 압박을 받고 있다. 하지만 다국적 정유회사인 쉘에게 이는 거대한 작업이다. 회사는 인공지능을 촉매제 삼아 장기적인 환경 목표를 달성하려 하고 있다.  런던에 본사를 둔 쉘은 하이브리드 클라우드와 데이터브릭스(Databricks) 데이터 레이크 플랫폼으로 디지털 전환을 추진 중이다. 인공지능 기술을 활용해 비즈니스 효율성과 수익성을 최적화하고 장기적으로는 탄소 배출량을 줄이는 게 목표다.    쉘의 AI 책임자 댄 제본스는 “AI는 회사가 진행하는 있는 디지털 전환의 중추다”라며 회사가 마이크로소프트 및 C3.ai 비롯해 2015년부터 데이터브릭스 플랫폼을 사용해왔다고 밝혔다. 그에 따르면 데이터브릭스 직원 20명이 쉘을 전담한다.  제본스는 쉘에서 컴퓨테이셔널 과학 및 디지털 혁신 부사장을 맡고 있으며, 2015년부터 데이터 과학 담당 매니저로 활동했다.  이제 쉘 그룹 CIO 제이 크로츠에게 직접 보고하는 새 역할에서 제본스는 AI뿐만 아니라 블록체인, IoT, 엣지 컴퓨팅 등의 새로운 기술을 활용해 쉘의 미래 기술 전략을 구상하고 2050년까지 탄소중립를 달성하는 역할을 맡았다.  가트너 애널리스트 앤서니 멀렌은 쉘의 AI 활용 능력이 다른 기업에 비해 뛰어나다고 평가했다. 멀렌은 쉘이 AI 전담 조직(Center of Excellence)을 운영하고 OpenAI 같은 오픈소스 프로젝트에 참여한 점을 높이사며 “쉘은 이미 AI 초기 도입 단계를 넘어섰다”라고 말했다. ...

2022.12.22

GCP 빅레이크, 모든 종류의 비정형 데이터 지원한다

구글 클라우드(GCP)은 그간 모든 종류의 데이터를 지원하는 단일 플랫폼을 빅레이크(BigLake)의 형태로 제공하고자 시도해왔다. 그리고 지난 11일(현지 시각) 데이터 레이크에서 흔히 쓰이는 오픈소스 데이터 표 형식을 지원하겠다고 밝혔다.    2022년 클라우드 넥스트(Cloud Next) 컨퍼런스에서 구글은 최근 내세우고 있는 빅레이크 서비스에 대해 소개했다. 정형 및 비정형 데이터 모두에 데이터 애널리틱스와 엔지니어링을 적용할 수 있는 서비스라는 것이 회사의 설명이다.  구글 클라우드(Google Cloud)의 데이터 부석 부사장 게릿 카즈마이어는 블로그 게시물에서 “스토리지 엔진 빅레이크는 아파치 아이스버그(Apache Iceberg), 데이터브릭스(Databricks)의 델타 레이크(Delta Lake), 아파치 후디(Apache Hudi)에 대한 지원을 추가한다. 이렇게 광범위하게 도입된 데이터 형식을 지원함으로써 기업이 데이터의 가치를 완전히 실현하는 길에 있는 장애물을 없애도록 도울 수 있다”라고 밝혔다.  이는 다른 클라우드 기반 데이터 웨어하우스 및 데이터 레이크 제공업체와 경쟁하기 위한 전략이기도 하다. 회사는 자사의 클라우드 데이터 서비스의 전반적인 개방성을 높이려는 전략을 펼쳐왔다. 회사는 아파치 아이스버그 지원은 프리뷰에서 제공될 것이라고 밝혔으며, 후디와 델타 레이크 지원도 곧 추가되리라고 덧붙였다. 프리뷰 버전이나 공식 버전이 언제 출시될지는 밝히지 않았다.   데이터 레이크에 대한 트랜잭션 관리 기능을 지원하는 것이 오픈소스 테이블 형식을 지원하기로 결정한 이유라고 벤타나 리서치(Ventana Research)의 조사 책임자 매트 아슬렛이 말했다. 아슬렛은 “데이터 레이크 도입자 중 57%는 현재 최소한 이런 새로운 테이블 형식 중 한 가지를 사용하고 있다. 이에 따라 데이터 레이크 사용량이 증가해 데이터 웨어하우징 환경을 대체할 가능성이 높아졌다"라고 말했다.&nb...

데이터레이크 빅레이크 구글클라우드플랫폼

2022.10.13

구글 클라우드(GCP)은 그간 모든 종류의 데이터를 지원하는 단일 플랫폼을 빅레이크(BigLake)의 형태로 제공하고자 시도해왔다. 그리고 지난 11일(현지 시각) 데이터 레이크에서 흔히 쓰이는 오픈소스 데이터 표 형식을 지원하겠다고 밝혔다.    2022년 클라우드 넥스트(Cloud Next) 컨퍼런스에서 구글은 최근 내세우고 있는 빅레이크 서비스에 대해 소개했다. 정형 및 비정형 데이터 모두에 데이터 애널리틱스와 엔지니어링을 적용할 수 있는 서비스라는 것이 회사의 설명이다.  구글 클라우드(Google Cloud)의 데이터 부석 부사장 게릿 카즈마이어는 블로그 게시물에서 “스토리지 엔진 빅레이크는 아파치 아이스버그(Apache Iceberg), 데이터브릭스(Databricks)의 델타 레이크(Delta Lake), 아파치 후디(Apache Hudi)에 대한 지원을 추가한다. 이렇게 광범위하게 도입된 데이터 형식을 지원함으로써 기업이 데이터의 가치를 완전히 실현하는 길에 있는 장애물을 없애도록 도울 수 있다”라고 밝혔다.  이는 다른 클라우드 기반 데이터 웨어하우스 및 데이터 레이크 제공업체와 경쟁하기 위한 전략이기도 하다. 회사는 자사의 클라우드 데이터 서비스의 전반적인 개방성을 높이려는 전략을 펼쳐왔다. 회사는 아파치 아이스버그 지원은 프리뷰에서 제공될 것이라고 밝혔으며, 후디와 델타 레이크 지원도 곧 추가되리라고 덧붙였다. 프리뷰 버전이나 공식 버전이 언제 출시될지는 밝히지 않았다.   데이터 레이크에 대한 트랜잭션 관리 기능을 지원하는 것이 오픈소스 테이블 형식을 지원하기로 결정한 이유라고 벤타나 리서치(Ventana Research)의 조사 책임자 매트 아슬렛이 말했다. 아슬렛은 “데이터 레이크 도입자 중 57%는 현재 최소한 이런 새로운 테이블 형식 중 한 가지를 사용하고 있다. 이에 따라 데이터 레이크 사용량이 증가해 데이터 웨어하우징 환경을 대체할 가능성이 높아졌다"라고 말했다.&nb...

2022.10.13

일명 ‘쿼리 가속기’ 데이터 레이크하우스 활용 사례 4선

쿼리 가속기(query accelerator)라고도 불리는 데이터 레이크하우스는 데이터에서 신속하게 인사이트를 도출해내 여러 산업에 걸쳐 다양한 용도로 활용되고 있다.    코로나19 팬데믹이 미국에서 기승을 부릴 때였다. 대형 약국 운영기업 월그린의 의약품 및 헬스케어 플랫폼 기술 담당 부사장 루이지 구아다뇨는 6,500만 개가 넘는 백신의 유통 업무를 도맡았다. 이를 위해 그는 마이크로소프트 애저 기반 데이터브릭스 기술로 구현된 회사의 데이터 레이크하우스를 활용했다. 그는 “먼저 상황을 파악하기 위해 레이크하우스를 활용했다”라고 말했다. 회사는 백신 잔여분과 환자 수요를 정확히 알아내야 했고, 때마침 기술적 기반이 갖춰져 있었다. 비슷한 비즈니스 목표를 위해 데이터 레이크하우스를 막 도입했던 시기였다. 구아다뇨는 “적재적소에 제품을 공급하자”라는 목표로 구축한 이 시스템이 팬데믹의 요건과 맞아떨어졌다고 전했다. 이전에 회사는 데이터 레이크로 이 목표를 이루려 했지만 비용과 시간이라는 두 가지 장애물에 직면했다. 이는 월그린스뿐만 아니라 대다수 기업이 겪는 문제다. 그 결과 최근에는 기업이 가치 있는 인사이트를 손쉽게 도출하도록 지원하는 새로운 기술 패러다임이 등장했다.  일명 ‘쿼리 가속기’라 불리는 데이터 레이크하우스  기존 기업은 데이터에서 인사이트를 도출하고자 크게 2가지 시스템을 동시에 운영해왔다. 비즈니스를 운영하고 BI를 수집하는 기록 시스템인 데이터 웨어하우스와 그 뒤에 나온 데이터 레이크다. 데이터 레이크는 AI·ML로 더 고도화된 인사이트를 제공하기 위한 용도로 사용되곤 한다. 하지만 이러한 이중체계가 지속 가능하지 않음을 체감하는 기업이 점점 늘어나고 있다. 데이터 웨어하우스에서 데이터를 정형화해 쿼리한 뒤 결과값을 얻으려면 ETL이라는 매우 긴 프로세스를 거쳐야 한다. 한편 데이터 레이크에서 인사이트를 도출하려면 비정형 데이터를 모조리 집어넣은 뒤 숙련된 데이터 과학자가 파이썬, 아파치...

데이터웨어하우스 데이터레이크 데이터레이크하우스 비즈니스인텔리전스 쿼리가속기 데이터쿼리

2022.08.23

쿼리 가속기(query accelerator)라고도 불리는 데이터 레이크하우스는 데이터에서 신속하게 인사이트를 도출해내 여러 산업에 걸쳐 다양한 용도로 활용되고 있다.    코로나19 팬데믹이 미국에서 기승을 부릴 때였다. 대형 약국 운영기업 월그린의 의약품 및 헬스케어 플랫폼 기술 담당 부사장 루이지 구아다뇨는 6,500만 개가 넘는 백신의 유통 업무를 도맡았다. 이를 위해 그는 마이크로소프트 애저 기반 데이터브릭스 기술로 구현된 회사의 데이터 레이크하우스를 활용했다. 그는 “먼저 상황을 파악하기 위해 레이크하우스를 활용했다”라고 말했다. 회사는 백신 잔여분과 환자 수요를 정확히 알아내야 했고, 때마침 기술적 기반이 갖춰져 있었다. 비슷한 비즈니스 목표를 위해 데이터 레이크하우스를 막 도입했던 시기였다. 구아다뇨는 “적재적소에 제품을 공급하자”라는 목표로 구축한 이 시스템이 팬데믹의 요건과 맞아떨어졌다고 전했다. 이전에 회사는 데이터 레이크로 이 목표를 이루려 했지만 비용과 시간이라는 두 가지 장애물에 직면했다. 이는 월그린스뿐만 아니라 대다수 기업이 겪는 문제다. 그 결과 최근에는 기업이 가치 있는 인사이트를 손쉽게 도출하도록 지원하는 새로운 기술 패러다임이 등장했다.  일명 ‘쿼리 가속기’라 불리는 데이터 레이크하우스  기존 기업은 데이터에서 인사이트를 도출하고자 크게 2가지 시스템을 동시에 운영해왔다. 비즈니스를 운영하고 BI를 수집하는 기록 시스템인 데이터 웨어하우스와 그 뒤에 나온 데이터 레이크다. 데이터 레이크는 AI·ML로 더 고도화된 인사이트를 제공하기 위한 용도로 사용되곤 한다. 하지만 이러한 이중체계가 지속 가능하지 않음을 체감하는 기업이 점점 늘어나고 있다. 데이터 웨어하우스에서 데이터를 정형화해 쿼리한 뒤 결과값을 얻으려면 ETL이라는 매우 긴 프로세스를 거쳐야 한다. 한편 데이터 레이크에서 인사이트를 도출하려면 비정형 데이터를 모조리 집어넣은 뒤 숙련된 데이터 과학자가 파이썬, 아파치...

2022.08.23

'M&A로 커진 몸집 감당 불가'··· 美 과학연구 장비 대기업의 CRM DX 사례

글로벌 과학연구 장비 및 소프트웨어 솔루션 업체 써모 피셔 사이언티픽(Thermo Fisher Scientific)이 고객 경험을 혁신하고자 머신러닝과 로봇 프로세스 자동화(RPA) 기술 도입에 본격적으로 나섰다. 회사의 빠른 성장으로 하루가 다르게 쌓이는 업무량과 시장의 기대에 대응하기 위함이다.    2006년 써모 일렉트론(Thermo Electron)과 피셔 사이언티픽(Fisher Scientific)이 합병하면서 설립된 회사 써모 피셔 사이언티픽(Thermo Fisher Scientific)은 전 세계적으로 13만 명 이상의 직원을 보유한 세계 최대 규모의 과학 기기, 시약 및 소모품, 소프트웨어 서비스 공급 업체다. 이후 여러 회사를 인수하며 몸집을 불려왔다. 인수한 기업 중에는 2013년 라이프 테크놀로지스(Life Technologies), 2015년 알파 에이사(Alfa Aesar), 2016년 아피메트릭스(Afftmetrix) 및 에프이아이(FEI), 2018년 BD 어드밴스드 바이오프로세싱(BD Advanced Bioprocessing) 등이 있다. 급속도로 성장한 회사는 최근까지도 단편적인 수동 프로세스와 분산된 데이터 소스 및 시스템에 의존했다. 그러나 주문, 판매 및 고객 서비스 전체에 걸쳐 처리건수가 연간 1,000만개를 넘기자 회사는 낡은 업무 시스템이 고객의 수요를 맞추고 고객이 원하는 경험을 구현하도록 확장될 수 없다는 점을 깨달았다. 써모 피셔의 IT 부사장 존 스티븐스는 “회사는 인수한 업체의 제품이나 서비스를 상용화하고자 노력한다. 그러기 위해 인수된 회사의 비즈니스 모델이나 업무 체계를 최대한 유지한다”라며 “하지만 이 때문에 업체의 백오피스 업무 체계가 본 회사 전체의 생태계에 통합되지 못하는 때가 종종 있다. IT 팀의 업무는 이래서 어렵다. ERP, CRM, 미들웨어 등 상이한 여러 시스템을 유지하면서도 고객에게는 이런 복잡성을 숨긴 채 일관된 시장 진입 전략을 제시해야 하기 때문이다”라...

고객관리 프로그램 CMS CRM 데이터레이크 고객관리모듈 과학연구장비 과학연구소프트웨어

2022.08.17

글로벌 과학연구 장비 및 소프트웨어 솔루션 업체 써모 피셔 사이언티픽(Thermo Fisher Scientific)이 고객 경험을 혁신하고자 머신러닝과 로봇 프로세스 자동화(RPA) 기술 도입에 본격적으로 나섰다. 회사의 빠른 성장으로 하루가 다르게 쌓이는 업무량과 시장의 기대에 대응하기 위함이다.    2006년 써모 일렉트론(Thermo Electron)과 피셔 사이언티픽(Fisher Scientific)이 합병하면서 설립된 회사 써모 피셔 사이언티픽(Thermo Fisher Scientific)은 전 세계적으로 13만 명 이상의 직원을 보유한 세계 최대 규모의 과학 기기, 시약 및 소모품, 소프트웨어 서비스 공급 업체다. 이후 여러 회사를 인수하며 몸집을 불려왔다. 인수한 기업 중에는 2013년 라이프 테크놀로지스(Life Technologies), 2015년 알파 에이사(Alfa Aesar), 2016년 아피메트릭스(Afftmetrix) 및 에프이아이(FEI), 2018년 BD 어드밴스드 바이오프로세싱(BD Advanced Bioprocessing) 등이 있다. 급속도로 성장한 회사는 최근까지도 단편적인 수동 프로세스와 분산된 데이터 소스 및 시스템에 의존했다. 그러나 주문, 판매 및 고객 서비스 전체에 걸쳐 처리건수가 연간 1,000만개를 넘기자 회사는 낡은 업무 시스템이 고객의 수요를 맞추고 고객이 원하는 경험을 구현하도록 확장될 수 없다는 점을 깨달았다. 써모 피셔의 IT 부사장 존 스티븐스는 “회사는 인수한 업체의 제품이나 서비스를 상용화하고자 노력한다. 그러기 위해 인수된 회사의 비즈니스 모델이나 업무 체계를 최대한 유지한다”라며 “하지만 이 때문에 업체의 백오피스 업무 체계가 본 회사 전체의 생태계에 통합되지 못하는 때가 종종 있다. IT 팀의 업무는 이래서 어렵다. ERP, CRM, 미들웨어 등 상이한 여러 시스템을 유지하면서도 고객에게는 이런 복잡성을 숨긴 채 일관된 시장 진입 전략을 제시해야 하기 때문이다”라...

2022.08.17

‘일관성·유연성’ 덕에 각광… 데이터 레이크하우스 활용 사례

데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다.    보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다.  데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다.  데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.   반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.   론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.   대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflak...

데이터레이크 데이터웨어하우스 데이터레이크하우스 데이터브릭스 스노우플레이크 아마존레드시프트 비정형데이터 세가 엔터테인먼트

2022.07.11

데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다.    보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다.  데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다.  데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.   반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.   론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.   대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflak...

2022.07.11

가치와 속도에 중점 둔 글로벌 클라우드 3사의 데이터 복제 기술

최근 기업은 의사결정에 필요한 전체적인 그림 확보를 위한 민첩성과 탄력성을 높이고자 조직의 데이터를 클라우드 데이터 레이크 및 데이터 웨어하우스로 이동시키고 있다. 그 과정에서 기존의 데이터 통합 솔루션은 수동적이고 복잡한 프로세스로 인해 효율성이 떨어지며, 진행한다 하더라도 정작 데이터를 적용해야 하는 비즈니스 단계에 적합한 데이터가 아닌 경우가 발생한다. 따라서 이런 기존 솔루션의 한계를 보완한 모던 CDC 솔루션(Change Data Capture)이 주목받고 있다.  대표적인 모던 CDC 솔루션인 ‘클릭 리플리케이트(Qlik Replicate)’는 효율적인 데이터 전송 및 자동화된 데이터 변환 생성을 통해 소스 시스템 데이터 스트림 생성부터 분석 준비 데이터 세트 생성에 이르기까지 데이터 파이프라인을 가속화하는 솔루션으로 기존 데이터 통합 솔루션의 문제를 해결한다.    전 세계 수백 개의 기업이 사용하는 ‘클릭 리플리케이트(Qlik Replicate)’ 클릭 리플리케이트의 특징을 알아보면, 시스템의 중지 없이 데이터를 복제해 클라우드로 이동해(zero-time) 클라우드 환경의 데이터에서 보다 쉽고, 안전하며, 효율적으로 가치를 얻어낼 수 있게 지원한다.  또한, 소스에서 대상으로 실시간으로 데이터를 이동하며, 모든 데이터는 엔드 투 엔드 복제를 완전히 자동화하는 간단한 그래픽 인터페이스를 통해 관리된다. 데이터 엔지니어는 간소화되고 에이전트가 없는 구성을 통해, 선도적인 변경 데이터 캡처(CDC) 기술을 기반으로, 데이터 파이프라인을 쉽게 설정, 제어 및 모니터링할 수 있다.  아래 화면과 같이 수동으로 정보를 입력할 필요 없이 필터, 단일 테이블/뷰에 대한 변환 정의 및 전역 변환을 정의하는 GUI 대화 상자를 제공하는 Expression Builder 기능을 통해 규칙을 쉽게 작성할 수 있는 특징을 가진다.      클라우드별 베스트 프랙티스 제공, 어떤 클라우드 선...

GTPlus Qlik 데이터레이크 CDC 클릭리플리케이트 데이터파이프라인

2022.07.06

최근 기업은 의사결정에 필요한 전체적인 그림 확보를 위한 민첩성과 탄력성을 높이고자 조직의 데이터를 클라우드 데이터 레이크 및 데이터 웨어하우스로 이동시키고 있다. 그 과정에서 기존의 데이터 통합 솔루션은 수동적이고 복잡한 프로세스로 인해 효율성이 떨어지며, 진행한다 하더라도 정작 데이터를 적용해야 하는 비즈니스 단계에 적합한 데이터가 아닌 경우가 발생한다. 따라서 이런 기존 솔루션의 한계를 보완한 모던 CDC 솔루션(Change Data Capture)이 주목받고 있다.  대표적인 모던 CDC 솔루션인 ‘클릭 리플리케이트(Qlik Replicate)’는 효율적인 데이터 전송 및 자동화된 데이터 변환 생성을 통해 소스 시스템 데이터 스트림 생성부터 분석 준비 데이터 세트 생성에 이르기까지 데이터 파이프라인을 가속화하는 솔루션으로 기존 데이터 통합 솔루션의 문제를 해결한다.    전 세계 수백 개의 기업이 사용하는 ‘클릭 리플리케이트(Qlik Replicate)’ 클릭 리플리케이트의 특징을 알아보면, 시스템의 중지 없이 데이터를 복제해 클라우드로 이동해(zero-time) 클라우드 환경의 데이터에서 보다 쉽고, 안전하며, 효율적으로 가치를 얻어낼 수 있게 지원한다.  또한, 소스에서 대상으로 실시간으로 데이터를 이동하며, 모든 데이터는 엔드 투 엔드 복제를 완전히 자동화하는 간단한 그래픽 인터페이스를 통해 관리된다. 데이터 엔지니어는 간소화되고 에이전트가 없는 구성을 통해, 선도적인 변경 데이터 캡처(CDC) 기술을 기반으로, 데이터 파이프라인을 쉽게 설정, 제어 및 모니터링할 수 있다.  아래 화면과 같이 수동으로 정보를 입력할 필요 없이 필터, 단일 테이블/뷰에 대한 변환 정의 및 전역 변환을 정의하는 GUI 대화 상자를 제공하는 Expression Builder 기능을 통해 규칙을 쉽게 작성할 수 있는 특징을 가진다.      클라우드별 베스트 프랙티스 제공, 어떤 클라우드 선...

2022.07.06

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

데이터브릭스 데이터 통합 플랫폼 데이터 파이프라인 ETL 데이터레이크 데이터 웨어하우스

2022.04.08

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

2022.04.08

효성인포메이션시스템, 데이터 레이크 시장 공략 강화··· "기업들 데이터 혁신 지원"

효성인포메이션시스템은 오브젝트 스토리지 및 초고성능 파일 스토리지 솔루션 ‘HCSF(Hitachi Content Software for File)’를 활용해 데이터 레이크(Data Lake) 시장을 적극 공략한다고 27일 밝혔다. 이를 통해 대용량 데이터를 보유하고 데이터 기반 의사 결정으로 디지털 트랜스포메이션을 추진하는 기업들의 데이터 혁신을 지원할 계획이다. 효성인포메이션시스템은 국내 대형 제조기업의 ‘데이터 분석 플랫폼 구축 프로젝트’를 진행 중이다. 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축하고, 대용량 데이터 증가시 선형적으로 확장 가능한 아키텍처 설계, 고성능 데이터 자동 티어링을 통해 IT 비용 절감까지 기대된다고 업체 측은 설명했다. 이 프로젝트에는 효성인포메이션시스템이 올해 공개한 HCSF가 도입됐다. HCSF는 고성능 병렬 파일 시스템과 오브젝트 스토리지가 통합된 초고성능 파일 스토리지 솔루션으로, HPC(High-Performance Computing), AI/ML 분석, GPU 가속화 워크로드 최적 환경을 제공한다고 회사 측은 전했다. HCSF는 오브젝트 스토리지의 가용량과 클라우드 기능을 갖춘 분산 파일시스템 속도를 제공하며, 파일과 오브젝트 프로토콜이 지원되어 데이터 수집이 용이하다. 또한 정책기반 티어링 파일 시스템 운영으로 각 티어별 데이터 관리와 모니터링을 지원하고, 비용 효율적인 데이터 관리가 가능하다. 특히 POSIX, SMB, S3, CSI(Container Storage Interface) 및 엔비디아 GDS(GPUDirect Storage) 지원으로 모든 프로토콜 간 완전한 데이터 공유가 가능하다. HCSF는 검증된 초고성능 병렬 파일시스템(WekaFS)을 탑재하고 있으며, 굵직한 글로벌 구축 사례들을 확보했다. 한 글로벌 카드사는 HCSF를 도입해 실시간 부정거래 방지 시스템, 고성능 데이터 보호 등 새로운 분석 워크로드를 위한 고성능 스토리지로 활용하고 있다. 신약 개발, ...

효성인포메이션시스템 스토리지 데이터레이크

2021.10.27

효성인포메이션시스템은 오브젝트 스토리지 및 초고성능 파일 스토리지 솔루션 ‘HCSF(Hitachi Content Software for File)’를 활용해 데이터 레이크(Data Lake) 시장을 적극 공략한다고 27일 밝혔다. 이를 통해 대용량 데이터를 보유하고 데이터 기반 의사 결정으로 디지털 트랜스포메이션을 추진하는 기업들의 데이터 혁신을 지원할 계획이다. 효성인포메이션시스템은 국내 대형 제조기업의 ‘데이터 분석 플랫폼 구축 프로젝트’를 진행 중이다. 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축하고, 대용량 데이터 증가시 선형적으로 확장 가능한 아키텍처 설계, 고성능 데이터 자동 티어링을 통해 IT 비용 절감까지 기대된다고 업체 측은 설명했다. 이 프로젝트에는 효성인포메이션시스템이 올해 공개한 HCSF가 도입됐다. HCSF는 고성능 병렬 파일 시스템과 오브젝트 스토리지가 통합된 초고성능 파일 스토리지 솔루션으로, HPC(High-Performance Computing), AI/ML 분석, GPU 가속화 워크로드 최적 환경을 제공한다고 회사 측은 전했다. HCSF는 오브젝트 스토리지의 가용량과 클라우드 기능을 갖춘 분산 파일시스템 속도를 제공하며, 파일과 오브젝트 프로토콜이 지원되어 데이터 수집이 용이하다. 또한 정책기반 티어링 파일 시스템 운영으로 각 티어별 데이터 관리와 모니터링을 지원하고, 비용 효율적인 데이터 관리가 가능하다. 특히 POSIX, SMB, S3, CSI(Container Storage Interface) 및 엔비디아 GDS(GPUDirect Storage) 지원으로 모든 프로토콜 간 완전한 데이터 공유가 가능하다. HCSF는 검증된 초고성능 병렬 파일시스템(WekaFS)을 탑재하고 있으며, 굵직한 글로벌 구축 사례들을 확보했다. 한 글로벌 카드사는 HCSF를 도입해 실시간 부정거래 방지 시스템, 고성능 데이터 보호 등 새로운 분석 워크로드를 위한 고성능 스토리지로 활용하고 있다. 신약 개발, ...

2021.10.27

블로그 | 데이터베이스는 잊어라, 이제 필요한 것은 '데이터 플랫폼'

마크 포터의 이력은 흥미롭다. 포터는 AWS의 RDS(Relational Database Service)와 오로라(Aurora)를 운영한 적이 있으며, 그 이전에는 오라클에서 10년 이상을 근무하고, 이제는 몽고DB에서 일하고 있다. 데이터베이스 선구자격인 기업 3곳을 거친 포터는 데이터베이스 환경의 진화를 이야기할 수 있는 흥미로운 위치에 있다. 포터는 “백 오피스와 프론트 오피스 간의 분열이 해소되고 있다”고 관찰한다. 즉, 한때 명확하게 분리됐던 기록 시스템과 참여(engagement) 시스템이 통합되고 있다는 것이다. 정말 그렇다면 포터의 관찰이 데이터 전략 현대화에 전념하는 기업에는 어떤 의미가 있을까? 포터는 기업이 “데이터베이스 이상을 생각하고, 모든 관련 데이터 세트에서 실시간으로 데이터를 처리, 저장, 보호, 분석할 수 있는 ‘진짜 데이터 플랫폼’을 설계”해야 할 시점이라고 주장한다. 동시에 데이터 웨어하우스와 데이터 레이크를 새롭게 재구상하는 방법이 될 수도 있지 않을까?   데이터 시스템이 던지는 질문 오랫동안 데이터는 정말 각양각색으로 존재했다. 백 오피스 시스템은 행과 열에 잘 맞는 정형화된 데이터에 의존했다. 이러한 관계형 데이터베이스는 당시 놀라운 혁신이었으며, 지금까지도 기업에 많은 기여를 하고 있다. 하지만 필자는 과거 다음과 같은 주장을 했다. “편리하게 정형화된 관계형 데이터베이스의 세계는 산더미 같은 비정형, 반정형 데이터로 인해 점점 복잡해진다. 새로운 데이터 대다수는 지난 수십 년 동안 (ERP와 CRM 시스템 등)기록 시스템을 밑바탕으로 구축되었지만, 제프리 무어가 말한 참여 시스템으로 만들어진다.” 포터는 세 번째 유형으로 ‘인사이트 시스템(Systems of Insight)’을 추가했다. 포터는 다음과 같이 설명한다. “수십년 동안 기업은 기록 시스템과 참여 시스템을 유지해왔다. 기록 시스템은 주로 내부 프로그램과 사용자가 액세스하는 미션 크리티컬한 기본 정보 소스이고, 참여 시스템은 고객과 직원이...

데이터레이크

2021.03.18

마크 포터의 이력은 흥미롭다. 포터는 AWS의 RDS(Relational Database Service)와 오로라(Aurora)를 운영한 적이 있으며, 그 이전에는 오라클에서 10년 이상을 근무하고, 이제는 몽고DB에서 일하고 있다. 데이터베이스 선구자격인 기업 3곳을 거친 포터는 데이터베이스 환경의 진화를 이야기할 수 있는 흥미로운 위치에 있다. 포터는 “백 오피스와 프론트 오피스 간의 분열이 해소되고 있다”고 관찰한다. 즉, 한때 명확하게 분리됐던 기록 시스템과 참여(engagement) 시스템이 통합되고 있다는 것이다. 정말 그렇다면 포터의 관찰이 데이터 전략 현대화에 전념하는 기업에는 어떤 의미가 있을까? 포터는 기업이 “데이터베이스 이상을 생각하고, 모든 관련 데이터 세트에서 실시간으로 데이터를 처리, 저장, 보호, 분석할 수 있는 ‘진짜 데이터 플랫폼’을 설계”해야 할 시점이라고 주장한다. 동시에 데이터 웨어하우스와 데이터 레이크를 새롭게 재구상하는 방법이 될 수도 있지 않을까?   데이터 시스템이 던지는 질문 오랫동안 데이터는 정말 각양각색으로 존재했다. 백 오피스 시스템은 행과 열에 잘 맞는 정형화된 데이터에 의존했다. 이러한 관계형 데이터베이스는 당시 놀라운 혁신이었으며, 지금까지도 기업에 많은 기여를 하고 있다. 하지만 필자는 과거 다음과 같은 주장을 했다. “편리하게 정형화된 관계형 데이터베이스의 세계는 산더미 같은 비정형, 반정형 데이터로 인해 점점 복잡해진다. 새로운 데이터 대다수는 지난 수십 년 동안 (ERP와 CRM 시스템 등)기록 시스템을 밑바탕으로 구축되었지만, 제프리 무어가 말한 참여 시스템으로 만들어진다.” 포터는 세 번째 유형으로 ‘인사이트 시스템(Systems of Insight)’을 추가했다. 포터는 다음과 같이 설명한다. “수십년 동안 기업은 기록 시스템과 참여 시스템을 유지해왔다. 기록 시스템은 주로 내부 프로그램과 사용자가 액세스하는 미션 크리티컬한 기본 정보 소스이고, 참여 시스템은 고객과 직원이...

2021.03.18

칼럼ㅣ쿠버네티스와 클라우드 이식성은 ‘사람’에 관한 것이다

‘쿠버네티스(Kubernetes)’가 마법처럼 애플리케이션을 이식해주리라 기대한다면 오산이다. 쿠버네티스는 그렇진 않다. 그러나 더 나은 역량을 제공하는 건 분명하다.  쿠버네티스가 멀티클라우드 전략의 성공 비결이라고 들었는가? 쿠버네티스가 데이터센터에서 실행되든 또는 퍼블릭 클라우드에서 실행되든 상관없이 여러 클라우드 간에 애플리케이션을 원활하게 이식해준다고 믿었는가? 그렇다면 안타깝게 됐다. 물론 믿은 게 잘못은 아니다. 벤더들이 ‘이식성’과 ‘쿠버네티스’에 관해 온갖 종류의 마법을 약속해왔기 때문이다.    가트너 애널리스트 마르코 마이나르디도 애플리케이션 이식성을 위해 쿠버네티스를 채택하는 것이 좋은 생각이 아니라고 지적했다. 그에 따르면 ‘기업이 애플리케이션을 이식할 수 있도록 쿠버네티스를 사용해야 하는가?’라는 질문에 대한 대답은 바로 ‘아니요’다.  애플리케이션을 이식하는 데 쿠버네티스를 사용할 수 없다는 것은 아니다. 사용할 수 있다. 그러나 ‘이식성’의 본질은 일반적으로 생각되는 방식과 다르다. 그렇다면, 기업은 쿠버네티스 기반 이식성을 어떻게 생각해야 할까?  여기서 거기까지 갈 수 없다 먼저, 멀티클라우드에 관한 모든 아이디어가 잘못됐을 수 있다. 물론 편견일지도 모르겠다(현재 필자는 AWS에서 일하고 있다). 그러나 필자는 멀티클라우드, 마법 같은 애플리케이션 이식성에 대한 편견은 잘못된 생각에서 비롯됐다고 진단하고 싶다.  AWS에 합류하기 훨씬 더 이전에, 필자는 “벤더들이 멀티클라우드로 허풍을 떨면서 거금을 벌고 있다. 반면에 고객은 최소한의 공통분모 기능만 사용할 수 있는 클라우드 전략과 엄청난 비용에 발이 묶이고 있다”라고 기술한 바 있다.  클라우드 비용 절감을 지원하는 덕빌 그룹(Duckbill Group)의 CEO 코리 퀸도 여러 이유로 멀티클라우드가 ‘최악의 관행(the worst practice)’이라고 주장하면서 다음과 같이 말했다.  ...

클라우드 애플리케이션 이식성 쿠버네티스 멀티클라우드 가트너 데이터레이크 워크로드 서버리스 네이티브 클라우드

2020.09.15

‘쿠버네티스(Kubernetes)’가 마법처럼 애플리케이션을 이식해주리라 기대한다면 오산이다. 쿠버네티스는 그렇진 않다. 그러나 더 나은 역량을 제공하는 건 분명하다.  쿠버네티스가 멀티클라우드 전략의 성공 비결이라고 들었는가? 쿠버네티스가 데이터센터에서 실행되든 또는 퍼블릭 클라우드에서 실행되든 상관없이 여러 클라우드 간에 애플리케이션을 원활하게 이식해준다고 믿었는가? 그렇다면 안타깝게 됐다. 물론 믿은 게 잘못은 아니다. 벤더들이 ‘이식성’과 ‘쿠버네티스’에 관해 온갖 종류의 마법을 약속해왔기 때문이다.    가트너 애널리스트 마르코 마이나르디도 애플리케이션 이식성을 위해 쿠버네티스를 채택하는 것이 좋은 생각이 아니라고 지적했다. 그에 따르면 ‘기업이 애플리케이션을 이식할 수 있도록 쿠버네티스를 사용해야 하는가?’라는 질문에 대한 대답은 바로 ‘아니요’다.  애플리케이션을 이식하는 데 쿠버네티스를 사용할 수 없다는 것은 아니다. 사용할 수 있다. 그러나 ‘이식성’의 본질은 일반적으로 생각되는 방식과 다르다. 그렇다면, 기업은 쿠버네티스 기반 이식성을 어떻게 생각해야 할까?  여기서 거기까지 갈 수 없다 먼저, 멀티클라우드에 관한 모든 아이디어가 잘못됐을 수 있다. 물론 편견일지도 모르겠다(현재 필자는 AWS에서 일하고 있다). 그러나 필자는 멀티클라우드, 마법 같은 애플리케이션 이식성에 대한 편견은 잘못된 생각에서 비롯됐다고 진단하고 싶다.  AWS에 합류하기 훨씬 더 이전에, 필자는 “벤더들이 멀티클라우드로 허풍을 떨면서 거금을 벌고 있다. 반면에 고객은 최소한의 공통분모 기능만 사용할 수 있는 클라우드 전략과 엄청난 비용에 발이 묶이고 있다”라고 기술한 바 있다.  클라우드 비용 절감을 지원하는 덕빌 그룹(Duckbill Group)의 CEO 코리 퀸도 여러 이유로 멀티클라우드가 ‘최악의 관행(the worst practice)’이라고 주장하면서 다음과 같이 말했다.  ...

2020.09.15

"비즈니스 가치 입증이 핵심"··· 美 엔진 제조사의 디지털 변혁 사례 

230억 달러 규모의 엔진 제조사 커민스(Cummins)의 CIO 셰리 아홀름이 대규모 변화를 끌어내기 위한 전략을 공유했다.  ‘커민스(Cummins)’는 모든 것이 거대하다. 포춘 500대 기업인 커민스는 대형 차량용 엔진을 제조하고 있다. 전 세계적으로 6만 3,000명의 직원이 있으며, 작년 약 230억 달러의 매출을 기록했다.  ‘디지털 기술’이 커민스 제품에 적용되면서 이 거대한 기업의 많은 부분이 모두 함께 변화하고 있다. 여기에는 제품 엔지니어링과 연계된 IT의 역할, 새 디지털 제품을 다루는 영업팀의 접근방식, 데이터를 중심으로 한 경영진의 마인드셋 등이 포함된다.  커민스 CIO 셰리 아홀름에 따르면 대규모 변화를 주도하는 그의 접근방식은 비즈니스 가치를 입증하는 것, 그리고 인내심을 가지는 것에 중점을 두고 있다.    Q: 커민스에게 ‘디지털 전략’이 갖는 의미는? A: 커민스의 디지털 전략은 두 가지 요소로 나뉜다. 첫 번째는 핵심 인프라다. 우리는 물리적인 문서와 프로세스를 디지털화하고, 클라우드로 이전하고 있다. 현장 서비스 운영이 한 사례다.  예를 들어 기관차 또는 광산에서 사용하는 덤프트럭에 넣는 엔진을 포함해 커민스 제품 다수는 현장 서비스 기술자가 필요하다. 공장에서 정비하기에는 너무 크기 때문이다.  전통적으로, 기술자들은 현장에 나가기 전에 문서를 통해 안전성을 점검했다. 현재 이 과정은 디지털로 이뤄진다. 기술자들은 사진과 코멘트를 통해 현장에서 실제로 보고 있는 것을 캡처할 수 있다. 그리고 이미지 분석을 사용해 전 세계 지역 사무소에 있는 팀 리더들에게 실시간 보고서를 제공하고, 여러 현장에 걸쳐 안전 문제가 있는지 확인한다.  또한 여러 현장의 다른 기술자들에게 얻은 안전 관련 데이터를 바탕으로 안전장비 권고사항을 제공한다. 이는 ‘연필을 드는 것(pencil lifting)’처럼 단순 반복 업무를 자동화하는 것이 아니다. 실제로...

커민스 제조사 빅데이터 데이터 애널리틱스 데이터레이크 비즈니스 가치 클라우드 디지털 변혁 디지털 트랜스포메이션 데브옵스 프라이버시

2020.08.07

230억 달러 규모의 엔진 제조사 커민스(Cummins)의 CIO 셰리 아홀름이 대규모 변화를 끌어내기 위한 전략을 공유했다.  ‘커민스(Cummins)’는 모든 것이 거대하다. 포춘 500대 기업인 커민스는 대형 차량용 엔진을 제조하고 있다. 전 세계적으로 6만 3,000명의 직원이 있으며, 작년 약 230억 달러의 매출을 기록했다.  ‘디지털 기술’이 커민스 제품에 적용되면서 이 거대한 기업의 많은 부분이 모두 함께 변화하고 있다. 여기에는 제품 엔지니어링과 연계된 IT의 역할, 새 디지털 제품을 다루는 영업팀의 접근방식, 데이터를 중심으로 한 경영진의 마인드셋 등이 포함된다.  커민스 CIO 셰리 아홀름에 따르면 대규모 변화를 주도하는 그의 접근방식은 비즈니스 가치를 입증하는 것, 그리고 인내심을 가지는 것에 중점을 두고 있다.    Q: 커민스에게 ‘디지털 전략’이 갖는 의미는? A: 커민스의 디지털 전략은 두 가지 요소로 나뉜다. 첫 번째는 핵심 인프라다. 우리는 물리적인 문서와 프로세스를 디지털화하고, 클라우드로 이전하고 있다. 현장 서비스 운영이 한 사례다.  예를 들어 기관차 또는 광산에서 사용하는 덤프트럭에 넣는 엔진을 포함해 커민스 제품 다수는 현장 서비스 기술자가 필요하다. 공장에서 정비하기에는 너무 크기 때문이다.  전통적으로, 기술자들은 현장에 나가기 전에 문서를 통해 안전성을 점검했다. 현재 이 과정은 디지털로 이뤄진다. 기술자들은 사진과 코멘트를 통해 현장에서 실제로 보고 있는 것을 캡처할 수 있다. 그리고 이미지 분석을 사용해 전 세계 지역 사무소에 있는 팀 리더들에게 실시간 보고서를 제공하고, 여러 현장에 걸쳐 안전 문제가 있는지 확인한다.  또한 여러 현장의 다른 기술자들에게 얻은 안전 관련 데이터를 바탕으로 안전장비 권고사항을 제공한다. 이는 ‘연필을 드는 것(pencil lifting)’처럼 단순 반복 업무를 자동화하는 것이 아니다. 실제로...

2020.08.07

심리·통계·파이썬··· '융합' 역량 갖춘 9년차 머신러닝 전문가 이야기

머신러닝은 현재 IT 업계에서 가장 수요가 많은 기술이다. 개인화 소프트웨어 및 서비스 제공업체 세일쓰루(Sailthru)의 수석 머신러닝 엔지니어 카일 햄린과 머신러닝 경력에 관해 이야기를 나눴다. 인공지능의 하위개념이자 패턴과 추론을 통해 시스템이 특정 작업을 수행하도록 하는 통계학적 모델 및 알고리즘인 머신러닝은 오늘날 기술 구직 시장에서 가장 수요가 많은 기술에 속한다.  머신러닝 엔지니어라는 직업 전망이 밝은 것은 어쩌면 너무나도 당연한 일이다. 온라인 교육 플랫폼 스터디닷컴(Study.com)에 따르면, 머신러닝 엔지니어는 습득한 지식을 응용해 시스템과 기계를 개발할 수 있는 고급 전문가다. 머신러닝 엔지니어의 주요 업무는 기계가 특정 작업을 수행하도록 프로그래밍하는 차원을 넘어서 구체적인 지시를 내리지 않아도 알아서 행동하게 하는 프로그램을 만드는 것이라고 스터디닷컴은 설명했다.  예를 들면 자율주행차나 특정 개인의 관심사를 파악할 수 있는 프로그램을 개발하는 것 등이 머신러닝 엔지니어의 업무에 포함된다. 스터디닷컴은 “맞춤형 뉴스 피드부터 맞춤형 웹 검색에 이르기까지 머신러닝 엔지니어는 수많은 개인들의 일상생활과 기술 사용 방식에 일조하고 있다”라고 말했다.    머신러닝 엔지니어가 갖춰야 할 직무 역량에는 컴퓨터 프로그래밍(C++ 또는 자바와 같은 특정 언어에 대한 지식 포함), 수학, 데이터 애널리틱스, 데이터 마이닝, 클라우드 애플리케이션 지식, 원활한 의사소통 능력 등이 있다. 링크드인 선정 2019년 가장 유망한 직업 순위(Most Promising Jobs listing for 2019)에 따르면 머신러닝 엔지니어는 15위를 차지했다. 해당 순위는 링크드인 회원 정보와 채용 및 연봉 데이터를 바탕으로 연봉, 구인 건수, 전년 대비 구인 건수 증가율 등을 분석한 결과다.  이밖에 구인구직 사이트 인디드(Indeed)에 따르면, 2018년과 2019년 사이 직무 설명에 ‘A...

빅데이터 데이터엔지니어링 데이터애널리틱스 데이터레이크 데이터과학 딥러닝 머신러닝 파이썬 자동화 인공지능 사이버보안 데이터웨어하우스 머신러닝엔지니어

2020.04.29

머신러닝은 현재 IT 업계에서 가장 수요가 많은 기술이다. 개인화 소프트웨어 및 서비스 제공업체 세일쓰루(Sailthru)의 수석 머신러닝 엔지니어 카일 햄린과 머신러닝 경력에 관해 이야기를 나눴다. 인공지능의 하위개념이자 패턴과 추론을 통해 시스템이 특정 작업을 수행하도록 하는 통계학적 모델 및 알고리즘인 머신러닝은 오늘날 기술 구직 시장에서 가장 수요가 많은 기술에 속한다.  머신러닝 엔지니어라는 직업 전망이 밝은 것은 어쩌면 너무나도 당연한 일이다. 온라인 교육 플랫폼 스터디닷컴(Study.com)에 따르면, 머신러닝 엔지니어는 습득한 지식을 응용해 시스템과 기계를 개발할 수 있는 고급 전문가다. 머신러닝 엔지니어의 주요 업무는 기계가 특정 작업을 수행하도록 프로그래밍하는 차원을 넘어서 구체적인 지시를 내리지 않아도 알아서 행동하게 하는 프로그램을 만드는 것이라고 스터디닷컴은 설명했다.  예를 들면 자율주행차나 특정 개인의 관심사를 파악할 수 있는 프로그램을 개발하는 것 등이 머신러닝 엔지니어의 업무에 포함된다. 스터디닷컴은 “맞춤형 뉴스 피드부터 맞춤형 웹 검색에 이르기까지 머신러닝 엔지니어는 수많은 개인들의 일상생활과 기술 사용 방식에 일조하고 있다”라고 말했다.    머신러닝 엔지니어가 갖춰야 할 직무 역량에는 컴퓨터 프로그래밍(C++ 또는 자바와 같은 특정 언어에 대한 지식 포함), 수학, 데이터 애널리틱스, 데이터 마이닝, 클라우드 애플리케이션 지식, 원활한 의사소통 능력 등이 있다. 링크드인 선정 2019년 가장 유망한 직업 순위(Most Promising Jobs listing for 2019)에 따르면 머신러닝 엔지니어는 15위를 차지했다. 해당 순위는 링크드인 회원 정보와 채용 및 연봉 데이터를 바탕으로 연봉, 구인 건수, 전년 대비 구인 건수 증가율 등을 분석한 결과다.  이밖에 구인구직 사이트 인디드(Indeed)에 따르면, 2018년과 2019년 사이 직무 설명에 ‘A...

2020.04.29

우리 회사 데이터 레이크는 얼마나 개방적인가?

데이터 레이크는 변환된, 신뢰할 수 있는 데이터 집합과 함께 원시 형식의 데이터를 저장하고, 데이터 탐색과 인터랙티브 분석, 머신러닝과 같은 다양한 분석 작업을 위해 이 데이터에 대한 프로그램식 액세스와 SQL 기반 액세스를 모두 제공하는 시스템 또는 리포지토리다. 데이터 레이크에 저장되는 데이터에는 관계형 데이터베이스의 구조적 데이터(열과 행), 반구조적 데이터(CSV, 로그, XML, JSON), 비구조적 데이터(이메일, 문서, PDF), 바이너리 데이터(이미지, 오디오, 비디오)가 포함된다.   데이터 레이크의 과제는 사유 형식이나 시스템에 종속되지 않는 것이다. 종속은 다른 용도를 위해 데이터를 시스템 안팎으로 이동하거나 다른 툴을 사용해 데이터를 처리하는 역량을 제약하고, 데이터 레이크를 단일 클라우드 환경에 묶을 수도 있다. 따라서 기업은 데이터를 개방 형식으로 저장하고 개방형 표준 기반 인터페이스를 통해 액세스할 수 있는 개방형 데이터 레이크를 구축하도록 노력해야 한다. 데이터 저장, 데이터 관리, 데이터 처리, 운영, 데이터 액세스, 거버넌스, 보안을 포함한 시스템의 모든 측면에서 개방형 원칙을 고수해야 한다.   개방 형식은 개방형 표준을 기반으로 해서 특정 벤더의 사유 확장 없이 공개 커뮤니티 중심의 프로세스를 통해 개발되고 공유되는 형식이다. 예를 들어 개방형 데이터 형식은 ORC나 파케이(Parquet)과 같이 사양이 커뮤니티에 게시되어 어느 조직에서나 해당 형식으로 된 데이터를 읽는 툴과 애플리케이션을 만들 수 있는, 플랫폼 독립적이고 기계가 읽을 수 있는 데이터 형식이다.   일반적인 데이터 레이크에는 다음과 같은 기능이 있다. -    데이터 흡수와 저장 -    지속적 데이터 엔지니어링을 위한 데이터 처리 및 지원 -    데이터 액세스와 소비 -    디스커버리 가능성(discoverabili...

빅데이터 데이터베이스 머신러닝 데이터레이크

2020.04.16

데이터 레이크는 변환된, 신뢰할 수 있는 데이터 집합과 함께 원시 형식의 데이터를 저장하고, 데이터 탐색과 인터랙티브 분석, 머신러닝과 같은 다양한 분석 작업을 위해 이 데이터에 대한 프로그램식 액세스와 SQL 기반 액세스를 모두 제공하는 시스템 또는 리포지토리다. 데이터 레이크에 저장되는 데이터에는 관계형 데이터베이스의 구조적 데이터(열과 행), 반구조적 데이터(CSV, 로그, XML, JSON), 비구조적 데이터(이메일, 문서, PDF), 바이너리 데이터(이미지, 오디오, 비디오)가 포함된다.   데이터 레이크의 과제는 사유 형식이나 시스템에 종속되지 않는 것이다. 종속은 다른 용도를 위해 데이터를 시스템 안팎으로 이동하거나 다른 툴을 사용해 데이터를 처리하는 역량을 제약하고, 데이터 레이크를 단일 클라우드 환경에 묶을 수도 있다. 따라서 기업은 데이터를 개방 형식으로 저장하고 개방형 표준 기반 인터페이스를 통해 액세스할 수 있는 개방형 데이터 레이크를 구축하도록 노력해야 한다. 데이터 저장, 데이터 관리, 데이터 처리, 운영, 데이터 액세스, 거버넌스, 보안을 포함한 시스템의 모든 측면에서 개방형 원칙을 고수해야 한다.   개방 형식은 개방형 표준을 기반으로 해서 특정 벤더의 사유 확장 없이 공개 커뮤니티 중심의 프로세스를 통해 개발되고 공유되는 형식이다. 예를 들어 개방형 데이터 형식은 ORC나 파케이(Parquet)과 같이 사양이 커뮤니티에 게시되어 어느 조직에서나 해당 형식으로 된 데이터를 읽는 툴과 애플리케이션을 만들 수 있는, 플랫폼 독립적이고 기계가 읽을 수 있는 데이터 형식이다.   일반적인 데이터 레이크에는 다음과 같은 기능이 있다. -    데이터 흡수와 저장 -    지속적 데이터 엔지니어링을 위한 데이터 처리 및 지원 -    데이터 액세스와 소비 -    디스커버리 가능성(discoverabili...

2020.04.16

'전진 위한 후퇴'··· 클라우드서 온프레미스로 송환하는 기업들

퍼블릭 클라우드는 애플리케이션을 신속하게 구축하고 실행시킨다는 이점이 있다. 하지만 일부 CIO는 비즈니스 민첩성을 확보하려다가 오히려 더 비싼 대가를 치르고 있음을 깨닫고 다시 클라우드 송환을 재고하고 있다.  퍼블릭 클라우드가 비즈니스 민첩성을 향상시킬 수 있지만 핵심 컴퓨팅 자원의 오프로딩에는 부정적인 측면이 없지 않다. 일부 IT 리더들은 특정 애플리케이션의 경우 온프레미스보다 퍼블릭 클라우드의 지출 비용이 더 크다는 사실을 깨닫고 있다. 이에 따라 CIO들은 IT 전략을 재검토하며 해당 애플리케이션을 온프레미스로 복귀시키려 하고 있다.    스토리지 회사 씨게이트의 CIO 라비 나이크는 그간의 경험으로 이를 잘 알고 있다고 말했다. AWS로 IT 인프라를 이전했던 당시 나이크는 클라우드 컴퓨팅이 제공하는 이점을 빠르게 실감했다. 해당 마이그레이션은 4곳의 데이터센터를 한 곳으로 통합하는 글로벌 계획의 일환이었다.  하지만 나이크는 빅데이터 시스템을 AWS에서 온프레미스로 복귀시켰다. 빅데이터 시스템에서 생성되는 데이터가 높은 대역폭을 요구하면서 자사 데이터센터보다 훨씬 더 많은 운영 비용이 들어간다는 것을 깨달았기 때문이다. 나이크는 “컴퓨팅은 온디맨드다. 따라서 탄력적인 클라우드에 최적이다. 하지만 스토리지는 매일 매초 비용이 계속 증가한다”라고 진단했다.  이보 전진 위한 클라우드의 일보 후퇴 인터넷을 통해 IT 자원을 임대하는 클라우드 컴퓨팅에서 온프레미스로 복귀하는 현상을 일컫는 용어가 있다. 클라우드 송환(Cloud Repatriation)이다. 퍼블릭 클라우드 사용량이 증가하고 있는 가운데 이러한 송환 현상도 점점 더 보편화되고 있다. IDC의 한 설문조사에 따르면 IT 리더의 85%가 퍼블릭 클라우드로부터 온프레미스로 워크로드를 복귀시키는 중이라고 응답했다.    IDC의 애널리스트 스리람 수브라마니안은 대부분 조직이 처음에는 수정 없이 그저 들어 옮기는 방식(Li...

클라우드 데이터 퍼블릭클라우드 온프레미스 IT인프라 프라이빗클라우드 데이터레이크 멀티클라우드

2020.03.30

퍼블릭 클라우드는 애플리케이션을 신속하게 구축하고 실행시킨다는 이점이 있다. 하지만 일부 CIO는 비즈니스 민첩성을 확보하려다가 오히려 더 비싼 대가를 치르고 있음을 깨닫고 다시 클라우드 송환을 재고하고 있다.  퍼블릭 클라우드가 비즈니스 민첩성을 향상시킬 수 있지만 핵심 컴퓨팅 자원의 오프로딩에는 부정적인 측면이 없지 않다. 일부 IT 리더들은 특정 애플리케이션의 경우 온프레미스보다 퍼블릭 클라우드의 지출 비용이 더 크다는 사실을 깨닫고 있다. 이에 따라 CIO들은 IT 전략을 재검토하며 해당 애플리케이션을 온프레미스로 복귀시키려 하고 있다.    스토리지 회사 씨게이트의 CIO 라비 나이크는 그간의 경험으로 이를 잘 알고 있다고 말했다. AWS로 IT 인프라를 이전했던 당시 나이크는 클라우드 컴퓨팅이 제공하는 이점을 빠르게 실감했다. 해당 마이그레이션은 4곳의 데이터센터를 한 곳으로 통합하는 글로벌 계획의 일환이었다.  하지만 나이크는 빅데이터 시스템을 AWS에서 온프레미스로 복귀시켰다. 빅데이터 시스템에서 생성되는 데이터가 높은 대역폭을 요구하면서 자사 데이터센터보다 훨씬 더 많은 운영 비용이 들어간다는 것을 깨달았기 때문이다. 나이크는 “컴퓨팅은 온디맨드다. 따라서 탄력적인 클라우드에 최적이다. 하지만 스토리지는 매일 매초 비용이 계속 증가한다”라고 진단했다.  이보 전진 위한 클라우드의 일보 후퇴 인터넷을 통해 IT 자원을 임대하는 클라우드 컴퓨팅에서 온프레미스로 복귀하는 현상을 일컫는 용어가 있다. 클라우드 송환(Cloud Repatriation)이다. 퍼블릭 클라우드 사용량이 증가하고 있는 가운데 이러한 송환 현상도 점점 더 보편화되고 있다. IDC의 한 설문조사에 따르면 IT 리더의 85%가 퍼블릭 클라우드로부터 온프레미스로 워크로드를 복귀시키는 중이라고 응답했다.    IDC의 애널리스트 스리람 수브라마니안은 대부분 조직이 처음에는 수정 없이 그저 들어 옮기는 방식(Li...

2020.03.30

AWS·세일즈포스, 상호운용성 확보를 위한 오픈소스 데이터 모델 발표

AWS·세일즈포스·제네시스가 리눅스 재단과 파트너십을 맺고 공동 추진한 클라우드 인포메이션 모델(CIM)을 12일 발표했다. CIM은 클라우드 애플리케이션 간 상호운용성 확보를 위해 데이터를 표준화하는 오픈소스 데이터 모델이다.  CIM은 표준화된 데이터 상호운용성 지침을 제공해 POS, 디지털 마케팅 플랫폼, 콜센터, CRM 시스템 등을 연결한다. 리눅스 재단은 데이터 통합의 복잡성을 줄여 데이터 레이크 생성, 데이터 분석, 머신러닝(ML) 모델 트레이닝 등을 기존보다 빠르게 수행할 수 있다고 전했다.   세 업체는 이미 CIM을 적용해 자사 제품과 서비스를 제공하고 있다. 아마존의 AWS 레이크 파운데이션(AWS Lake Formation), 레드시프트(Amazon Redshift), 세일즈포스의 고객 360(Customer 360)이 바로 그것이다. 클라우드 기반 콜센터 솔루션을 제공하는 제네시스(Genesys)는 음성, 채팅, 이메일, 텍스트, SNS 등 다양한 상호작용 채널에 CIM을 활용한다.  한편 어도비·마이크로소프트·SAP도 2018년 오픈 데이터 이니셔티브(ODI)를 발표한 바 있다. 3사의 데이터를 표준화해 플랫폼과 애플리케이션 간의 상호운용성을 강화한 협력 체계다.  테크크런치(TechCrunch)는 이번 발표와 관련해 "이제 두 개의 오픈 데이터 모델이 경쟁하게 됐다"라며, "두 모델이 통합되기까지는 마찰이 있을 것이다. 하지만 많은 고객이 해당 회사들의 툴을 사용하는 만큼 경쟁이 심화된다면 이러한 이니셔티브를 구축한 당초의 취지에 어긋날 것"이라고 밝혔다. ciokr@idg.co.kr

클라우드 데이터레이크 데이터분석 머신러닝 상호운용성 리눅스재단 어도비 AWS 애플리케이션 마이크로소프트 아마존 오픈소스 세일즈포스 SAP 데이터통합

2019.11.15

AWS·세일즈포스·제네시스가 리눅스 재단과 파트너십을 맺고 공동 추진한 클라우드 인포메이션 모델(CIM)을 12일 발표했다. CIM은 클라우드 애플리케이션 간 상호운용성 확보를 위해 데이터를 표준화하는 오픈소스 데이터 모델이다.  CIM은 표준화된 데이터 상호운용성 지침을 제공해 POS, 디지털 마케팅 플랫폼, 콜센터, CRM 시스템 등을 연결한다. 리눅스 재단은 데이터 통합의 복잡성을 줄여 데이터 레이크 생성, 데이터 분석, 머신러닝(ML) 모델 트레이닝 등을 기존보다 빠르게 수행할 수 있다고 전했다.   세 업체는 이미 CIM을 적용해 자사 제품과 서비스를 제공하고 있다. 아마존의 AWS 레이크 파운데이션(AWS Lake Formation), 레드시프트(Amazon Redshift), 세일즈포스의 고객 360(Customer 360)이 바로 그것이다. 클라우드 기반 콜센터 솔루션을 제공하는 제네시스(Genesys)는 음성, 채팅, 이메일, 텍스트, SNS 등 다양한 상호작용 채널에 CIM을 활용한다.  한편 어도비·마이크로소프트·SAP도 2018년 오픈 데이터 이니셔티브(ODI)를 발표한 바 있다. 3사의 데이터를 표준화해 플랫폼과 애플리케이션 간의 상호운용성을 강화한 협력 체계다.  테크크런치(TechCrunch)는 이번 발표와 관련해 "이제 두 개의 오픈 데이터 모델이 경쟁하게 됐다"라며, "두 모델이 통합되기까지는 마찰이 있을 것이다. 하지만 많은 고객이 해당 회사들의 툴을 사용하는 만큼 경쟁이 심화된다면 이러한 이니셔티브를 구축한 당초의 취지에 어긋날 것"이라고 밝혔다. ciokr@idg.co.kr

2019.11.15

블로그 | 데이터 레이크, 새로운 데이터웨어하우스가 된다

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

AWS 데이터웨어하우스 데이터레이크 스노우플레이크 레이크포메이션

2019.07.03

데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가? 누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다. 사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.     데이터 웨어하우스의 쇠퇴 그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다. 핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다. 데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.   데이터 레이크의 부상 흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면...

2019.07.03

"실패 가능성 85%" 빅데이터 프로젝트의 문제와 해법

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다며 실패 비율이 85%에 근접한다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 본다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 구축한 기업은 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지 생각하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하지만 그건 착...

프로젝트 데이터웨어하우스 데이터레이크

2019.05.21

빅데이터 프로젝트는 규모가 크고 목표가 웅대하다. 그리고 완전히 실패하는 경우가 많다. 2016년 가트너는 빅데이터 프로젝트의 60%가 실패한 것으로 추산했다. 1년 뒤 가트너의 애널리스트 닉 휴데커는 60%의 추정치가 “지나치게 보수적”이었다며 실패 비율이 85%에 근접한다고 말했다. 휴데커는 이러한 상황이 지금도 바뀌지 않았다고 본다. 가트너만 이렇게 평가하는 것은 아니다. 최근까지 오랜 기간 마이크로소프트의 고위 임원을 지낸 스노우플레이크 컴퓨팅(Snowflake Computing)의 CEO 밥 무글리아는 분석 사이트 데이터나미(Datanami)와의 인터뷰에서 “나는 행복한 하둡 고객을 본 적이 없다. 그것만으로 상황을 알 수 있다. 지금까지 하둡을 성공적으로 구축한 기업은 20개 미만, 어쩌면 10개 미만일 수도 있다. 제품과 기술이 얼마나 오래 전부터 시장에 존재했으며, 업계가 전반적으로 이 기술에 얼마나 힘을 쏟았는지 생각하면 말도 안 되는 수치”라고 말했다. 물론 하둡은 빅데이터 바람을 일으킨 엔진이다. 다른 빅데이터 전문가의 의견도 비슷하다. 실제로 심각한 수준의 문제가 있으며 전적으로 기술 문제만은 아니라는 것이다. 사실 진짜 실패의 원인에 비하면 기술은 부차적인 문제에 속한다. 빅데이터 프로젝트가 실패하는 4가지 주요 원인과 성공할 수 있는 4가지 주요 방법을 알아보자.     빅데이터 문제 1 : 부실한 통합 휴데커는 빅데이터 실패의 한 가지 중요한 기술적 문제는 서로 분리된 여러 소스의 데이터를 통합해 원하는 통찰력을 얻는 데 있다고 말했다. 격리된 레거시 시스템을 연결하기란 쉽지 않은 일이다. 휴데커는 통합 비용이 소프트웨어 비용의 5~10배에 이른다면서 “가장 큰 문제는 간단한 통합이다. 여러 데이터 소스를 연결해서 결과를 얻으려면 어떻게 해야 하는가? 많은 기업이 데이터 레이크를 선택하고, 이 기술이 마술처럼 모든 것을 연결해줄 것이라고 생각하지만 그건 착...

2019.05.21

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2023 International Data Group. All rights reserved.

10.4.0.13