Offcanvas

������������������

‘일관성·유연성’ 덕에 각광… 데이터 레이크하우스 활용 사례

데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다.    보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다.  데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다.  데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.   반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.   론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.   대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflak...

데이터레이크 데이터웨어하우스 데이터레이크하우스 데이터브릭스 스노우플레이크 아마존레드시프트 비정형데이터 세가 엔터테인먼트

2022.07.11

데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다.    보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다.  데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다.  데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.   반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.   론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.   대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflak...

2022.07.11

데이터브릭스, 데이터 마켓플레이스 시장 진출... 스노우플레이크 추격

데이터브릭스는 새 데이터 마켓플레이스를 포함한 여러 기능이 데이터 엔지니어링 작업을 가속화할 것으로 기대한다고 전했다. 향후 데이터를 수익화할 수 있는 기능도 추가할 예정이라고 밝혔다.    데이터 레이크 제공업체 데이터브릭스가 22일 데이터 커뮤니티 글로벌 이벤트 '데이터+ AI 서밋(Data + AI Summit)'에서 새로운 데이터 엔지니어링 기능과 데이터 마켓플레이스를 출시한다고 밝혔다. 이어 델타레이크를 오픈소스화한다는 발표도 뒤따랐다.  앞으로 몇 달 안에 출시될 새로운 마켓플레이스로 기업은 테이블, 파일, 머신러닝 모델, 노트북, 대시보드와 같은 데이터 및 분석 자산을 공유할 수 있다고 회사 측은 말했다. 또한 이제 데이터 공유를 위해 클라우드 스토리지에서 데이터를 이동하거나 복제할 필요가 없어졌다고 설명했다.  즉, 새 마켓플레이스를 이용하면 기업은 데이터 세트를 개발할 필요 없이 데이터 세트에 바로 접근할 수 있으며, 따로 대시보드를 새로 만들지 않고 데이터브릭스가 제공하는 애널리틱스 대시보드를 구독할 수 있다.  마켓플레이스로 데이터 공유 및 수익화  데이터브릭스는 데이터 자산을 공유하는 기업이 마켓플레이스를 통해 손쉽게 수익을 창출할 수 있다고 말했다. 새로운 마켓플레이스는 디자인과 전략 면에서 스노우플레이크(Snowfake)의 데이터 마켓플레이스와 유사하다고 몇몇 애널리스트는 평가했다.    아말감인사이츠(Amalgam Insights)의 수석 애널리스트 박현은 "스노우플레이크를 포함한 주요 엔터프라이즈 플랫폼이 진정한 플랫폼으로 거듭나려면 제대로 된 애플리케이션 생태계를 갖추는 것은 필수다. 데이터브릭스도 마찬가지다. 데이터 자산 분야에서 주요 플레이어가 되고자 하는 듯 보인다. 델타레이크에 데이터 애널리틱스를 구축하려는 ISV와 애플리케이션 개발자에게 좋은 기회라고 생각된다"라고 전했다. 컨스텔레이션 리서치(Constellation Resea...

데이터브릭스 데이터브릭스마켓플레이스 델타레이크 레이크하우스

2022.06.29

데이터브릭스는 새 데이터 마켓플레이스를 포함한 여러 기능이 데이터 엔지니어링 작업을 가속화할 것으로 기대한다고 전했다. 향후 데이터를 수익화할 수 있는 기능도 추가할 예정이라고 밝혔다.    데이터 레이크 제공업체 데이터브릭스가 22일 데이터 커뮤니티 글로벌 이벤트 '데이터+ AI 서밋(Data + AI Summit)'에서 새로운 데이터 엔지니어링 기능과 데이터 마켓플레이스를 출시한다고 밝혔다. 이어 델타레이크를 오픈소스화한다는 발표도 뒤따랐다.  앞으로 몇 달 안에 출시될 새로운 마켓플레이스로 기업은 테이블, 파일, 머신러닝 모델, 노트북, 대시보드와 같은 데이터 및 분석 자산을 공유할 수 있다고 회사 측은 말했다. 또한 이제 데이터 공유를 위해 클라우드 스토리지에서 데이터를 이동하거나 복제할 필요가 없어졌다고 설명했다.  즉, 새 마켓플레이스를 이용하면 기업은 데이터 세트를 개발할 필요 없이 데이터 세트에 바로 접근할 수 있으며, 따로 대시보드를 새로 만들지 않고 데이터브릭스가 제공하는 애널리틱스 대시보드를 구독할 수 있다.  마켓플레이스로 데이터 공유 및 수익화  데이터브릭스는 데이터 자산을 공유하는 기업이 마켓플레이스를 통해 손쉽게 수익을 창출할 수 있다고 말했다. 새로운 마켓플레이스는 디자인과 전략 면에서 스노우플레이크(Snowfake)의 데이터 마켓플레이스와 유사하다고 몇몇 애널리스트는 평가했다.    아말감인사이츠(Amalgam Insights)의 수석 애널리스트 박현은 "스노우플레이크를 포함한 주요 엔터프라이즈 플랫폼이 진정한 플랫폼으로 거듭나려면 제대로 된 애플리케이션 생태계를 갖추는 것은 필수다. 데이터브릭스도 마찬가지다. 데이터 자산 분야에서 주요 플레이어가 되고자 하는 듯 보인다. 델타레이크에 데이터 애널리틱스를 구축하려는 ISV와 애플리케이션 개발자에게 좋은 기회라고 생각된다"라고 전했다. 컨스텔레이션 리서치(Constellation Resea...

2022.06.29

데이터브릭스, 한국 시장 진출…글로벌 사업 확장

데이터브릭스가 한국 시장에 진출하며 글로벌 사업을 확장한다고 20일 밝혔다. 데이터브릭스는 국내 데이터브릭스 팀과 고객 지원을 위해 지사를 설립하고 서울 삼성동에 사무실을 마련했다. 데이터브릭스는 한국 외 호주, 싱가포르, 일본, 인도에 지사를 두고 있다.   데이터브릭스 북아시아 지역 매니징 디렉터인 지아 오웨이 링이 한국 시장 진입 전략을 이끈다고 업체 측은 밝혔다. 지난해 합류한 지아 오웨이 매니징 디렉터는 마이크로소프트, 아마존웹서비스에서 임원을 역임하며 업계에서 20년간 활동했다.  데이터브릭스는 개방적인 데이터 및 AI 아키텍처를 개척해 데이터 웨어하우스의 안정성, 거버넌스, 성능을 대다수 기업이 데이터를 이미 저장하고 있는 데이터 레이크에 제공하는 업체이다. 데이터브릭스 고객은 AWS, 마이크로소프트 애저, 구글 클라우드 기반 레이크하우스 플랫폼을 구축해 단일의 통합된 장소에서 데이터웨어하우징 및 비즈니스 인텔리전스(BI)부터 데이터 엔지니어링, AI/ML 워크로드를 포함하는 데이터와 분석 요구를 지원한다. 데이터브릭스의 사업 확장은 베이글코드, 위버스컴퍼니 같은 데이터 중심 고객과 협력함과 더불어 한국에서 경험하고 있는 모멘텀과 수요를 기반으로 한다. 글로벌 팬덤 플랫폼 위버스컴퍼니는 AWS 기반 데이터브릭스 레이크하우스 플랫폼을 활용해 모든 데이터에 대해 단일의 신뢰할 수 있는 소스를 제공하고 데이터 엔지니어, 데이터 과학자, 분석가들이 원활하게 협업하도록 한다. 데이터브릭스와 함께 위버스는 백엔드 서버 로그, 클라이언트 앱 로그, 마케팅 솔루션 등 다양한 소스에서 대용량 소비자 데이터를 수집 및 분석함으로써 유용한 사용자 인사이트를 쉽게 확보하고 있다. 데이터브릭스 아태지역 총괄 부사장인 에드 렌타는 “한국은 아태지역에서 가장 큰 시장 가운데 하나며, 데이터브릭스의 한국 시장 확대는 개방적이고 현대적인 레이크하우스 아키텍처 채택과 클라우드 데이터 전략 가속화를 모색하는 기업의 수요가 증가하고 있음을 보여준다”라며...

데이터브릭스

2022.04.20

데이터브릭스가 한국 시장에 진출하며 글로벌 사업을 확장한다고 20일 밝혔다. 데이터브릭스는 국내 데이터브릭스 팀과 고객 지원을 위해 지사를 설립하고 서울 삼성동에 사무실을 마련했다. 데이터브릭스는 한국 외 호주, 싱가포르, 일본, 인도에 지사를 두고 있다.   데이터브릭스 북아시아 지역 매니징 디렉터인 지아 오웨이 링이 한국 시장 진입 전략을 이끈다고 업체 측은 밝혔다. 지난해 합류한 지아 오웨이 매니징 디렉터는 마이크로소프트, 아마존웹서비스에서 임원을 역임하며 업계에서 20년간 활동했다.  데이터브릭스는 개방적인 데이터 및 AI 아키텍처를 개척해 데이터 웨어하우스의 안정성, 거버넌스, 성능을 대다수 기업이 데이터를 이미 저장하고 있는 데이터 레이크에 제공하는 업체이다. 데이터브릭스 고객은 AWS, 마이크로소프트 애저, 구글 클라우드 기반 레이크하우스 플랫폼을 구축해 단일의 통합된 장소에서 데이터웨어하우징 및 비즈니스 인텔리전스(BI)부터 데이터 엔지니어링, AI/ML 워크로드를 포함하는 데이터와 분석 요구를 지원한다. 데이터브릭스의 사업 확장은 베이글코드, 위버스컴퍼니 같은 데이터 중심 고객과 협력함과 더불어 한국에서 경험하고 있는 모멘텀과 수요를 기반으로 한다. 글로벌 팬덤 플랫폼 위버스컴퍼니는 AWS 기반 데이터브릭스 레이크하우스 플랫폼을 활용해 모든 데이터에 대해 단일의 신뢰할 수 있는 소스를 제공하고 데이터 엔지니어, 데이터 과학자, 분석가들이 원활하게 협업하도록 한다. 데이터브릭스와 함께 위버스는 백엔드 서버 로그, 클라이언트 앱 로그, 마케팅 솔루션 등 다양한 소스에서 대용량 소비자 데이터를 수집 및 분석함으로써 유용한 사용자 인사이트를 쉽게 확보하고 있다. 데이터브릭스 아태지역 총괄 부사장인 에드 렌타는 “한국은 아태지역에서 가장 큰 시장 가운데 하나며, 데이터브릭스의 한국 시장 확대는 개방적이고 현대적인 레이크하우스 아키텍처 채택과 클라우드 데이터 전략 가속화를 모색하는 기업의 수요가 증가하고 있음을 보여준다”라며...

2022.04.20

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

데이터브릭스 데이터 통합 플랫폼 데이터 파이프라인 ETL 데이터레이크 데이터 웨어하우스

2022.04.08

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

2022.04.08

"세일즈 업셀링 시간 단축"··· 美 의류회사 칼하트의 AI 활용기

美 의류 회사 칼하트(Carhartt)에서 GTM(go-to-market) 사업부가 시장 점유율을 확대할 수 있도록 데이터 기반 접근법을 취하는 데 도움을 주는 AI 도구를 개발했다.  ‘칼하트(Carhartt)’는 전략적 이점을 위해 인공지능을 도입해 활용하고 있는 기업 중 하나다. 100년 넘게 작업복을 만들어 온 칼하트는 최근 각각 다른 유통채널을 가진 GTM 부서 3곳의 영업이 체계적이고 효율적이지 않다는 것을 알게 됐다.    영업 프로스펙팅(가망 고객을 발굴하고 접촉하는 것)에 더욱더 전략적이면서 데이터 중심적인 접근법을 취하기 위해 칼하트는 ‘마켓 어택 세일즈 프로스펙팅 모듈(Market Attack Sales Prospecting Module)’이라는 AI 기반 영업 최적화 및 프로스펙팅 모듈을 구축했다.  칼하트는 이 프로젝트로 ‘퓨처엣지 50 어워드(FutureEdge 50 Award)’에서 신기술 응용 부문 상을 수상했다. 이 회사의 BI 및 애널리틱스 부문 이사 졸리 비탈레는 해당 프로젝트를 통해 영업 부서가 계획적이고 체계적인 방식으로 시장에 제품을 출시할 수 있도록 지원하고 있다고 밝혔다.  GTM 사업부는 ▲1만 2,000개의 고객 소매점(업계 용어로는 ‘도어(doors)’)과 800개 이상의 파트너로 이뤄진 도매 사업부, ▲미국 내 33개 소매점을 보유한 소비자 직거래 사업부, ▲급성장하고 있는 소비자 직거래 웹 사이트로 구성돼 있다(이 밖에 칼하트는 다른 기업에 직접 제품(예: 유니폼 등)을 제공하기도 한다).  칼하트의 CIO 겸 비즈니스 계획 부문 SVP 존 힐은 “이 프로젝트의 목적은 신규 고객 확보가 아니다. 고객 최적화다. 미국 전역에 2,000개 이상의 도어(고객 소매점)가 있다고 가정해보자. 각 매장에 어떤 제품을 넣어야 할지, 각종 제품은 어떻게 판매해야 할지 최적화하려면 어떻게 해야 할까? 이 도구를 처음 시작했을 당시에는 이런 관계를 최적화하는 데 ...

인공지능 자동화 디지털 트랜스포메이션 IT 리더십 마이크로소프트 애저 데이터브릭스 AI 데이터 프로스펙팅

2021.08.27

美 의류 회사 칼하트(Carhartt)에서 GTM(go-to-market) 사업부가 시장 점유율을 확대할 수 있도록 데이터 기반 접근법을 취하는 데 도움을 주는 AI 도구를 개발했다.  ‘칼하트(Carhartt)’는 전략적 이점을 위해 인공지능을 도입해 활용하고 있는 기업 중 하나다. 100년 넘게 작업복을 만들어 온 칼하트는 최근 각각 다른 유통채널을 가진 GTM 부서 3곳의 영업이 체계적이고 효율적이지 않다는 것을 알게 됐다.    영업 프로스펙팅(가망 고객을 발굴하고 접촉하는 것)에 더욱더 전략적이면서 데이터 중심적인 접근법을 취하기 위해 칼하트는 ‘마켓 어택 세일즈 프로스펙팅 모듈(Market Attack Sales Prospecting Module)’이라는 AI 기반 영업 최적화 및 프로스펙팅 모듈을 구축했다.  칼하트는 이 프로젝트로 ‘퓨처엣지 50 어워드(FutureEdge 50 Award)’에서 신기술 응용 부문 상을 수상했다. 이 회사의 BI 및 애널리틱스 부문 이사 졸리 비탈레는 해당 프로젝트를 통해 영업 부서가 계획적이고 체계적인 방식으로 시장에 제품을 출시할 수 있도록 지원하고 있다고 밝혔다.  GTM 사업부는 ▲1만 2,000개의 고객 소매점(업계 용어로는 ‘도어(doors)’)과 800개 이상의 파트너로 이뤄진 도매 사업부, ▲미국 내 33개 소매점을 보유한 소비자 직거래 사업부, ▲급성장하고 있는 소비자 직거래 웹 사이트로 구성돼 있다(이 밖에 칼하트는 다른 기업에 직접 제품(예: 유니폼 등)을 제공하기도 한다).  칼하트의 CIO 겸 비즈니스 계획 부문 SVP 존 힐은 “이 프로젝트의 목적은 신규 고객 확보가 아니다. 고객 최적화다. 미국 전역에 2,000개 이상의 도어(고객 소매점)가 있다고 가정해보자. 각 매장에 어떤 제품을 넣어야 할지, 각종 제품은 어떻게 판매해야 할지 최적화하려면 어떻게 해야 할까? 이 도구를 처음 시작했을 당시에는 이런 관계를 최적화하는 데 ...

2021.08.27

AI로 고객 경험 향상··· ‘펩시와 집라인’의 도전기

많은 기업들이 인공지능(AI)과 머신러닝(ML) 기능을 활용하고 싶어 한다. 다양한 이유 중 하나는 고객과 채널 파트너의 경험을 강화하려는 목적에서다. 실제로 브랜드 충성도를 높이고, 매출을 증진하고, 시장 점유율을 높인 사례를 종종 찾아볼 수 있다. 이에 관한 두 사례를 소개한다.   G&J 펩시(G&J Pepsi) : 매장의 제품 니즈를 예측 G&J 펩시 콜라 보틀러는 2020년 1월, 마이크로소프트 애저 클라우드 플랫폼의 AI와 머신러닝 요소들을 활용하기 위해 마이크로소프트와 제휴하면서 AI와 머신러닝 여정을 시작했다. G&J 펩시의 디지털 기술 및 비즈니스 트랜스포메이션 담당 VP인 브라이언 발저는 “마이크로소프트 데이터 사이언스 팀의 안내로 환경과 필요한 스킬 세트를 파악하기 시작했다. 또 예측 기반 결과를 제공하는 애저 머신러닝의 다양한 데이터 구성요소들을 탐색하기 시작했다”라고 말했다. 1년 전, G&J 펩시의 경영진은 주문을 예측하고, 매장 재고를 최적화하는 방법을 디지털 기술 부서에 문의했다. 발저는 “고객들에게 방대한 제품과 브랜드, SKU를 제공하는 데 사람의 노동력이 정말 많이 필요했다”라고 설명했다. 이 회사는 250개 이상의 SKU를 다루고 있고, 통상 대부분 제품이 거의 모든 매장에 재고로 비축되어 있다. 경영진은 프로세스를 가속화하고, 결과를 개선하는 자동화된 주문 메커니즘을 갖추기 원했다. 발저에 따르면, 회사의 주문 담당자는 업무 처리를 위해 각 매장과 소비자의 구매 행동, 세일즈 활동, 프로모션, 경쟁자의 전술, 기상 변화 등을 파악해야 한다. 그는 “이 모든 것을 수동으로 처리하며, 이는 자신의 경험을 바탕으로 한다. 시간이 많이 걸리는 작업이며 또 사람에 따라 차이가 크다”라고 말했다. 특히 개인이 이런 지식을 획득하는 데 오랜 시간이 걸릴 수 있다. 그는 “이 사람들이 회사를 그만두면 어떻게 될까? 이런 지식들이 그 사람과 함께 사라지고, 다음 사람은 스스로 훈련...

G&J 펩시 집라인 매장관리 재고관리 드론 배송 주피터 노트북 데이터브릭스

2021.05.26

많은 기업들이 인공지능(AI)과 머신러닝(ML) 기능을 활용하고 싶어 한다. 다양한 이유 중 하나는 고객과 채널 파트너의 경험을 강화하려는 목적에서다. 실제로 브랜드 충성도를 높이고, 매출을 증진하고, 시장 점유율을 높인 사례를 종종 찾아볼 수 있다. 이에 관한 두 사례를 소개한다.   G&J 펩시(G&J Pepsi) : 매장의 제품 니즈를 예측 G&J 펩시 콜라 보틀러는 2020년 1월, 마이크로소프트 애저 클라우드 플랫폼의 AI와 머신러닝 요소들을 활용하기 위해 마이크로소프트와 제휴하면서 AI와 머신러닝 여정을 시작했다. G&J 펩시의 디지털 기술 및 비즈니스 트랜스포메이션 담당 VP인 브라이언 발저는 “마이크로소프트 데이터 사이언스 팀의 안내로 환경과 필요한 스킬 세트를 파악하기 시작했다. 또 예측 기반 결과를 제공하는 애저 머신러닝의 다양한 데이터 구성요소들을 탐색하기 시작했다”라고 말했다. 1년 전, G&J 펩시의 경영진은 주문을 예측하고, 매장 재고를 최적화하는 방법을 디지털 기술 부서에 문의했다. 발저는 “고객들에게 방대한 제품과 브랜드, SKU를 제공하는 데 사람의 노동력이 정말 많이 필요했다”라고 설명했다. 이 회사는 250개 이상의 SKU를 다루고 있고, 통상 대부분 제품이 거의 모든 매장에 재고로 비축되어 있다. 경영진은 프로세스를 가속화하고, 결과를 개선하는 자동화된 주문 메커니즘을 갖추기 원했다. 발저에 따르면, 회사의 주문 담당자는 업무 처리를 위해 각 매장과 소비자의 구매 행동, 세일즈 활동, 프로모션, 경쟁자의 전술, 기상 변화 등을 파악해야 한다. 그는 “이 모든 것을 수동으로 처리하며, 이는 자신의 경험을 바탕으로 한다. 시간이 많이 걸리는 작업이며 또 사람에 따라 차이가 크다”라고 말했다. 특히 개인이 이런 지식을 획득하는 데 오랜 시간이 걸릴 수 있다. 그는 “이 사람들이 회사를 그만두면 어떻게 될까? 이런 지식들이 그 사람과 함께 사라지고, 다음 사람은 스스로 훈련...

2021.05.26

애저 데이터브릭스, ‘포톤 쿼리 엔진’ 프리뷰 공개

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

마이크로소프트 애저 데이터브릭스 애저 데이터브릭스 포톤 쿼리 엔진 CPU 병렬 처리 애널리틱스 아파치 스파크 C++ 데이터 엔지니어링 머신러닝 데이터 과학 빅데이터

2020.09.29

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

2020.09.29

미래 보여주는 수정구슬··· ‘예측 분석’ 위한 툴 15가지 

어느샌가 컴퓨터가 데이터를 보관하는 ‘캐비닛’에서 미래를 보여주는 ‘수정구슬’로 바뀌었다. 데이터 분석으로 몇 초, 며칠, 심지어는 몇 년 후에 일어날지도 모르는 일들을 예측할 수 있기 때문이다.   이러한 분석 툴은 ‘예측 분석(predictive analytics)’이라는 용어의 범주에 속한다. 예측 분석은 통계부터 인공지능(AI), 머신러닝(ML), 다차원적 수학에 이르기까지 다양한 분야에서 수년간 개발된 알고리즘을 모두 포괄한다.  예측 분석 툴은 연구소에서 등장해 기업의 서버 팜(Server Farm)에 적용됐다. 이제 이 툴들은 리소스 할당 및 수익 창출과 관련해 기업이 적절한 의사결정을 내릴 수 있도록 안내할 준비를 마쳤다.    이 툴들은 크게 두 가지 역할을 한다. 무엇보다 가장 중요한 역할은 데이터베이스라는 정보의 바다를 들여다보고 미래를 위한 비전을 찾는 것이다. 다양한 전략적 접근방식을 통해 여러 알고리즘을 지원하며, 수십 가지의 알고리즘을 지원하는 경우도 있다. 나머지 역할은 눈에 잘 띄진 않지만 더 많은 시간을 투입해야 하기도 한다. 바로 데이터 준비다. 대부분의 데이터가 일관성을 유지하고 있지 않거나 깨끗하지 않기 때문에 데이터 준비는 매우 성가신 과정이다. 예를 들어 2개의 파일을 통합할 때 서로 다른 시간대로 인해 날짜 형식이 다른 경우다. 여기까지는 그럭저럭 쉽게 해결할 수 있다고 치자. 하지만 더 어려운 과제는 오류의 결과일 수 있는 누락된 필드나 특이치다. 데이터 무결성을 유지하면서 오류를 제거하는 것은 정말 어렵다. 훌륭한 툴은 데이터를 준비하고 결과를 제시하는 데 적절한 지원을 제공한다.  많은 예측 분석 툴은 데이터베이스 개발사, 비즈니스 애널리틱스 및 리포팅 벤더가 구축한 확장 기능으로 제공된다. 이들은 기존 보고서 생성 툴과 AI 알고리즘을 통합해 예측을 요약하고 제공하는 툴을 개발했다. 또한 많은 툴이 특정 데이터 스토리지 제품과 긴밀하게 연계돼 ...

빅데이터 데이터 데이터 분석 데이터 애널리틱스 예측 분석 인공지능 머신러닝 분석 툴 알터릭스 아마존 보드 대시 쿠버네티스 데이터브릭스 데이터로봇 IBM 왓슨 SPSS 인포메이션 빌더스 매스웍스 파이썬 주피터 노트북 R 래피드 마이너 SAP SAS 타블로 세일즈포스닷컴

2020.07.20

어느샌가 컴퓨터가 데이터를 보관하는 ‘캐비닛’에서 미래를 보여주는 ‘수정구슬’로 바뀌었다. 데이터 분석으로 몇 초, 며칠, 심지어는 몇 년 후에 일어날지도 모르는 일들을 예측할 수 있기 때문이다.   이러한 분석 툴은 ‘예측 분석(predictive analytics)’이라는 용어의 범주에 속한다. 예측 분석은 통계부터 인공지능(AI), 머신러닝(ML), 다차원적 수학에 이르기까지 다양한 분야에서 수년간 개발된 알고리즘을 모두 포괄한다.  예측 분석 툴은 연구소에서 등장해 기업의 서버 팜(Server Farm)에 적용됐다. 이제 이 툴들은 리소스 할당 및 수익 창출과 관련해 기업이 적절한 의사결정을 내릴 수 있도록 안내할 준비를 마쳤다.    이 툴들은 크게 두 가지 역할을 한다. 무엇보다 가장 중요한 역할은 데이터베이스라는 정보의 바다를 들여다보고 미래를 위한 비전을 찾는 것이다. 다양한 전략적 접근방식을 통해 여러 알고리즘을 지원하며, 수십 가지의 알고리즘을 지원하는 경우도 있다. 나머지 역할은 눈에 잘 띄진 않지만 더 많은 시간을 투입해야 하기도 한다. 바로 데이터 준비다. 대부분의 데이터가 일관성을 유지하고 있지 않거나 깨끗하지 않기 때문에 데이터 준비는 매우 성가신 과정이다. 예를 들어 2개의 파일을 통합할 때 서로 다른 시간대로 인해 날짜 형식이 다른 경우다. 여기까지는 그럭저럭 쉽게 해결할 수 있다고 치자. 하지만 더 어려운 과제는 오류의 결과일 수 있는 누락된 필드나 특이치다. 데이터 무결성을 유지하면서 오류를 제거하는 것은 정말 어렵다. 훌륭한 툴은 데이터를 준비하고 결과를 제시하는 데 적절한 지원을 제공한다.  많은 예측 분석 툴은 데이터베이스 개발사, 비즈니스 애널리틱스 및 리포팅 벤더가 구축한 확장 기능으로 제공된다. 이들은 기존 보고서 생성 툴과 AI 알고리즘을 통합해 예측을 요약하고 제공하는 툴을 개발했다. 또한 많은 툴이 특정 데이터 스토리지 제품과 긴밀하게 연계돼 ...

2020.07.20

마이크로소프트, 애저 데이터브릭스 서비스 국내 출시

한국마이크로소프트는 ‘애저 데이터브릭스(Azure Databricks)’ 서비스를 국내 데이터센터에서 제공한다고 밝혔다.  이번 서비스 출시를 계기로 양사는 국내 기업들이 데이터를 좀 더 쉽게 다루고, 데이터 인사이트를 통한 디지털 트랜스포메이션을 이룰 수 있도록 적극 지원할 예정이라고 설명했다. 애저 데이터브릭스는 마이크로소프트 클라우드 플랫폼 ‘애저(Azure)’에 최적화된 오픈소스 아파치 스파크(Apache Spark) 기반의 분석 플랫폼이다. 마이크로소프트의 AI 서비스인 ‘애저 코그니티브(Azure Cognitive)’와 더불어, 사용자들은 데이터 분석을 강화하고 스마트 알고리즘으로 유용한 인사이트를 얻을 수 있다. 데이터는 실시간으로 저장 및 처리되며, 도출된 인사이트는 대시보드에서 즉시 확인할 수 있다. 프로세스의 변화 및 머신러닝 요구사항에 따라 스케일이 유연하게 조정되며, 다양한 언어 및 딥러닝 프레임워크와 함께 사용될 수 있는 유연성을 갖춘 것이 특징이다. 클릭 한 번으로 새로운 스파크 환경 설정이 가능하며, 애저 SQL 데이터 웨어하우스(Azure SQL Data Warehouse), 애저 코스모스 DB(Azure Cosmos DB), 애저 데이터 레이크 스토어(Azure Data Lake Store) 등 다양한 데이터스토어 및 서비스와 통합되어 보다 생산적이고 효율적인 업무가 가능하다. 또한 빠른 속도와 편리한 사용으로 데이터 사이언티스트 및 데이터 엔지니어에게 협업이 용이한 환경을 제공하는 것이 강점으로 꼽힌다. 뿐만 아니라, 안정적이고 신뢰받는 보안 환경을 제공하며, 데이터 및 프로젝트 규모와 상관 없이 SQL, 스트리밍, 그래프 등 고도화된 분석 기술을 적용할 수 있다. 데이터브릭스 아태지역 총괄 제이슨 비셀은 “이번 한국 데이터센터 출시는 양사 협력의 중요한 모멘텀”이라며 “애저 데이터브릭스 서비스는 빅데이터와 AI의 기능을 단순하고 쉽게 사용하고자 하는 고객들에게 매우 유용할 것”이라고 말했다. 한국마이크로소프...

마이크로소프트 데이터브릭스

2019.09.23

한국마이크로소프트는 ‘애저 데이터브릭스(Azure Databricks)’ 서비스를 국내 데이터센터에서 제공한다고 밝혔다.  이번 서비스 출시를 계기로 양사는 국내 기업들이 데이터를 좀 더 쉽게 다루고, 데이터 인사이트를 통한 디지털 트랜스포메이션을 이룰 수 있도록 적극 지원할 예정이라고 설명했다. 애저 데이터브릭스는 마이크로소프트 클라우드 플랫폼 ‘애저(Azure)’에 최적화된 오픈소스 아파치 스파크(Apache Spark) 기반의 분석 플랫폼이다. 마이크로소프트의 AI 서비스인 ‘애저 코그니티브(Azure Cognitive)’와 더불어, 사용자들은 데이터 분석을 강화하고 스마트 알고리즘으로 유용한 인사이트를 얻을 수 있다. 데이터는 실시간으로 저장 및 처리되며, 도출된 인사이트는 대시보드에서 즉시 확인할 수 있다. 프로세스의 변화 및 머신러닝 요구사항에 따라 스케일이 유연하게 조정되며, 다양한 언어 및 딥러닝 프레임워크와 함께 사용될 수 있는 유연성을 갖춘 것이 특징이다. 클릭 한 번으로 새로운 스파크 환경 설정이 가능하며, 애저 SQL 데이터 웨어하우스(Azure SQL Data Warehouse), 애저 코스모스 DB(Azure Cosmos DB), 애저 데이터 레이크 스토어(Azure Data Lake Store) 등 다양한 데이터스토어 및 서비스와 통합되어 보다 생산적이고 효율적인 업무가 가능하다. 또한 빠른 속도와 편리한 사용으로 데이터 사이언티스트 및 데이터 엔지니어에게 협업이 용이한 환경을 제공하는 것이 강점으로 꼽힌다. 뿐만 아니라, 안정적이고 신뢰받는 보안 환경을 제공하며, 데이터 및 프로젝트 규모와 상관 없이 SQL, 스트리밍, 그래프 등 고도화된 분석 기술을 적용할 수 있다. 데이터브릭스 아태지역 총괄 제이슨 비셀은 “이번 한국 데이터센터 출시는 양사 협력의 중요한 모멘텀”이라며 “애저 데이터브릭스 서비스는 빅데이터와 AI의 기능을 단순하고 쉽게 사용하고자 하는 고객들에게 매우 유용할 것”이라고 말했다. 한국마이크로소프...

2019.09.23

클라우드 기반 머신러닝 서비스 7가지

컴퓨팅 작업 중에서 가장 늦게 클라우드로 흡수되는 작업 중 하나는 바로 데이터 분석이다. 과학자들이 원래 프로그래밍을 좋아해 자신의 책상 위에 컴퓨터를 두는 편을 선호해서일 수도 있고, 데이터를 기록하기 위해 실험 장비가 컴퓨터에 직접 연결되어 있거나 데이터 집합이 너무 커서 이동하려면 너무 많은 시간이 걸려서일 수도 있다. 이유가 무엇이든 과학자와 데이터 분석가들은 그동안 원격 컴퓨팅 도입에 소극적이었다. 그러나 원격 컴퓨팅은 이제 대세다. 머신러닝, 인공 지능, 데이터 분석을 위한 클라우드 기반 툴이 증가하고 있다. 이유는 클라우드 기반 문서 편집 및 이메일에 대한 관심을 촉발했던 이유와 같다. 팀은 어느 컴퓨터에서나 중앙 저장소에 로그인할 수 있고 원격지에서, 이동 중에, 심지어 해변에서도 작업을 할 수 있다. 클라우드에서는 백업과 동기화가 자동으로 처리하므로 모든 작업이 간소화된다. 그러나 클라우드가 데이터 분석에 더 유리한 실무적인 측면의 이유도 있다. 데이터 집합의 크기가 큰 경우 클라우드를 사용하면 훨씬 더 빠르게 작업을 수행할 수 있는 임대 하드웨어에 대규모 작업을 스풀링할 수 있다. PC 작업을 시작한 다음 몇 시간 후 점심을 먹으러 나갔다가 돌아와서 작업이 실패한 것을 확인할 일이 없다. 이제는 버튼을 눌러 방대한 메모리가 준비된 수십 개의 클라우드 인스턴스를 가동하고 몇 분 이내에 코드가 실패하는 것을 확인하면 된다. 현재 클라우드는 초 단위로 비용을 청구하므로 시간과 비용을 절감할 수 있다. 위험도 있다. 가장 큰 위험은 개인정보보호 대한 막연한 우려다. 일부 데이터 분석에는 여러분이 보호해줄 것이라 믿고 맡긴 사람들의 개인 정보가 사용된다. 우리는 데이터가 실험실의 하드 드라이브에 저장된 상태에서의 보안 문제에 익숙하다. 클라우드에서는 무슨 일이 일어나고 있는지 알기가 어렵다. 클라우드 제공업체가 사용하는 모범 사례를 편안하게 받아들이게 되기까지는 시간이 더 걸리겠지만 실험실의 대학원생보다 클라우드 제공업체가 더 많...

클라우드 아마존 세이지메이커 머신러닝서비스 데이터로봇 SageMaker 빅ML 데이터브릭스 머신러닝 왓슨 애저머신러닝

2018.10.18

컴퓨팅 작업 중에서 가장 늦게 클라우드로 흡수되는 작업 중 하나는 바로 데이터 분석이다. 과학자들이 원래 프로그래밍을 좋아해 자신의 책상 위에 컴퓨터를 두는 편을 선호해서일 수도 있고, 데이터를 기록하기 위해 실험 장비가 컴퓨터에 직접 연결되어 있거나 데이터 집합이 너무 커서 이동하려면 너무 많은 시간이 걸려서일 수도 있다. 이유가 무엇이든 과학자와 데이터 분석가들은 그동안 원격 컴퓨팅 도입에 소극적이었다. 그러나 원격 컴퓨팅은 이제 대세다. 머신러닝, 인공 지능, 데이터 분석을 위한 클라우드 기반 툴이 증가하고 있다. 이유는 클라우드 기반 문서 편집 및 이메일에 대한 관심을 촉발했던 이유와 같다. 팀은 어느 컴퓨터에서나 중앙 저장소에 로그인할 수 있고 원격지에서, 이동 중에, 심지어 해변에서도 작업을 할 수 있다. 클라우드에서는 백업과 동기화가 자동으로 처리하므로 모든 작업이 간소화된다. 그러나 클라우드가 데이터 분석에 더 유리한 실무적인 측면의 이유도 있다. 데이터 집합의 크기가 큰 경우 클라우드를 사용하면 훨씬 더 빠르게 작업을 수행할 수 있는 임대 하드웨어에 대규모 작업을 스풀링할 수 있다. PC 작업을 시작한 다음 몇 시간 후 점심을 먹으러 나갔다가 돌아와서 작업이 실패한 것을 확인할 일이 없다. 이제는 버튼을 눌러 방대한 메모리가 준비된 수십 개의 클라우드 인스턴스를 가동하고 몇 분 이내에 코드가 실패하는 것을 확인하면 된다. 현재 클라우드는 초 단위로 비용을 청구하므로 시간과 비용을 절감할 수 있다. 위험도 있다. 가장 큰 위험은 개인정보보호 대한 막연한 우려다. 일부 데이터 분석에는 여러분이 보호해줄 것이라 믿고 맡긴 사람들의 개인 정보가 사용된다. 우리는 데이터가 실험실의 하드 드라이브에 저장된 상태에서의 보안 문제에 익숙하다. 클라우드에서는 무슨 일이 일어나고 있는지 알기가 어렵다. 클라우드 제공업체가 사용하는 모범 사례를 편안하게 받아들이게 되기까지는 시간이 더 걸리겠지만 실험실의 대학원생보다 클라우드 제공업체가 더 많...

2018.10.18

데이터브릭스, 데이터 엔지니어링용 새 버전 출시

호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다. 데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다. 데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다. 퍼지 데이터 정리 빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다. 고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다. 새로운 데이터브릭스의 특징은 다음과 같다. - 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다. - 비용 절...

CIO 아파치 데이터브릭스 데이터 엔지니어링

2017.04.14

호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다. 데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다. 데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다. 퍼지 데이터 정리 빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다. 고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다. 새로운 데이터브릭스의 특징은 다음과 같다. - 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다. - 비용 절...

2017.04.14

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9