Offcanvas

��������������������������� ���������������������������������������������

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

데이터브릭스 데이터 통합 플랫폼 데이터 파이프라인 ETL 데이터레이크 데이터 웨어하우스

2022.04.08

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

2022.04.08

‘아파치 카프카’, 개념부터 사용례까지

2011년 링크드인(LinkedIn)에서 개발된 ‘아파치 카프카(Apache Kafka)’는 이벤트 스트리밍에서 널리 쓰이는 플랫폼 중 하나다. 카프카는 고성능 데이터 파이프라인, 스트리밍 애널리틱스, 데이터 통합, 미션 크리티컬 애플리케이션에 사용된다.  모든 데이터를 데이터 웨어하우스에 저장하고 야간 배치 처리를 사용하여 분석하는 것만으로는 더 이상 비즈니스 또는 프로세스를 적시에 모니터링 및 관리하기가 충분하지 않다. 대신에 이후의 심층 분석을 위해 데이터 저장 외에 간단한 데이터 스트림 실시간 분석을 수행해야 한다.    카프카의 부속물에는 아파치 플링크(Apache Flink), 아파치 삼자(Apache Samza), 아파치 스파크(Apache Spark), 아파치 스톰(Apache Storm), 데이터브릭스(Databricks), 버베리카(Ververica) 등이 있다. 카프카의 대안으로는 아마존 키네시스(Amazon Kinesis), 아파치 펄사(Apache Pulsar), 애저 스트림 애널리틱스(Azure Stream Analytics), 컨플루언트(Confluent), 구글 클라우드 데이터플로(Google Cloud Dataflow) 등이 있다. 단, 카프카의 단점은 대규모 카프카 클러스터 구성이 까다로울 수 있다는 것이다. 컨플루언트 클라우드(Confluent Cloud)와 아파치 카프카용 아마존 관리형 스트리밍(Amazon Managed Streaming) 등 카프카의 상용 클라우드 버전을 사용하면 이 문제와 다른 문제를 해결할 수 있다(유료). 아파치 카프카란? 아파치 카프카는 고성능 데이터 파이프라인, 스트리밍 분석, 데이터 통합, 미션 크리티컬 애플리케이션을 위한 오픈소스, 자바/스칼라, 분산 이벤트 스트리밍 플랫폼이다. 카프카 이벤트는 토픽별로 구성되고 저장된다. 카프카의 핵심 API는 5개이며, 다음과 같다.  • Admin API: 토픽, 브로커, 기타 카프카 객체를 관리하고 검사한다...

아파치 카프카 이벤트 스트리밍 데이터 데이터 파이프라인 데이터 웨어하우스 링크드인 컨플루언트 애널리틱스 소프트웨어 개발

2022.03.02

2011년 링크드인(LinkedIn)에서 개발된 ‘아파치 카프카(Apache Kafka)’는 이벤트 스트리밍에서 널리 쓰이는 플랫폼 중 하나다. 카프카는 고성능 데이터 파이프라인, 스트리밍 애널리틱스, 데이터 통합, 미션 크리티컬 애플리케이션에 사용된다.  모든 데이터를 데이터 웨어하우스에 저장하고 야간 배치 처리를 사용하여 분석하는 것만으로는 더 이상 비즈니스 또는 프로세스를 적시에 모니터링 및 관리하기가 충분하지 않다. 대신에 이후의 심층 분석을 위해 데이터 저장 외에 간단한 데이터 스트림 실시간 분석을 수행해야 한다.    카프카의 부속물에는 아파치 플링크(Apache Flink), 아파치 삼자(Apache Samza), 아파치 스파크(Apache Spark), 아파치 스톰(Apache Storm), 데이터브릭스(Databricks), 버베리카(Ververica) 등이 있다. 카프카의 대안으로는 아마존 키네시스(Amazon Kinesis), 아파치 펄사(Apache Pulsar), 애저 스트림 애널리틱스(Azure Stream Analytics), 컨플루언트(Confluent), 구글 클라우드 데이터플로(Google Cloud Dataflow) 등이 있다. 단, 카프카의 단점은 대규모 카프카 클러스터 구성이 까다로울 수 있다는 것이다. 컨플루언트 클라우드(Confluent Cloud)와 아파치 카프카용 아마존 관리형 스트리밍(Amazon Managed Streaming) 등 카프카의 상용 클라우드 버전을 사용하면 이 문제와 다른 문제를 해결할 수 있다(유료). 아파치 카프카란? 아파치 카프카는 고성능 데이터 파이프라인, 스트리밍 분석, 데이터 통합, 미션 크리티컬 애플리케이션을 위한 오픈소스, 자바/스칼라, 분산 이벤트 스트리밍 플랫폼이다. 카프카 이벤트는 토픽별로 구성되고 저장된다. 카프카의 핵심 API는 5개이며, 다음과 같다.  • Admin API: 토픽, 브로커, 기타 카프카 객체를 관리하고 검사한다...

2022.03.02

모두가 데이터 혜택 누린다··· 피델리티의 ‘파이프라인’ 혁신 이야기

글로벌 자산 운용사 피델리티 인베스트먼트(Fidelity Investment)가 기업 그리고 생태계 전반에 걸쳐 데이터를 사용할 수 있도록 하는 ‘차세대 데이터 파이프라인’을 구축하고 있다.  피델리티 인베스트먼트의 CTO 미히 샤는 약 4년 전부터 회사의 데이터 전략을 근본적으로 바꿀 계획이었다면서, “‘차세대 데이터 파이프라인’이라고 명명한 이 계획을 실현하기 위해 회사 최초의 데이터 아키텍처 및 엔지니어링 책임자가 되고자 했다”라고 말했다.  샤에 따르면 해당 계획의 핵심은 ‘역할이 무엇이든 간에 더 쉽게 일을 하고 더 나은 의사결정을 내리도록 데이터를 사용할 수 있게 하는 것’이었다.     데이터 중심 기업으로 나아가는 것은 수년 동안 많은 조직의 핵심 목표였지만 대부분은 데이터를 기반으로 신속한 의사결정을 내리는 데 실패했다. 피델리티 인베스트먼트의 경우에는 데이터 운영 모델을 혁신한 것이 성공의 토대였다고 그는 밝혔다.  샤는 “모두가 데이터의 가치를 안다. 그리고 통합된 데이터가 사일로화된 데이터보다 가치 있다는 것도 안다”라면서, “(피델리티 인베스트먼트는) 이 문제에 관해 수년간 논의해왔지만 아무도 실제로 그렇게 하기 위해 운영 모델을 바꾸려 하지 않았다. 기술은 이미 존재한다. 점점 더 발전하고 있다. 하지만 핵심은 운영 모델이다”라고 전했다.  ‘사일로’에서 ‘이웃’으로 美 보스턴에 본사를 둔 다국적 금융 서비스 기업 피델리티 인베스트먼트는 세계 최대의 자산 운용사 중 하나다. 지난 2014년 아비게일 존슨이 아버지의 뒤를 이어 (그의 할아버지가 1946년 설립한) 피델리티의 CEO로 취임했다. 존슨은 ‘이웃(neighborhood)’이라는 개념에 기초한 조직 구조를 도입했다.  샤는 “본질적으로 데이터는 수평적이다. 데이터에는 경계가 없다. 기술 영역에서 동일한 구성을 사용하지 않을 이유가 무엇인가?”라고 말했다. 이에 따라 클라우드, 데이터, 사이버 및 API ...

피델리티 인베스트먼트 데이터 데이터 파이프라인 데이터 관리 애널리틱스

2021.09.14

글로벌 자산 운용사 피델리티 인베스트먼트(Fidelity Investment)가 기업 그리고 생태계 전반에 걸쳐 데이터를 사용할 수 있도록 하는 ‘차세대 데이터 파이프라인’을 구축하고 있다.  피델리티 인베스트먼트의 CTO 미히 샤는 약 4년 전부터 회사의 데이터 전략을 근본적으로 바꿀 계획이었다면서, “‘차세대 데이터 파이프라인’이라고 명명한 이 계획을 실현하기 위해 회사 최초의 데이터 아키텍처 및 엔지니어링 책임자가 되고자 했다”라고 말했다.  샤에 따르면 해당 계획의 핵심은 ‘역할이 무엇이든 간에 더 쉽게 일을 하고 더 나은 의사결정을 내리도록 데이터를 사용할 수 있게 하는 것’이었다.     데이터 중심 기업으로 나아가는 것은 수년 동안 많은 조직의 핵심 목표였지만 대부분은 데이터를 기반으로 신속한 의사결정을 내리는 데 실패했다. 피델리티 인베스트먼트의 경우에는 데이터 운영 모델을 혁신한 것이 성공의 토대였다고 그는 밝혔다.  샤는 “모두가 데이터의 가치를 안다. 그리고 통합된 데이터가 사일로화된 데이터보다 가치 있다는 것도 안다”라면서, “(피델리티 인베스트먼트는) 이 문제에 관해 수년간 논의해왔지만 아무도 실제로 그렇게 하기 위해 운영 모델을 바꾸려 하지 않았다. 기술은 이미 존재한다. 점점 더 발전하고 있다. 하지만 핵심은 운영 모델이다”라고 전했다.  ‘사일로’에서 ‘이웃’으로 美 보스턴에 본사를 둔 다국적 금융 서비스 기업 피델리티 인베스트먼트는 세계 최대의 자산 운용사 중 하나다. 지난 2014년 아비게일 존슨이 아버지의 뒤를 이어 (그의 할아버지가 1946년 설립한) 피델리티의 CEO로 취임했다. 존슨은 ‘이웃(neighborhood)’이라는 개념에 기초한 조직 구조를 도입했다.  샤는 “본질적으로 데이터는 수평적이다. 데이터에는 경계가 없다. 기술 영역에서 동일한 구성을 사용하지 않을 이유가 무엇인가?”라고 말했다. 이에 따라 클라우드, 데이터, 사이버 및 API ...

2021.09.14

조호, AI 기반 셀프서비스 BI 플랫폼 출시··· “사용편의성·데이터프렙에 중점”

기업용 서비스형 소프트웨어(SaaS) 제공업체 조호(Zoho)가 조호 데이터프렙(Zoho DataPrep) 애플리케이션과 조호 애널리틱스(Zoho Analytics)를 결합한 AI 기반 셀프서비스 BI 플랫폼을 발표하면서 비즈니스 인텔리전스(BI) 시장에 출사표를 던졌다.  인도 첸나이에 본사를 둔 이 다국적 기업은 사용편의성, 데이터프렙 지원, 내부 데이터와 외부 데이터소스 혼합 등을 특징으로 하는 셀프서비스 BI 플랫폼을 통해 비즈니스 사용자를 확보하겠다고 밝혔다. 회사에 따르면 새로운 플랫폼은 250개 이상의 데이터 소스로 확장할 수 있다.  美 시장조사기관 리서치앤마켓닷컴(ResearchandMarkets.com)의 최근 보고서에 의하면 셀프서비스 BI 시장은 향후 5년 동안 연평균 15.5%의 성장률을 보일 전망이다. 셀프서비스 BI 시장의 주요 경쟁업체로는 태블로(Tableau), 도모(Domo), 마이크로소프트 파워 BI(Microsoft Power BI), IBM 코그노스(IBM Cognos) 등이 있다.    조호 유럽의 전무이사 스리다르 아이엔가르는 “데이터가 비즈니스 성장의 진정한 촉매제 역할을 하기 위해서는 (데이터) 수집, 관리 또는 분석 프로세스에 어떠한 틈(gap)도 없어야 한다”라면서, “그런 맥락에서 조호 BI 플랫폼의 핵심 셀링 포인트는 데이터프렙과 애널리틱스의 조합이다”라고 말했다.  조호의 AI 도구 ‘지아(Zia)’는 해당 플랫폼이 초점을 맞추고 있는 사용편의성의 핵심이라고 할 수 있다. 이는 자연어 쿼리 및 생성, 보고서와 대시보드의 핵심 인사이트에 관한 텍스트 내레이션, 인지 및 고급 애널리틱스 기능을 제공한다고 회사 측은 설명했다.  회사에 따르면 조호의 BI 플랫폼은 ▲강화된 데이터 준비 및 관리, ▲데이터 스토리, ▲증강 분석, ▲앱 마켓플레이스 네 가지 요소를 기반으로 구축됐다. 첫 번째 요소는 새롭게 출시된 셀프서비스 데이터 준비 및 관리 도구 ‘조호...

셀프서비스 BI 인공지능 AI 머신러닝 ML 데이터프렙 서비스형 소프트웨어 SaaS 조호 애널리틱스 비즈니스 인텔리전스 BI 태블로 데이터 데이터 파이프라인 자연어

2021.07.14

기업용 서비스형 소프트웨어(SaaS) 제공업체 조호(Zoho)가 조호 데이터프렙(Zoho DataPrep) 애플리케이션과 조호 애널리틱스(Zoho Analytics)를 결합한 AI 기반 셀프서비스 BI 플랫폼을 발표하면서 비즈니스 인텔리전스(BI) 시장에 출사표를 던졌다.  인도 첸나이에 본사를 둔 이 다국적 기업은 사용편의성, 데이터프렙 지원, 내부 데이터와 외부 데이터소스 혼합 등을 특징으로 하는 셀프서비스 BI 플랫폼을 통해 비즈니스 사용자를 확보하겠다고 밝혔다. 회사에 따르면 새로운 플랫폼은 250개 이상의 데이터 소스로 확장할 수 있다.  美 시장조사기관 리서치앤마켓닷컴(ResearchandMarkets.com)의 최근 보고서에 의하면 셀프서비스 BI 시장은 향후 5년 동안 연평균 15.5%의 성장률을 보일 전망이다. 셀프서비스 BI 시장의 주요 경쟁업체로는 태블로(Tableau), 도모(Domo), 마이크로소프트 파워 BI(Microsoft Power BI), IBM 코그노스(IBM Cognos) 등이 있다.    조호 유럽의 전무이사 스리다르 아이엔가르는 “데이터가 비즈니스 성장의 진정한 촉매제 역할을 하기 위해서는 (데이터) 수집, 관리 또는 분석 프로세스에 어떠한 틈(gap)도 없어야 한다”라면서, “그런 맥락에서 조호 BI 플랫폼의 핵심 셀링 포인트는 데이터프렙과 애널리틱스의 조합이다”라고 말했다.  조호의 AI 도구 ‘지아(Zia)’는 해당 플랫폼이 초점을 맞추고 있는 사용편의성의 핵심이라고 할 수 있다. 이는 자연어 쿼리 및 생성, 보고서와 대시보드의 핵심 인사이트에 관한 텍스트 내레이션, 인지 및 고급 애널리틱스 기능을 제공한다고 회사 측은 설명했다.  회사에 따르면 조호의 BI 플랫폼은 ▲강화된 데이터 준비 및 관리, ▲데이터 스토리, ▲증강 분석, ▲앱 마켓플레이스 네 가지 요소를 기반으로 구축됐다. 첫 번째 요소는 새롭게 출시된 셀프서비스 데이터 준비 및 관리 도구 ‘조호...

2021.07.14

디스커버FS의 ‘데이터 파이프라인’ 혁신기

실시간으로 데이터 인사이트를 얻기 위해서는 각종 프로세서를 매끄럽게 만들어야 했다. 디스커버FS는 클라우드 네이티브 데이터 패브릭을 구축해 데이터 파이프라인 과정의 자동화를 도모했다.  AI 성공의 핵심 요소 중 하나를 강조한다면 단연 데이터다. 하지만 데이터를 활용하고 분석을 잘 활용하는 조직이라 하더라도 자동화된 데이터 파이프라인을 구축하는 데 고생할 수 있다. 디스커버FS(Discover Financial Services)는 2019년 개발자와 데이터 엔지니어들이 시간이 많이 소요되고 회사의 민첩성을 저해하는 복잡한 수동 프로세스를 처리하는 과정에서 이 문제에 봉착했다. 머신러닝과 실시간 데이터 인사이트를 제대로 활용하기 위해 디스커버FS는 데이터 획득, 품질 고도화, 사용 방법을 혁신해야 했다.  해결 방안은? 메타데이터 기반 자동화, 실시간 소화/로딩, 클라우드 거버넌스를 위해 다양한 서비스를 엮는 자체개발 플랫폼인 클라우드 데이터 패브릭(Cloud Data Fabric)이다.   디스커버FS의 부사장 겸 CIO 아미르 아루니는 “기술 리더들을 모아 문제를 고민하고 초기의 필수 요소를 정리한 후 목표를 달성할 수 있는 방법에 대한 구조적 아이디어를 수립했다. 다양한 엔지니어링 제품 개발자 또는 리더들을 만나 피드백을 얻고 방향을 수정했다”라고 말했다. 예전에는 디스커버의 데이터 파이프라인 구축 프로세스에 개발자와 엔지니어들 사이의 긴 대화가 필요했다. 분석용 데이터 전송에 대해 논의해야 했던 것이다. 논의가 끝나면 개발자들은 운영 데이터베이스에서 데이터를 추출하기 위해 수동으로 스크립트를 작성하고 미가공 데이터를 분석 환경 도착 구역으로 전송하기 위해 스크립트를 예약했다.  데이터 엔지니어들은 스키마 검증 등 다양한 작업을 수행하기 위해 미가공 데이터 파일을 수용하는 특화된 데이터 애플리케이션을 구축했다. 데이터 엔지니어들은 또한 올바른 필드를 토큰화 하기 위해 로직을 프로그래밍할 수 있도록 데이터 민감...

데이터 파이프라인 클라우드 데이터 플랫폼 디스커버FS DFS

2021.07.06

실시간으로 데이터 인사이트를 얻기 위해서는 각종 프로세서를 매끄럽게 만들어야 했다. 디스커버FS는 클라우드 네이티브 데이터 패브릭을 구축해 데이터 파이프라인 과정의 자동화를 도모했다.  AI 성공의 핵심 요소 중 하나를 강조한다면 단연 데이터다. 하지만 데이터를 활용하고 분석을 잘 활용하는 조직이라 하더라도 자동화된 데이터 파이프라인을 구축하는 데 고생할 수 있다. 디스커버FS(Discover Financial Services)는 2019년 개발자와 데이터 엔지니어들이 시간이 많이 소요되고 회사의 민첩성을 저해하는 복잡한 수동 프로세스를 처리하는 과정에서 이 문제에 봉착했다. 머신러닝과 실시간 데이터 인사이트를 제대로 활용하기 위해 디스커버FS는 데이터 획득, 품질 고도화, 사용 방법을 혁신해야 했다.  해결 방안은? 메타데이터 기반 자동화, 실시간 소화/로딩, 클라우드 거버넌스를 위해 다양한 서비스를 엮는 자체개발 플랫폼인 클라우드 데이터 패브릭(Cloud Data Fabric)이다.   디스커버FS의 부사장 겸 CIO 아미르 아루니는 “기술 리더들을 모아 문제를 고민하고 초기의 필수 요소를 정리한 후 목표를 달성할 수 있는 방법에 대한 구조적 아이디어를 수립했다. 다양한 엔지니어링 제품 개발자 또는 리더들을 만나 피드백을 얻고 방향을 수정했다”라고 말했다. 예전에는 디스커버의 데이터 파이프라인 구축 프로세스에 개발자와 엔지니어들 사이의 긴 대화가 필요했다. 분석용 데이터 전송에 대해 논의해야 했던 것이다. 논의가 끝나면 개발자들은 운영 데이터베이스에서 데이터를 추출하기 위해 수동으로 스크립트를 작성하고 미가공 데이터를 분석 환경 도착 구역으로 전송하기 위해 스크립트를 예약했다.  데이터 엔지니어들은 스키마 검증 등 다양한 작업을 수행하기 위해 미가공 데이터 파일을 수용하는 특화된 데이터 애플리케이션을 구축했다. 데이터 엔지니어들은 또한 올바른 필드를 토큰화 하기 위해 로직을 프로그래밍할 수 있도록 데이터 민감...

2021.07.06

"데이터 웨어하우스도, 데이터 레이크도 아니다"··· SAP, 데이터 허브 솔루션 발표

SAP가 데이터는 분산된 채로 남기고 처리만 중앙 집중화하도록 하는 개념의 솔루션 '데이터 허브'를 발표했다. 오늘날의 데이터 저장 방식은 크게 2가지다. 데이터 웨어하우가 정리정돈된 데이터를 저장하는 방식이라면 데이터 레이크는 마구잡이로 모든 데이터를 저장하는 방식이다. SAP의 새로운 데이터 허브는 새로운 절충형 방안에 해당한다. 새로운 데이터 관리 툴은 필요한 데이터만 처리하지도 모든 데이터를 한 곳으로 모으지도 않는다. 대신 원하는 곳에서 데이터를 찾을 수 있도록 한다. 데이터 과학자들은 이를 통해 여러 출처와 시스템의 데이터를 분석할 수 있게 된다. SAP 데이터베이스 및 데이터 관리 분야의 글로벌 책임자 이르판 칸은 데이터 허브에 대해 "데이터 통합, 데이터 처리 및 데이터 거버넌스를 가능하게 하는 강력한 데이터 관리 우산 계층이다"라고 설명했다. 그는 이어 "소유하고있는 모든 데이터를 살펴보고 모든 정보에 접근할 수는 있지만,이 모든 데이터를 자체 데이터 호수에 집중시키는 것은 아니다. 데이터를 분산된 상태로 둔 채 모든 데이터를 캡처하고 정확히 접근할 수 있도록 한다"라고 말했다. 데이터 허브라는 개념은 종전에도 있었다. 그러나 SAP는 이 용어를 다소 다르게 사용한다. 맵R이나 클라우데라는 데이터 처리에 앞서 거대한 하둡 클러스터나 여타 중앙 저장소에 데이터를 집중시키는 개념으로 이용한다. 반면 SAP는 필요할 때까지 데이터를 현장에 남겨두는 개념이다. SAP는 이를 위해 데이터 파이프라인이라는 개념을 생성했다. 데이터 파이프라인은 다른 파일 시스템 또는 APIs, 애널리틱스, 텐서플로우나 커스텀 코딩된 작업과 같은 머신러닝 라이브러리으로 이어지는 커넥터일 수 있다. SAP는 이를 위해 워크플로우 및 파이프라인 모델링을 위핸 그래픽 도구와 오케스트레이션 레이어를 제공하게 된다. 칸은 데이터 허브가 타사의 제품과도 통합될 수 있다고 말하면서 "SAP의...

SAP 데이터 웨어하우스 데이터 레이크 데이터 허브 데이터 파이프라인

2017.09.26

SAP가 데이터는 분산된 채로 남기고 처리만 중앙 집중화하도록 하는 개념의 솔루션 '데이터 허브'를 발표했다. 오늘날의 데이터 저장 방식은 크게 2가지다. 데이터 웨어하우가 정리정돈된 데이터를 저장하는 방식이라면 데이터 레이크는 마구잡이로 모든 데이터를 저장하는 방식이다. SAP의 새로운 데이터 허브는 새로운 절충형 방안에 해당한다. 새로운 데이터 관리 툴은 필요한 데이터만 처리하지도 모든 데이터를 한 곳으로 모으지도 않는다. 대신 원하는 곳에서 데이터를 찾을 수 있도록 한다. 데이터 과학자들은 이를 통해 여러 출처와 시스템의 데이터를 분석할 수 있게 된다. SAP 데이터베이스 및 데이터 관리 분야의 글로벌 책임자 이르판 칸은 데이터 허브에 대해 "데이터 통합, 데이터 처리 및 데이터 거버넌스를 가능하게 하는 강력한 데이터 관리 우산 계층이다"라고 설명했다. 그는 이어 "소유하고있는 모든 데이터를 살펴보고 모든 정보에 접근할 수는 있지만,이 모든 데이터를 자체 데이터 호수에 집중시키는 것은 아니다. 데이터를 분산된 상태로 둔 채 모든 데이터를 캡처하고 정확히 접근할 수 있도록 한다"라고 말했다. 데이터 허브라는 개념은 종전에도 있었다. 그러나 SAP는 이 용어를 다소 다르게 사용한다. 맵R이나 클라우데라는 데이터 처리에 앞서 거대한 하둡 클러스터나 여타 중앙 저장소에 데이터를 집중시키는 개념으로 이용한다. 반면 SAP는 필요할 때까지 데이터를 현장에 남겨두는 개념이다. SAP는 이를 위해 데이터 파이프라인이라는 개념을 생성했다. 데이터 파이프라인은 다른 파일 시스템 또는 APIs, 애널리틱스, 텐서플로우나 커스텀 코딩된 작업과 같은 머신러닝 라이브러리으로 이어지는 커넥터일 수 있다. SAP는 이를 위해 워크플로우 및 파이프라인 모델링을 위핸 그래픽 도구와 오케스트레이션 레이어를 제공하게 된다. 칸은 데이터 허브가 타사의 제품과도 통합될 수 있다고 말하면서 "SAP의...

2017.09.26

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.6