Offcanvas

��������� ���������������

선택 아닌 필수··· ‘통합 데이터 생명주기 솔루션’이 필요한 이유 

데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다.  디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다.  ‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다.    많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다.  따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다.  이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다.  특히 비용 측면에서...

데이터 데이터 생명주기 빅 데이터 디지털 트랜스포메이션 데이터 엔지니어링 데이터세트 데이터 보안 데이터베이스 오픈소스 아파치 하둡 탈렌드 인포메티카 아마존 레드시프트 IBM SAP 오라클 클라우데라 머신러닝 금융사기 원격진료

2020.11.27

데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다.  디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다.  ‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다.    많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다.  따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다.  이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다.  특히 비용 측면에서...

2020.11.27

애저 데이터브릭스, ‘포톤 쿼리 엔진’ 프리뷰 공개

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

마이크로소프트 애저 데이터브릭스 애저 데이터브릭스 포톤 쿼리 엔진 CPU 병렬 처리 애널리틱스 아파치 스파크 C++ 데이터 엔지니어링 머신러닝 데이터 과학 빅데이터

2020.09.29

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

2020.09.29

데이터브릭스, 데이터 엔지니어링용 새 버전 출시

호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다. 데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다. 데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다. 퍼지 데이터 정리 빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다. 고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다. 새로운 데이터브릭스의 특징은 다음과 같다. - 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다. - 비용 절...

CIO 아파치 데이터브릭스 데이터 엔지니어링

2017.04.14

호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다. 데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다. 데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다. 퍼지 데이터 정리 빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다. 고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다. 새로운 데이터브릭스의 특징은 다음과 같다. - 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다. - 비용 절...

2017.04.14

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31