Offcanvas

��������� ���������������

‘이러려고 데이터 관리하나 자괴감’··· 11가지 어두운 비밀

어떤 이들은 데이터를 새로운 석유라 부르고, 누군가는 새로운 금이라고도 부른다. 철학자와 경제학자들은 비유의 적절성을 두고 논쟁할 수 있겠지만, 데이터 기반 의사 결정을 도모하는 기업에게 데이터 구성 및 분석이 필수적이라는 점은 의심의 여지가 없다. 일단은 견고한 데이터 관리 전략이 핵심이다. 데이터 거버넌스, 데이터 운영, 데이터 웨어하우징, 데이터 엔지니어링, 데이터 분석, 데이터 과학 등을 포괄하는 데이터 관리는 올바르게 수행될 경우 각종 비즈니스에서 경쟁 우위를 가져다줄 수 있다. 좋은 소식은 데이터 관리의 많은 측면이 잘 정립돼 있으며 수십 년 동안 발전해 온 원칙이 존재한다는 점이다. 예를 들어, 적용하기 어렵거나 이해하기에 간단하지 않을 수 있지만 과학자와 수학자들 모두 덕분에 기업은 이제 데이터를 분석하고 결론을 내리기 위한 다양한 프레임워크를 갖게 되었다. 분석 한계를 나타내는 오차 막대를 그리는 통계 모델도 있다. 그러나 데이터 과학과 이를 뒷받침하는 다양한 학문에 대한 연구에서 얻은 모든 장점에도 불구하고 우리는 머리를 긁적거릴 때가 있다. 기업들은 종종 현장의 한계에 부딪힌다. 때로는 너무 많은 데이터를 수집하고 구성하는 역설적인 문제도 있다. 일부는 철학적이며 우리의 추상적 역량을 시험한다. 그리고 처음에 개인 정보 보호 문제가 대두되고 있다. 다음은 수많은 기업에서 데이터 관리를 어려운 과제로 만드는 몇 가지 어두운 비밀들이다.   애물단지 비정형 데이터 기업 아카이브에 저장되어 있는 데이터의 대부분은 구조화되어 있지 않다. 은행의 콜센터 직원이 작성한 문자 메모를 검색하기 위한 인공 지능(AI) 사용을 원하는 경우가 있다. 이 문장에는 은행의 대출 및 서비스를 개선하는 데 도움이 될 수 있는 통찰이 담겨 있을 수 있다. 그러나 메모 데이터는 기록할 내용에 관해 서로 다른 생각을 가진 수백 명의 사람들이 작성한 것이다. 또한, 직원들은 서로 다른 작문 스타일과 능력을 가지고 있고, 일부는 전혀 쓰지 않았다. 또 어...

데이터 관리 데이터 과학 데이터 웨어하우징 데이터 거버넌스 데이터 엔지니어링 데이터 애널리틱스

2022.06.30

어떤 이들은 데이터를 새로운 석유라 부르고, 누군가는 새로운 금이라고도 부른다. 철학자와 경제학자들은 비유의 적절성을 두고 논쟁할 수 있겠지만, 데이터 기반 의사 결정을 도모하는 기업에게 데이터 구성 및 분석이 필수적이라는 점은 의심의 여지가 없다. 일단은 견고한 데이터 관리 전략이 핵심이다. 데이터 거버넌스, 데이터 운영, 데이터 웨어하우징, 데이터 엔지니어링, 데이터 분석, 데이터 과학 등을 포괄하는 데이터 관리는 올바르게 수행될 경우 각종 비즈니스에서 경쟁 우위를 가져다줄 수 있다. 좋은 소식은 데이터 관리의 많은 측면이 잘 정립돼 있으며 수십 년 동안 발전해 온 원칙이 존재한다는 점이다. 예를 들어, 적용하기 어렵거나 이해하기에 간단하지 않을 수 있지만 과학자와 수학자들 모두 덕분에 기업은 이제 데이터를 분석하고 결론을 내리기 위한 다양한 프레임워크를 갖게 되었다. 분석 한계를 나타내는 오차 막대를 그리는 통계 모델도 있다. 그러나 데이터 과학과 이를 뒷받침하는 다양한 학문에 대한 연구에서 얻은 모든 장점에도 불구하고 우리는 머리를 긁적거릴 때가 있다. 기업들은 종종 현장의 한계에 부딪힌다. 때로는 너무 많은 데이터를 수집하고 구성하는 역설적인 문제도 있다. 일부는 철학적이며 우리의 추상적 역량을 시험한다. 그리고 처음에 개인 정보 보호 문제가 대두되고 있다. 다음은 수많은 기업에서 데이터 관리를 어려운 과제로 만드는 몇 가지 어두운 비밀들이다.   애물단지 비정형 데이터 기업 아카이브에 저장되어 있는 데이터의 대부분은 구조화되어 있지 않다. 은행의 콜센터 직원이 작성한 문자 메모를 검색하기 위한 인공 지능(AI) 사용을 원하는 경우가 있다. 이 문장에는 은행의 대출 및 서비스를 개선하는 데 도움이 될 수 있는 통찰이 담겨 있을 수 있다. 그러나 메모 데이터는 기록할 내용에 관해 서로 다른 생각을 가진 수백 명의 사람들이 작성한 것이다. 또한, 직원들은 서로 다른 작문 스타일과 능력을 가지고 있고, 일부는 전혀 쓰지 않았다. 또 어...

2022.06.30

선택 아닌 필수··· ‘통합 데이터 생명주기 솔루션’이 필요한 이유 

데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다.  디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다.  ‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다.    많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다.  따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다.  이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다.  특히 비용 측면에서...

데이터 데이터 생명주기 빅 데이터 디지털 트랜스포메이션 데이터 엔지니어링 데이터세트 데이터 보안 데이터베이스 오픈소스 아파치 하둡 탈렌드 인포메티카 아마존 레드시프트 IBM SAP 오라클 클라우데라 머신러닝 금융사기 원격진료

2020.11.27

데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다.  디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다.  ‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다.    많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다.  따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다.  이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다.  특히 비용 측면에서...

2020.11.27

애저 데이터브릭스, ‘포톤 쿼리 엔진’ 프리뷰 공개

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

마이크로소프트 애저 데이터브릭스 애저 데이터브릭스 포톤 쿼리 엔진 CPU 병렬 처리 애널리틱스 아파치 스파크 C++ 데이터 엔지니어링 머신러닝 데이터 과학 빅데이터

2020.09.29

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

2020.09.29

데이터브릭스, 데이터 엔지니어링용 새 버전 출시

호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다. 데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다. 데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다. 퍼지 데이터 정리 빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다. 고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다. 새로운 데이터브릭스의 특징은 다음과 같다. - 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다. - 비용 절...

CIO 아파치 데이터브릭스 데이터 엔지니어링

2017.04.14

호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다. 데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다. 데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다. 퍼지 데이터 정리 빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다. 고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다. 새로운 데이터브릭스의 특징은 다음과 같다. - 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다. - 비용 절...

2017.04.14

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5