Offcanvas

ETL

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

데이터브릭스 데이터 통합 플랫폼 데이터 파이프라인 ETL 데이터레이크 데이터 웨어하우스

2022.04.08

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

2022.04.08

'스트리밍 데이터' 플랫폼 선택법

스트리밍 데이터는 보통 센서, 서버 로그와 같은 수많은 데이터 소스에 의해 지속적으로 생성된다. 스트리밍 데이터 레코드는 대체로 작아서 각각 몇 킬로바이트에 불과하지만 수가 많고 끊임없이 이어진다. 여기서는 스트리밍 데이터에 대한 기본 정보와 함께 스트리밍 데이터 플랫폼을 선택하는 방법을 알아본다.       스트리밍 데이터 플랫폼은 어떤 식으로 움직이는가?  흡수(Ingesttion) 및 데이터 내보내기(Export). 일반적으로 데이터 흡수와 데이터 내보내기는 모두 외부 시스템에 특화된 데이터 커넥터에 의해 처리된다. 경우에 따라서는 목적지에 맞게 데이터를 재정렬, 정제, 조절하기 위해 ETL(extract, transform, load 추출, 변환, 로드) 또는 ELT(extract, load, transform, 추출, 로드 및 변환) 프로세스가 사용되기도 한다.  스트리밍 데이터 흡수에서는 보통 여러 소스, 경우에 따라 수천 개의 소스에 의해 생성되는 데이터를 읽어 들인다. 예를 들어 IoT 디바이스가 여기에 해당된다. 데이터 내보내기는 심층 분석과 머신러닝을 위해 데이터 웨어하우스 또는 데이터 레이크를 대상으로 하기도 한다.  게시/구독과 주제. 아파치 카프카(Kafka), 아파치 펄사(Pulsar)를 포함한 많은 스트리밍 데이터 플랫폼은 데이터가 주제별로 구성되는 게시 및 구독 모델을 사용한다. 흡수된 데이터에는 하나 이상의 주제가 태깅되어 해당 주제를 구독하는 클라이언트가 데이터를 받을 수 있다. 온라인 뉴스 게시를 예로 들면, 정치인의 연설에 대한 기사라면 속보, 미국 뉴스, 정치 태그가 달릴 수 있고, 그러면 페이지 레이아웃 소프트웨어는 섹션 편집자(사람)의 감독 하에 각 해당 섹션에 이 기사를 포함한다.  데이터 분석. 데이터 스트리밍 플랫폼에서 분석을 수행할 수 있는 기회는 일반적으로 파이프라인의 두 지점에 있다. 첫 번째 지점은 실시간 스트림 부분, 두 번째 ...

스트리밍데이터 카프카 ETL 스파크

2022.03.02

스트리밍 데이터는 보통 센서, 서버 로그와 같은 수많은 데이터 소스에 의해 지속적으로 생성된다. 스트리밍 데이터 레코드는 대체로 작아서 각각 몇 킬로바이트에 불과하지만 수가 많고 끊임없이 이어진다. 여기서는 스트리밍 데이터에 대한 기본 정보와 함께 스트리밍 데이터 플랫폼을 선택하는 방법을 알아본다.       스트리밍 데이터 플랫폼은 어떤 식으로 움직이는가?  흡수(Ingesttion) 및 데이터 내보내기(Export). 일반적으로 데이터 흡수와 데이터 내보내기는 모두 외부 시스템에 특화된 데이터 커넥터에 의해 처리된다. 경우에 따라서는 목적지에 맞게 데이터를 재정렬, 정제, 조절하기 위해 ETL(extract, transform, load 추출, 변환, 로드) 또는 ELT(extract, load, transform, 추출, 로드 및 변환) 프로세스가 사용되기도 한다.  스트리밍 데이터 흡수에서는 보통 여러 소스, 경우에 따라 수천 개의 소스에 의해 생성되는 데이터를 읽어 들인다. 예를 들어 IoT 디바이스가 여기에 해당된다. 데이터 내보내기는 심층 분석과 머신러닝을 위해 데이터 웨어하우스 또는 데이터 레이크를 대상으로 하기도 한다.  게시/구독과 주제. 아파치 카프카(Kafka), 아파치 펄사(Pulsar)를 포함한 많은 스트리밍 데이터 플랫폼은 데이터가 주제별로 구성되는 게시 및 구독 모델을 사용한다. 흡수된 데이터에는 하나 이상의 주제가 태깅되어 해당 주제를 구독하는 클라이언트가 데이터를 받을 수 있다. 온라인 뉴스 게시를 예로 들면, 정치인의 연설에 대한 기사라면 속보, 미국 뉴스, 정치 태그가 달릴 수 있고, 그러면 페이지 레이아웃 소프트웨어는 섹션 편집자(사람)의 감독 하에 각 해당 섹션에 이 기사를 포함한다.  데이터 분석. 데이터 스트리밍 플랫폼에서 분석을 수행할 수 있는 기회는 일반적으로 파이프라인의 두 지점에 있다. 첫 번째 지점은 실시간 스트림 부분, 두 번째 ...

2022.03.02

분석을 위해 등장한 데이터베이스··· OLAP 따라잡기

OLAP(Online analytical processing ; 온라인 분석 처리) 데이터베이스는 분석 질의를 처리할 목적으로 구축된 데이터베이스이다.  분석 쿼리를 OLTP(online transaction-processing ; 온라인 트랜잭션 처리) 데이터베이스 상에서 실행하면 다음과 같은 이유로 회신 시간이 오래 걸린다. 첫째, OLTP 데이터베이스는 대개 제3정규형(3NF)이다. 복잡한 JOIN 연산을 여러 테이블에 수행해야 하므로 분석 질의에 컴퓨팅 자원이 많이 든다. 둘째, 읽기 작업이 많은 분석 질의는 인덱스가 더 많아야 유리한데 OLTP 데이터베이스는 쓰기 속도를 최적화하기 위해 인덱스가 적은 편이다. 셋째, 소규모 트랜잭션으로 계속 바쁜 OLTP 데이터베이스에서 긴 분석 질의를 실행하면 (주로 인덱스에 대한) 경쟁이 야기되어 트랜잭션 속도와 질의 속도 모두 저하된다. 이러한 문제를 해결하기 위해 OLAP 데이터베이스는 최적화된 별도의 분석 질의용 데이터베이스로 등장했다. 데이터베이스를 분석용으로 최적화하는 방법은 다음과 같다. OLAP에 대한 설명 OLAP 데이터베이스는 데이터 웨어하우스 또는 데이터 마트에서 나온 대량의 데이터를 다차원적으로 분석할 때 속도를 높일 목적으로 설계됐다. 분석 속도를 높이는 방법으로는 OLAP 큐브라는 다차원 형식으로 관계형 데이터를 추출해 넣는 방법, 분석할 데이터를 메모리 내에 불러들이거나 열 순서로 저장하는 방법, 여러 CPU를 병렬로 활용한(고도 병렬 처리(MPP)) 분석 수행 방법 등이 있다. ETL 및 ELT OLAP를 구현하려면 데이터를 트랜잭션 데이터베이스에서 꺼내 분석 데이터베이스로 넣는 프로세스를 정립해야 한다. 예전에는 이를 위해 밤마다 데이터 추출, 변환 및 로드(ETL) 작업이 일괄적으로 수행되곤 했다.  하드웨어와 소프트웨어가 개선되면서 ETL 일괄 작업 대신 연속 데이터 스트림이 사용되는 경우가 많아졌고 변환(T) 단계가 로드(L) 이후의 프로세스 말미로 미...

OLAP OLTP 데이터베이스 ETL ELT MOLAP ROLAP HOLAP

2022.02.15

OLAP(Online analytical processing ; 온라인 분석 처리) 데이터베이스는 분석 질의를 처리할 목적으로 구축된 데이터베이스이다.  분석 쿼리를 OLTP(online transaction-processing ; 온라인 트랜잭션 처리) 데이터베이스 상에서 실행하면 다음과 같은 이유로 회신 시간이 오래 걸린다. 첫째, OLTP 데이터베이스는 대개 제3정규형(3NF)이다. 복잡한 JOIN 연산을 여러 테이블에 수행해야 하므로 분석 질의에 컴퓨팅 자원이 많이 든다. 둘째, 읽기 작업이 많은 분석 질의는 인덱스가 더 많아야 유리한데 OLTP 데이터베이스는 쓰기 속도를 최적화하기 위해 인덱스가 적은 편이다. 셋째, 소규모 트랜잭션으로 계속 바쁜 OLTP 데이터베이스에서 긴 분석 질의를 실행하면 (주로 인덱스에 대한) 경쟁이 야기되어 트랜잭션 속도와 질의 속도 모두 저하된다. 이러한 문제를 해결하기 위해 OLAP 데이터베이스는 최적화된 별도의 분석 질의용 데이터베이스로 등장했다. 데이터베이스를 분석용으로 최적화하는 방법은 다음과 같다. OLAP에 대한 설명 OLAP 데이터베이스는 데이터 웨어하우스 또는 데이터 마트에서 나온 대량의 데이터를 다차원적으로 분석할 때 속도를 높일 목적으로 설계됐다. 분석 속도를 높이는 방법으로는 OLAP 큐브라는 다차원 형식으로 관계형 데이터를 추출해 넣는 방법, 분석할 데이터를 메모리 내에 불러들이거나 열 순서로 저장하는 방법, 여러 CPU를 병렬로 활용한(고도 병렬 처리(MPP)) 분석 수행 방법 등이 있다. ETL 및 ELT OLAP를 구현하려면 데이터를 트랜잭션 데이터베이스에서 꺼내 분석 데이터베이스로 넣는 프로세스를 정립해야 한다. 예전에는 이를 위해 밤마다 데이터 추출, 변환 및 로드(ETL) 작업이 일괄적으로 수행되곤 했다.  하드웨어와 소프트웨어가 개선되면서 ETL 일괄 작업 대신 연속 데이터 스트림이 사용되는 경우가 많아졌고 변환(T) 단계가 로드(L) 이후의 프로세스 말미로 미...

2022.02.15

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

ETL ELT 데이터 빅 데이터 데이터 과학 데이터 관리 데이터 레이크 데이터 웨어하우스

2021.09.15

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

2021.09.15

칼럼 | ‘타임 투 밸류’를 단축하기 위한 데이터 관리 방식

기업 내 디지털 트랜스포메이션 작업이 진행되면서 디지털 트랜잭션이 남긴 흔적이 방대해지고 있다. 그러나 데이터에서 맥락 있는 정보(인텔리전스)를 뽑아내기가 여전히 그림의 떡인 기업이 많다. IDC의 <2021-2025년 전세계 글로벌 데이터스피어(Global DataSphere) 예측> 보고서에 따르면, 비즈니스 및 소비자 데이터는 작년 이후 약 23%의 연평균성장률로 축적되고 있다. 이 중에서 기업 부문의 연평균성장률은 28%이다. 이처럼 축적된 데이터는 2025년까지 180 제타바이트에 이를 것으로 예상된다.  클라우드에서 생성되는 데이터 역시 매년 36% 증가하고 있다. 아울러 엣지에서 다양한 IoT 장치 및 감지 장치를 통해 수집되는 데이터는 매년 33% 늘고 있으며 2025년까지 전체 글로벌 데이터스피어 중 22%를 차지하게 될 전망이다. 기업들 입장에서는 데이터 양이 늘어나면 데이터를 준비(compute‐ready)시키는 작업이 점점 복잡해진다. 그러나 데이터 활용성을 높여주는 효과적인 데이터 관리 프로세스와 플랫폼을 개발하는 작업에 시간과 노력을 기울이는 기업은 그리 많지 않다.  이를테면, 많은 회사들이 고객과 주문, 제품 사용, 설치 기반, 서비스 티켓, 현금 로그, 시장 인텔리전스 등과 관련된 막대한 양의 디지털 트랜잭션 데이터를 수집하고 있고 데이터에서 인텔리전스를 추출할 수 있는 기술이 그 어느 때보다 다양하게 나와 있음에도 불구하고 이러한 데이터를 효과적으로 활용해 각 고객이나 사업에 대한 입체적인 모습을 만들어내는 기업은 드물다. 많은 기업이 이제 확실히 깨달은 것은 보유한 데이터의 양이 많다고 해서 지속적인 경쟁적 우위를 점할 수 있는 것도 아니고 데이터에서 쉽게 가치를 얻을 수 있게 되는 것도 아니라는 점이다. 더구나, 보유 데이터가 늘어나면 기밀유지 문제와 실행 비용이 늘어나고 환경도 더욱 복잡해진다.  보다 나은 데이터 관리 전략을 향하여 오늘날의 데이터 상황은 효과적이고 지능...

데이터 관리 데이터 아키텍처 ETL 데이터 준비

2021.04.08

기업 내 디지털 트랜스포메이션 작업이 진행되면서 디지털 트랜잭션이 남긴 흔적이 방대해지고 있다. 그러나 데이터에서 맥락 있는 정보(인텔리전스)를 뽑아내기가 여전히 그림의 떡인 기업이 많다. IDC의 <2021-2025년 전세계 글로벌 데이터스피어(Global DataSphere) 예측> 보고서에 따르면, 비즈니스 및 소비자 데이터는 작년 이후 약 23%의 연평균성장률로 축적되고 있다. 이 중에서 기업 부문의 연평균성장률은 28%이다. 이처럼 축적된 데이터는 2025년까지 180 제타바이트에 이를 것으로 예상된다.  클라우드에서 생성되는 데이터 역시 매년 36% 증가하고 있다. 아울러 엣지에서 다양한 IoT 장치 및 감지 장치를 통해 수집되는 데이터는 매년 33% 늘고 있으며 2025년까지 전체 글로벌 데이터스피어 중 22%를 차지하게 될 전망이다. 기업들 입장에서는 데이터 양이 늘어나면 데이터를 준비(compute‐ready)시키는 작업이 점점 복잡해진다. 그러나 데이터 활용성을 높여주는 효과적인 데이터 관리 프로세스와 플랫폼을 개발하는 작업에 시간과 노력을 기울이는 기업은 그리 많지 않다.  이를테면, 많은 회사들이 고객과 주문, 제품 사용, 설치 기반, 서비스 티켓, 현금 로그, 시장 인텔리전스 등과 관련된 막대한 양의 디지털 트랜잭션 데이터를 수집하고 있고 데이터에서 인텔리전스를 추출할 수 있는 기술이 그 어느 때보다 다양하게 나와 있음에도 불구하고 이러한 데이터를 효과적으로 활용해 각 고객이나 사업에 대한 입체적인 모습을 만들어내는 기업은 드물다. 많은 기업이 이제 확실히 깨달은 것은 보유한 데이터의 양이 많다고 해서 지속적인 경쟁적 우위를 점할 수 있는 것도 아니고 데이터에서 쉽게 가치를 얻을 수 있게 되는 것도 아니라는 점이다. 더구나, 보유 데이터가 늘어나면 기밀유지 문제와 실행 비용이 늘어나고 환경도 더욱 복잡해진다.  보다 나은 데이터 관리 전략을 향하여 오늘날의 데이터 상황은 효과적이고 지능...

2021.04.08

‘데이터 랭글링’ 및 ‘탐구 데이터 분석’ 따라잡기

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

데이터 과학자 데이터 랭글링 탐구 데이터 분석 데이터 처리 애널리틱스 데이터 정제 데이터 모델링 ETL ELT 데이터 마이닝 데이터 스크래핑

2021.03.26

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

2021.03.26

굿바이 하둡! 라쿠텐, 클라우드 기반 스노우플레이크로 전환

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

전자상거래 빅데이터 하둡 스칼라 파이썬 스파크 SQL 라쿠텐 스노우플레이크 데이터 웨어하우스 DW 데이터 레이크 ETL 클라우데라 캐쉬백

2020.06.25

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

2020.06.25

"디지털 혁신이 가져올 변화와 대응방안"··· 한국IDG, IT Roadmap 2019 컨퍼런스 개최

한국 IDG가 10월 23일 양재동 엘타워 그레이스 홀에서 IT Roadmap 2019 컨퍼런스를 개최한다. 이번 IT Roadmap 컨퍼런스에는 월마트, 버라이즌, 머스크, 베터먼트, 오라클, 뉴타닉스 코리아, 효성인포메이션시스템 등 국내외 연사진들의 다양한 강연이 준비되어 있다. 미국 최대 소매 유통업체인 월마트의 기업전략을 담당하고 있는 정지은 디렉터는 “혁신 기술은 어떻게 차세대 커머스와 새로운 쇼핑 경험을 만들어내는가”라는 주제로, 새로운 커머스 모델과 쇼핑 경험에 대해 공유한다. 또한, 미국 최대 통신사 버라이즌의 5G 부문 담당 Distinguished Technologist인 조셉 호 박사는 4차 산업혁명을 위한 커넥티비티 기술인 5G에 대해 발표한다. 5G가 가능케 하는 새로운 서비스를 사례와 함께 살펴봄으로써 5G를 보다 이해하는 데 도움을 줄 예정이다.   세계 1위 해운그룹인 머스크의 클라우드 CoE(Center of Excellence) 리더인 라스무스 할드는 “Succeeding with Cloud at MAERSK”를 주제로, 머스크의 디지털 혁신을 위한 퍼블릭 클라우드 전환 사례를 공유하고 어려웠던 점과 교훈 등을 전달한다. 로보어드바이저 선두주자인 베터먼트의 벤 가비 시니어 엔지니어링 매니저는 최근 5년간 데이터 분석 파이프라인이 어떻게 변화했는지 살펴보고, 기존의 데이터 처리방식인 ETL(Extract, Transform and Load)에서 ELT(Extract, Load and Transform)로의 전환을 통한 빠르고 유연한 분석을 구축하는 방법을 알아본다. 아울러 뉴타닉스 코리아, 효성인포메이션시스템, 오라클, 오토메이션애니웨어, 레드햇, 퍼즐데이터 등도 참여해 최신 IT 동향과 효과적인 대응 방안을 전달할 예정이다. 현재 사전등록이 가능하며, 컨퍼런스 참석에 대한 보다 자세한 정보는 한국IDG 컨퍼런스 사이트를 통해 확인할 수 있다. ciokr@idg.co.kr

혁신 뉴타닉스 코리아 IT 로드맵 2019 IT Roadmap 2019 ELT 오토메이션애니웨어 퍼즐데이터 머스크 디지털 변혁 효성인포메이션시스템 월마트 5G 버라이즌 ETL 레드햇 오라클 베터먼트

2019.09.25

한국 IDG가 10월 23일 양재동 엘타워 그레이스 홀에서 IT Roadmap 2019 컨퍼런스를 개최한다. 이번 IT Roadmap 컨퍼런스에는 월마트, 버라이즌, 머스크, 베터먼트, 오라클, 뉴타닉스 코리아, 효성인포메이션시스템 등 국내외 연사진들의 다양한 강연이 준비되어 있다. 미국 최대 소매 유통업체인 월마트의 기업전략을 담당하고 있는 정지은 디렉터는 “혁신 기술은 어떻게 차세대 커머스와 새로운 쇼핑 경험을 만들어내는가”라는 주제로, 새로운 커머스 모델과 쇼핑 경험에 대해 공유한다. 또한, 미국 최대 통신사 버라이즌의 5G 부문 담당 Distinguished Technologist인 조셉 호 박사는 4차 산업혁명을 위한 커넥티비티 기술인 5G에 대해 발표한다. 5G가 가능케 하는 새로운 서비스를 사례와 함께 살펴봄으로써 5G를 보다 이해하는 데 도움을 줄 예정이다.   세계 1위 해운그룹인 머스크의 클라우드 CoE(Center of Excellence) 리더인 라스무스 할드는 “Succeeding with Cloud at MAERSK”를 주제로, 머스크의 디지털 혁신을 위한 퍼블릭 클라우드 전환 사례를 공유하고 어려웠던 점과 교훈 등을 전달한다. 로보어드바이저 선두주자인 베터먼트의 벤 가비 시니어 엔지니어링 매니저는 최근 5년간 데이터 분석 파이프라인이 어떻게 변화했는지 살펴보고, 기존의 데이터 처리방식인 ETL(Extract, Transform and Load)에서 ELT(Extract, Load and Transform)로의 전환을 통한 빠르고 유연한 분석을 구축하는 방법을 알아본다. 아울러 뉴타닉스 코리아, 효성인포메이션시스템, 오라클, 오토메이션애니웨어, 레드햇, 퍼즐데이터 등도 참여해 최신 IT 동향과 효과적인 대응 방안을 전달할 예정이다. 현재 사전등록이 가능하며, 컨퍼런스 참석에 대한 보다 자세한 정보는 한국IDG 컨퍼런스 사이트를 통해 확인할 수 있다. ciokr@idg.co.kr

2019.09.25

ETL 병목에 대한 이베이츠의 해법 '클라우드 데이터 레이크'

기업이 데이터 레이크(Data Lake)를 데이터 웨어하우스(Warehouse)로 사용하려다가 문제에 부닥치는 경우가 종종 있다. 가트너의 리서치 부사장 머브 에이드리언은 '끔찍한 아이디어'라고 말할 정도다. 거대 전사상거래 업체 이베이츠(Ebates)의 분석 부사장 마크 스테인지-트리기어가 4년 전 이베이츠에 합류했을 때도 비슷한 상황이었다. 당시 이베이츠는 일부 엔지니어가 단일 SQL 서버와 주요 생산 데이터베이스의 복사본을 사용하는 것 외에는 이렇다 할 비즈니스 인텔리전스(Business Intelligence, BI) 인프라가 없었다. 가장 큰 문제는 ETL(Extract, Transform, and Load) 프로세스였다. 스테인지-트리기어는 "ETL 작업에 28시간이 걸렸다. 필요한 보고서 또는 정보를 제때 확보하기 어려웠다. 또한 동시 실행 성능도 한계에 부딪혀 시스템 전체가 불안정해지고 있었다"라고 말했다. 그래서 대안으로 도입한 것이 바로 하둡(Hadoop) 클러스터 기반의 데이터 레이크였다. 비용과 비전 측면에서 적절한 솔루션이라고 판단했다. 여러 사일로(Silo)를 거치지 않고도 모든 데이터를 한 곳에 통합해 활용할 수 있을 것으로 기대했다. 당시 스테인지-트리기어의 팀은 핵심 ETL 프로세스를 파이썬(Python)으로 작성했고 불과 몇 달 후에는 최고 임원을 위한 보고서용 데이터를 새로운 데이터 레이크에서 뽑아내기 시작했다. 스테인지-트리기어가 "그때부터 임원진이 데이터 레이크를 받아들였다. 훨씬 빠르고 효율적으로 데이터를 뽑아냈기 때문이다. 이후 모든 것이 바뀌었다. 많은 작업이 필요하긴 했지만, 결국 기존에 사용하던 모든 SQL 서버를 걷어낼 수 있었다"라고 말했다. ETL 병목현상 이베이츠의 단일 하둡 클러스터에서 2가지 구별된 데이터 영역이 있다. 하나는 업체가 말하는 '데이터 레이크'로써, 실제 업무에 사용하는 데이터베이스의 원본 그대로...

CIO ETL 데이터레이크 이베이츠 클라이드

2018.08.31

기업이 데이터 레이크(Data Lake)를 데이터 웨어하우스(Warehouse)로 사용하려다가 문제에 부닥치는 경우가 종종 있다. 가트너의 리서치 부사장 머브 에이드리언은 '끔찍한 아이디어'라고 말할 정도다. 거대 전사상거래 업체 이베이츠(Ebates)의 분석 부사장 마크 스테인지-트리기어가 4년 전 이베이츠에 합류했을 때도 비슷한 상황이었다. 당시 이베이츠는 일부 엔지니어가 단일 SQL 서버와 주요 생산 데이터베이스의 복사본을 사용하는 것 외에는 이렇다 할 비즈니스 인텔리전스(Business Intelligence, BI) 인프라가 없었다. 가장 큰 문제는 ETL(Extract, Transform, and Load) 프로세스였다. 스테인지-트리기어는 "ETL 작업에 28시간이 걸렸다. 필요한 보고서 또는 정보를 제때 확보하기 어려웠다. 또한 동시 실행 성능도 한계에 부딪혀 시스템 전체가 불안정해지고 있었다"라고 말했다. 그래서 대안으로 도입한 것이 바로 하둡(Hadoop) 클러스터 기반의 데이터 레이크였다. 비용과 비전 측면에서 적절한 솔루션이라고 판단했다. 여러 사일로(Silo)를 거치지 않고도 모든 데이터를 한 곳에 통합해 활용할 수 있을 것으로 기대했다. 당시 스테인지-트리기어의 팀은 핵심 ETL 프로세스를 파이썬(Python)으로 작성했고 불과 몇 달 후에는 최고 임원을 위한 보고서용 데이터를 새로운 데이터 레이크에서 뽑아내기 시작했다. 스테인지-트리기어가 "그때부터 임원진이 데이터 레이크를 받아들였다. 훨씬 빠르고 효율적으로 데이터를 뽑아냈기 때문이다. 이후 모든 것이 바뀌었다. 많은 작업이 필요하긴 했지만, 결국 기존에 사용하던 모든 SQL 서버를 걷어낼 수 있었다"라고 말했다. ETL 병목현상 이베이츠의 단일 하둡 클러스터에서 2가지 구별된 데이터 영역이 있다. 하나는 업체가 말하는 '데이터 레이크'로써, 실제 업무에 사용하는 데이터베이스의 원본 그대로...

2018.08.31

칼럼 | 혼란 속 거대한 흐름 있다··· 애널리틱스 동향 5가지

정보화 시대에서는 일찍 일어난 새가 아니라 데이터를 가진 새가 벌레를 잡는다. 구글, 페이스북, 애플 등 거대 기업들이 데이터를 병적으로 수집하는 이유도 이 시대에서 '정보가 곧 금'이라는 것을 알고 있기 때문이다. 그러나 데이터는 단순히 수집해 보유하는 것만으로는 가치가 없다. 더 중요한 것은 이런 데이터를 정제해 통합하고, 거기에서 유의미한 정보를 도출해 내는 과정이 필요하다. 그리고 그 과정이 끝난 후에야 의사 결정과 상품 제작에 데이터를 '활용'할 수 있게 된다. 그렇지만 오늘날 과포화 상태인 애널리틱스 시장 상황에서도 제대로 된 애널리틱스 전략을 세우는 것이 불가능하지만은 않다. 광활하고 복잡한 애널리틱스 분야에 대한 이해를 돕기 위해, 이 분야에 대해 개인적으로 생각하는 향후 5년 이내의 전망을 소개하려 한다. 어쩌면 이 예측 내용으로 좀 더 데이터 주도적인 기업으로 거듭나는 것이 가능해 질 지도 모른다. 1. 앱으로 이전하는 BI 지난 20여 년 동안 우리는 혁명을 목격해 왔다. 하루아침에 일어나는 혁명이 아니라, 오랜 시간을 두고 일어나는 혁명 말이다. 사실 너무 오랜 시간이 걸려서 혁명이 혁명인줄 모르는 사람들도 있다. BI는 죽어가고 있다. 아니, 좀 더 정확히 말하자면 다시 태어나고 있다. 창립 20주년이 넘은 기업 '태블로(Tableau)'는 마지막 'BI' 업체였다. 그리고 솔직히 말해 태블로는 주력 BI 솔루션도 아니다. 원래는 데이터 시각화 툴이었던 것이 충분한 BI 요소를 갖추게 됨에 따라 당시 업계를 호령하던 골리앗과 맞설 수 있게 된 것 뿐이다. 매년 사용자들은 허브스팟(HubSpot), 세일즈포스(SalesForce), 메일침프(MailChimp)와 같은 앱들을 통해 점점 더 많은 애널리틱스를 우겨넣고 있다. 애널리틱스는 비즈니스 애플리케이션의 구조 그 자체로의 이전이라고 할 수 있을 것이다. 핵심은 비즈니스 애플리케이션들이 자사의 데이...

BI 데이터 ETL 애널리틱스 머신러닝 컴파일러

2017.10.30

정보화 시대에서는 일찍 일어난 새가 아니라 데이터를 가진 새가 벌레를 잡는다. 구글, 페이스북, 애플 등 거대 기업들이 데이터를 병적으로 수집하는 이유도 이 시대에서 '정보가 곧 금'이라는 것을 알고 있기 때문이다. 그러나 데이터는 단순히 수집해 보유하는 것만으로는 가치가 없다. 더 중요한 것은 이런 데이터를 정제해 통합하고, 거기에서 유의미한 정보를 도출해 내는 과정이 필요하다. 그리고 그 과정이 끝난 후에야 의사 결정과 상품 제작에 데이터를 '활용'할 수 있게 된다. 그렇지만 오늘날 과포화 상태인 애널리틱스 시장 상황에서도 제대로 된 애널리틱스 전략을 세우는 것이 불가능하지만은 않다. 광활하고 복잡한 애널리틱스 분야에 대한 이해를 돕기 위해, 이 분야에 대해 개인적으로 생각하는 향후 5년 이내의 전망을 소개하려 한다. 어쩌면 이 예측 내용으로 좀 더 데이터 주도적인 기업으로 거듭나는 것이 가능해 질 지도 모른다. 1. 앱으로 이전하는 BI 지난 20여 년 동안 우리는 혁명을 목격해 왔다. 하루아침에 일어나는 혁명이 아니라, 오랜 시간을 두고 일어나는 혁명 말이다. 사실 너무 오랜 시간이 걸려서 혁명이 혁명인줄 모르는 사람들도 있다. BI는 죽어가고 있다. 아니, 좀 더 정확히 말하자면 다시 태어나고 있다. 창립 20주년이 넘은 기업 '태블로(Tableau)'는 마지막 'BI' 업체였다. 그리고 솔직히 말해 태블로는 주력 BI 솔루션도 아니다. 원래는 데이터 시각화 툴이었던 것이 충분한 BI 요소를 갖추게 됨에 따라 당시 업계를 호령하던 골리앗과 맞설 수 있게 된 것 뿐이다. 매년 사용자들은 허브스팟(HubSpot), 세일즈포스(SalesForce), 메일침프(MailChimp)와 같은 앱들을 통해 점점 더 많은 애널리틱스를 우겨넣고 있다. 애널리틱스는 비즈니스 애플리케이션의 구조 그 자체로의 이전이라고 할 수 있을 것이다. 핵심은 비즈니스 애플리케이션들이 자사의 데이...

2017.10.30

블로그 | ETL 시대의 종말

추출(Extract), 변환(Transform), 그리고 적재(Load). 이렇게 보면 ETL(Extraction, Transformation, Loading)은 단순한 개념 같다. 그러나 데이터 파이프라인 관리 경험이 있는 사람은 이 단순해 보이는 이름 뒤에 얼마나 복잡한 과정이 숨겨져 있는지 알고 있다. 특히 엔지니어들의 머리를 쥐어 뜯게 만드는 것은 바로 '변환(transform)' 단계다. 여기서 변환이란 미변환 상태의 로우 데이터(raw data)를 정리, 필터링, 정형(reshaping)하고, 요약해 분석에 적합한 상태로 바꾸어놓는 과정을 일컫는다. ETL 과정에서 바로 이 단계가 가장 많은 시간과 에너지가 들어가며 대부분 실수가 발생하는 부분도 이 단계다. ETL이 어렵다면 왜 이런 식으로 변환하는 것인가 간단히 말하자면 다른 방법이 없기 때문이다. 데이터웨어하우스는 소스 시스템에서 추출된 상태 그대로의 로우 데이터를 처리하지 못한다. 따라서 이런 데이터를 적재해 분석의 대상으로 삼기 위해서는 반드시 변환 단계가 필요하다. 하지만 여기에 들어가는 비용은 다양한 형태로 변환될 수 있는 로우 데이터를 유지하는 대신, 변환 과정을 거침으로써 데이터는 어느 정도의 유동성을 상실한 중간 단계 형태로 변화한다. 이를 통해 데이터 레솔루션(resolution)의 일부가 사라지고, 데이터에 현재 비즈니스 메트릭스를 적용하게 되며, 쓸모없는 데이터를 버리는 과정이 선행된다. 그리고 만일 이런 과정들 가운데 어느 하나라도 빠지거나 바뀌었다면, 예를 들어 이전까지는 하루 단위로 처리하던 데이터를 이제 시간 단위로 필요로 하게 되었거나, 메트릭 데피니션이 바뀌거나, '쓸모 없다'고 생각했던 데이터 중 일부가 필요한 것으로 변경된다면 데이터 변환 로직을 이에 맞춰 변화시키고, 데이터를 다시 프로세싱한 후 재적재해야 한다. 수일에서 수주일까지 걸릴 수 있는 과거 데이터 정제 과정 기존 ETL 시스템이 더할 나위 없...

ETL

2017.10.27

추출(Extract), 변환(Transform), 그리고 적재(Load). 이렇게 보면 ETL(Extraction, Transformation, Loading)은 단순한 개념 같다. 그러나 데이터 파이프라인 관리 경험이 있는 사람은 이 단순해 보이는 이름 뒤에 얼마나 복잡한 과정이 숨겨져 있는지 알고 있다. 특히 엔지니어들의 머리를 쥐어 뜯게 만드는 것은 바로 '변환(transform)' 단계다. 여기서 변환이란 미변환 상태의 로우 데이터(raw data)를 정리, 필터링, 정형(reshaping)하고, 요약해 분석에 적합한 상태로 바꾸어놓는 과정을 일컫는다. ETL 과정에서 바로 이 단계가 가장 많은 시간과 에너지가 들어가며 대부분 실수가 발생하는 부분도 이 단계다. ETL이 어렵다면 왜 이런 식으로 변환하는 것인가 간단히 말하자면 다른 방법이 없기 때문이다. 데이터웨어하우스는 소스 시스템에서 추출된 상태 그대로의 로우 데이터를 처리하지 못한다. 따라서 이런 데이터를 적재해 분석의 대상으로 삼기 위해서는 반드시 변환 단계가 필요하다. 하지만 여기에 들어가는 비용은 다양한 형태로 변환될 수 있는 로우 데이터를 유지하는 대신, 변환 과정을 거침으로써 데이터는 어느 정도의 유동성을 상실한 중간 단계 형태로 변화한다. 이를 통해 데이터 레솔루션(resolution)의 일부가 사라지고, 데이터에 현재 비즈니스 메트릭스를 적용하게 되며, 쓸모없는 데이터를 버리는 과정이 선행된다. 그리고 만일 이런 과정들 가운데 어느 하나라도 빠지거나 바뀌었다면, 예를 들어 이전까지는 하루 단위로 처리하던 데이터를 이제 시간 단위로 필요로 하게 되었거나, 메트릭 데피니션이 바뀌거나, '쓸모 없다'고 생각했던 데이터 중 일부가 필요한 것으로 변경된다면 데이터 변환 로직을 이에 맞춰 변화시키고, 데이터를 다시 프로세싱한 후 재적재해야 한다. 수일에서 수주일까지 걸릴 수 있는 과거 데이터 정제 과정 기존 ETL 시스템이 더할 나위 없...

2017.10.27

빅데이터와 잘 맞는 RDBMS '스플라이스 머신'... 이유는?

스플라이스 머신의 관계형 데이터베이스 2.0 버전이 최근 소개됐는데, 이 제품은 하둡의 확장성과 스파크의 인메모리 성능을 모두 갖췄다는 것이 특징이다. 이미지 출처 : Thinkstock 스플라이스 머신(Splice Machine)이 지난 11월 17일 자사 관계형 데이터베이스 관리 시스템(RDBMS, Rational DataBase Management System) 2.0 버전을 새로이 공개했다. 스플라이스 머신의 RDBMS 솔루션은 사용자에게 직원 재교육이나 수 년 분량의 SQL 재작성 등의 번거로움 없이도 하둡의 확장성과 스파크의 성능을 누릴 수 있도록 하는 것을 목표로 한다. 스플라이스 머신의 공동 설립자이자 CEO인 몬테 츠위벤은 “우리는 이 새 버전의 RDBMS가 데이터베이스 테크놀로지의 새로운 지평을 열었다고 평가하고 있다. 단일 데이터베이스로 복합적인 워크로드를 다루는 작업은 지금까지 매우 어려운 과정이었다. 지금까지 기업들은 한 곳의 플랫폼에서 자신들의 실시간, 공동 업무 작업을 진행한 뒤 그 모든 데이터를 ETL을 통해 별도의 플랫폼으로 이전하는 과정을 거치고서야 온전한 분석, 시각 도출 작업을 진행할 수 있었다”라고 이야기했다. 츠위벤은 “이러한 구조에서 기업들은 어제의 데이터를 이용해 의사결정을 내리게 된다. 모든 것이 실시간으로 변화하는 오늘날의 비즈니스 환경에서 이는 상당히 비효율적인 방식이다”라고 지적했다. --------------------------------------------------------------- 빅데이터와 DBMS 인기기사 -> '빅데이터와 궁합 잘 맞는' 최신 데이터베이스 11선 -> '옛 것 vs. 새 것' 빅데이터가 바꿔가는 데이터베이스 지형도 -> NoSQL, 데이터베이스 시장에 '폭풍'을 몰고 오다 -> 기고 | MySQL의 8가지 단점 ...

CIO 스플라이스 머신 비용 압박 OLAP OLTP 관계형 데이터베이스 클라우데라 RDBMS 하둡 비정형 데이터 ETL 성능 인메모리 빅데이터 Splice Machine

2015.11.30

스플라이스 머신의 관계형 데이터베이스 2.0 버전이 최근 소개됐는데, 이 제품은 하둡의 확장성과 스파크의 인메모리 성능을 모두 갖췄다는 것이 특징이다. 이미지 출처 : Thinkstock 스플라이스 머신(Splice Machine)이 지난 11월 17일 자사 관계형 데이터베이스 관리 시스템(RDBMS, Rational DataBase Management System) 2.0 버전을 새로이 공개했다. 스플라이스 머신의 RDBMS 솔루션은 사용자에게 직원 재교육이나 수 년 분량의 SQL 재작성 등의 번거로움 없이도 하둡의 확장성과 스파크의 성능을 누릴 수 있도록 하는 것을 목표로 한다. 스플라이스 머신의 공동 설립자이자 CEO인 몬테 츠위벤은 “우리는 이 새 버전의 RDBMS가 데이터베이스 테크놀로지의 새로운 지평을 열었다고 평가하고 있다. 단일 데이터베이스로 복합적인 워크로드를 다루는 작업은 지금까지 매우 어려운 과정이었다. 지금까지 기업들은 한 곳의 플랫폼에서 자신들의 실시간, 공동 업무 작업을 진행한 뒤 그 모든 데이터를 ETL을 통해 별도의 플랫폼으로 이전하는 과정을 거치고서야 온전한 분석, 시각 도출 작업을 진행할 수 있었다”라고 이야기했다. 츠위벤은 “이러한 구조에서 기업들은 어제의 데이터를 이용해 의사결정을 내리게 된다. 모든 것이 실시간으로 변화하는 오늘날의 비즈니스 환경에서 이는 상당히 비효율적인 방식이다”라고 지적했다. --------------------------------------------------------------- 빅데이터와 DBMS 인기기사 -> '빅데이터와 궁합 잘 맞는' 최신 데이터베이스 11선 -> '옛 것 vs. 새 것' 빅데이터가 바꿔가는 데이터베이스 지형도 -> NoSQL, 데이터베이스 시장에 '폭풍'을 몰고 오다 -> 기고 | MySQL의 8가지 단점 ...

2015.11.30

칼럼 | 2016년 유력 개발자 트렌드 9가지

콘테이너에서 NoSQL 및 스파크(Spark)에 이르기까지 여기 개발자들과 관련 있는 내년 IT 전망을 정리했다. 이 시점에 예측하긴 좀 이를 수도 있다. 하지만 개연성 높은 전망들이 있기 마련이다. 대부분은 빅데이터와 관련 있는 것들이지만 흥미를 끌 만한 다른 요소들도 포함돼 있다. 개발자 트렌드 No.1 : 콘테이너가 세계를 지배할 것이다 도커가 계속해서 개발되고, 보안 기능이 추가되며 다양한 형태의 거버넌스가 확보될 것이다. 이로 인해 많은 개발자들은 ‘pnwd.com’에 의존하는 콘테이너 트리 구조에서 벗어나기 어려울 것이다. 전체 기계를 기계 위에 에뮬레이팅 한다는 건 근원적으로 비경제적인 생각이었다. 반면 솔라리스 존은 좋은 아이디어다. 더욱이 패킹 포맷을 갖춘 리눅스 상의 솔라리스 존은 정말이지 좋은 아이디어다. 종속성을 추가하면 거칠게 없을 것이다. 개발자 트렌드 No. 2 : 자바 언어의 하락세가 빨라질 것이다 자바가 하락세라고 내가 이야기할 때마다 누군가 일자리 트렌드를 들어 반박했다. 그렇다면 다른 각도로 일자리를 다시 살펴보자. 자바 일자리가 늘어나는 것은 사실이다. 그러나 관리직만 늘어나고 있다. 다시 Node.js나 스파크, 몽고DB 구직 공고를 보자. 대부분 새로운 개발 업무다. 어느 일자리가 연봉이 더 높을까? 저임금 노동의 틀에 갇히지 않는 건 어느 쪽일까? 또한 “자바 경력”을 찾는다고 해서 그게 자바 코딩 할 사람을 꼭 찾는 것은 아니다. 참고로 우리 회사는 파이썬이나 스칼라를 사용하게 될 스파크 상에서 직원을 교육시킬 수 있기 때문에 그런 조건을 내건다. 자바의 하락세는 주춤하지만 JVM상에서 구동될  까지도 자바로 새로운 것들이 작성되지 않고 있다. 또한 오라클이 발을 빼고 있다. 새로운 걸 배워라. 그렇지 않으면 미래의 구식 메인프레임 코볼 개발자가 되어 은퇴까지 그것만 붙잡고 있게 될 것이다. 개발자 트렌드 No. ...

자바 2016 NoSQL 셀프 서비스 ETL 컨테이너 오픈스택 전망 개발자 스파크

2015.10.19

콘테이너에서 NoSQL 및 스파크(Spark)에 이르기까지 여기 개발자들과 관련 있는 내년 IT 전망을 정리했다. 이 시점에 예측하긴 좀 이를 수도 있다. 하지만 개연성 높은 전망들이 있기 마련이다. 대부분은 빅데이터와 관련 있는 것들이지만 흥미를 끌 만한 다른 요소들도 포함돼 있다. 개발자 트렌드 No.1 : 콘테이너가 세계를 지배할 것이다 도커가 계속해서 개발되고, 보안 기능이 추가되며 다양한 형태의 거버넌스가 확보될 것이다. 이로 인해 많은 개발자들은 ‘pnwd.com’에 의존하는 콘테이너 트리 구조에서 벗어나기 어려울 것이다. 전체 기계를 기계 위에 에뮬레이팅 한다는 건 근원적으로 비경제적인 생각이었다. 반면 솔라리스 존은 좋은 아이디어다. 더욱이 패킹 포맷을 갖춘 리눅스 상의 솔라리스 존은 정말이지 좋은 아이디어다. 종속성을 추가하면 거칠게 없을 것이다. 개발자 트렌드 No. 2 : 자바 언어의 하락세가 빨라질 것이다 자바가 하락세라고 내가 이야기할 때마다 누군가 일자리 트렌드를 들어 반박했다. 그렇다면 다른 각도로 일자리를 다시 살펴보자. 자바 일자리가 늘어나는 것은 사실이다. 그러나 관리직만 늘어나고 있다. 다시 Node.js나 스파크, 몽고DB 구직 공고를 보자. 대부분 새로운 개발 업무다. 어느 일자리가 연봉이 더 높을까? 저임금 노동의 틀에 갇히지 않는 건 어느 쪽일까? 또한 “자바 경력”을 찾는다고 해서 그게 자바 코딩 할 사람을 꼭 찾는 것은 아니다. 참고로 우리 회사는 파이썬이나 스칼라를 사용하게 될 스파크 상에서 직원을 교육시킬 수 있기 때문에 그런 조건을 내건다. 자바의 하락세는 주춤하지만 JVM상에서 구동될  까지도 자바로 새로운 것들이 작성되지 않고 있다. 또한 오라클이 발을 빼고 있다. 새로운 걸 배워라. 그렇지 않으면 미래의 구식 메인프레임 코볼 개발자가 되어 은퇴까지 그것만 붙잡고 있게 될 것이다. 개발자 트렌드 No. ...

2015.10.19

연봉 높고 인기 많은 빅 데이터 전문직 8종

오늘날 디지털 세계에는 데이터가 부족할 수가 없다. 오히려 데이터 과부하 시대라고 하는 표현이 더 어울리겠다. 기업들은 클라우드, 모바일 기술, 소셜 미디어에 투자하고 있다. 이와 함께 기업에 미치는 영향을 생각하면 얼마나 많은 데이터가 수집되고 있는지를 알 수 있을 것이다. 플로리다의 탐파(Tampa)에 본사를 둔 헤드헌팅 기업 케이포스(Kforce)의 최근 조사에 따르면 이런 데이터의 증가와 함께 데이터를 수집하고 정리하며 분석할 수 있는 사람들에 대한 수요도 늘어나고 있다고 한다. ciokr@idg.co.kr

CIO 개발자 DW DW어플라이언스 ETL 하둡 데이터 웨어하우스 분석

2014.01.17

오늘날 디지털 세계에는 데이터가 부족할 수가 없다. 오히려 데이터 과부하 시대라고 하는 표현이 더 어울리겠다. 기업들은 클라우드, 모바일 기술, 소셜 미디어에 투자하고 있다. 이와 함께 기업에 미치는 영향을 생각하면 얼마나 많은 데이터가 수집되고 있는지를 알 수 있을 것이다. 플로리다의 탐파(Tampa)에 본사를 둔 헤드헌팅 기업 케이포스(Kforce)의 최근 조사에 따르면 이런 데이터의 증가와 함께 데이터를 수집하고 정리하며 분석할 수 있는 사람들에 대한 수요도 늘어나고 있다고 한다. ciokr@idg.co.kr

2014.01.17

캡제미니, 아마존 클라우드 이용한 빅 데이터 분석 플랫폼 출시

기업들이 기존 ETL 기술을 사용하여 정형/비정형 데이터의 대형 소스 세트를 결합할 수 있게 됐다. 캡제미니가 비용 효율적으로 빅 데이터를 처리하는 방법을 제공하기 위해 아마존 웹 서비스(AWS)를 통해 제공하는 온디맨드로 분석 플랫폼을 발표했다. 캡제미니가 제공하는 엘라스틱 애널리틱스(Elastic Analytics)는 엔터프라이즈급 솔루션의 비용이 들며 여기에는 클라우드 환경에서 분석을 운영하기 위한 인프라, 관리, 보안, 지원, 유지보수 등이 포함돼 있다. 엘라스틱 애널리틱스는 클라우드에서 좀더 수월한 통합 분석 작업을 위해, 기업들이 기존에 사용하는 선도적인 BI 소프트웨어 패키지도 지원하는 것으로 알려졌다. "기업들은 자체적으로 데이터센터를 운영하는 것과 동일한 모습을 유지하면서 사용하는 만큼 비용을 지불하는 모델인 클라우드 컴퓨팅의 가장 강력한 측면의 장점을 충분히 활용할 수 있게 됐다”라고 캡제미니는 밝혔다. 이 서비스는 데이터를 추출하고 통합하는데 기존 ETL 기술과 AWS 하둡 기반의 아마존 엘라스틱 맵리듀스(EMR) 시스템을 사용하여 정형/비정형 데이터의 대용량 소스 세트를 결합할 수 있다. 그런 다음 사용자는 자사의 데이터에서 비즈니스 통찰력을 얻게 될 것이다. 캡제미니의 비즈니스 정보 관리 수석 부사장 스콧 슐레진저는 "기업들은 지속적으로 짧은 시간에 가치를 얻는 고급 분석을 제공해 주는 최적화된 솔루션을 찾고 있다. AWS는 기업들이 고급 분석 업무를 시작하고 계속해서 이를 해나갈 수 있도록 신속하게 능력을 제공하는, 확장 가능한 플랫폼이다”라고 말했다. ciokr@idg.co.kr

AWS ETL 캡제미니 아마존 웹 서비스 분석

2013.08.26

기업들이 기존 ETL 기술을 사용하여 정형/비정형 데이터의 대형 소스 세트를 결합할 수 있게 됐다. 캡제미니가 비용 효율적으로 빅 데이터를 처리하는 방법을 제공하기 위해 아마존 웹 서비스(AWS)를 통해 제공하는 온디맨드로 분석 플랫폼을 발표했다. 캡제미니가 제공하는 엘라스틱 애널리틱스(Elastic Analytics)는 엔터프라이즈급 솔루션의 비용이 들며 여기에는 클라우드 환경에서 분석을 운영하기 위한 인프라, 관리, 보안, 지원, 유지보수 등이 포함돼 있다. 엘라스틱 애널리틱스는 클라우드에서 좀더 수월한 통합 분석 작업을 위해, 기업들이 기존에 사용하는 선도적인 BI 소프트웨어 패키지도 지원하는 것으로 알려졌다. "기업들은 자체적으로 데이터센터를 운영하는 것과 동일한 모습을 유지하면서 사용하는 만큼 비용을 지불하는 모델인 클라우드 컴퓨팅의 가장 강력한 측면의 장점을 충분히 활용할 수 있게 됐다”라고 캡제미니는 밝혔다. 이 서비스는 데이터를 추출하고 통합하는데 기존 ETL 기술과 AWS 하둡 기반의 아마존 엘라스틱 맵리듀스(EMR) 시스템을 사용하여 정형/비정형 데이터의 대용량 소스 세트를 결합할 수 있다. 그런 다음 사용자는 자사의 데이터에서 비즈니스 통찰력을 얻게 될 것이다. 캡제미니의 비즈니스 정보 관리 수석 부사장 스콧 슐레진저는 "기업들은 지속적으로 짧은 시간에 가치를 얻는 고급 분석을 제공해 주는 최적화된 솔루션을 찾고 있다. AWS는 기업들이 고급 분석 업무를 시작하고 계속해서 이를 해나갈 수 있도록 신속하게 능력을 제공하는, 확장 가능한 플랫폼이다”라고 말했다. ciokr@idg.co.kr

2013.08.26

필립스헬스케어, 데이터 매핑 동기화••• 적기 적소로 데이터 전달

필립스헬스케어가 SAP 미들웨어를 도입하면서 데이터 매핑 기능을 개선하고자 새로운 데이터 전환 및 통합 툴로 교체했다. 필립스헬스케어 사업부는 60개 이상의 국가에서 11만 6,000명의 직원을 거느리고 있다. 이 회사가 SAP PI 미들웨어 플랫폼을 가동하기 시작했을 때, 기존 데이터 시스템 이전 프로세스는 사용자들에게 가시성을 제공해야 했다. 이 사업부에서는 6만 건 이상의 비즈니스 메시지가 매일 생성된다. 필립스에 따르면, 새로운 MRI 시스템을 판매와 주문이 일어날 때, 이 회사는 많은 관련 부서에 전달하는 메시지의 사슬을 설정한다고 한다. 이 관련 부서에는 세부 주문 사항을 정리하는 영업부서, 시스템 구축을 담당하는 제조부서, 자재 구매를 요청하는 구매부서, 고객에게 청구서를 보내는 재무부서, MRI 시스템이 고객에게 잘 설치됐는지를 확인하는 프로젝트 관리부서 등이 있다. 때문에 데이터가 정확하게 필립스의 모든 부서간에 매핑돼 있는지 확인하는 것이 가장 중요해 진다. 필립스헬스케어는 원래 팁코의 EAI를 사용하고 있었다. 이 시스템이 10년이 지나자 이 시스템은 더 이상 새로운 미들웨어 요구 사항을 수용할 수 없게 됐으며 필립스헬스케어는 조치를 취할 수 밖에 없게 됐다. 필립스는 자사 데이터에 대한 단일 XML 기반 구조를 적용할 수 있도록 새로운 표준 모델과 함께 최신 팁코 플랫폼으로 업그레이드했다. 그러나 새로운 팁코 플랫폼으로 필립스는 기존의 자사 데이터 매핑 개발 방식에서 몇 가지 문제점을 발견하게 됐다. XML 환경으로 업그레이드한 후 필립스는 엑셀에서만 작성할 수 있는 매핑과 이를 코딩하는 매핑 과정이 충분치 않다는 것을 알게 됐다. 이따금 매핑 사양과 매핑 코딩이 동기화되지 않는다는 사실을 발견한 것이다. 필립스헬스케어의 EAI 컨설턴트 한스 슬루츠는 “매핑을 정의하고 새로운 미들웨어 플랫폼으로 전환할 수 있을 만큼 유연한 새로운 솔루션이 필요했다”라고 말했다. 필립스는 리에...

SAP 필립스헬스케어 EAI 필립스 전환 팁코 MDM ETL 미들웨어 통합 데이터 매핑

2012.07.02

필립스헬스케어가 SAP 미들웨어를 도입하면서 데이터 매핑 기능을 개선하고자 새로운 데이터 전환 및 통합 툴로 교체했다. 필립스헬스케어 사업부는 60개 이상의 국가에서 11만 6,000명의 직원을 거느리고 있다. 이 회사가 SAP PI 미들웨어 플랫폼을 가동하기 시작했을 때, 기존 데이터 시스템 이전 프로세스는 사용자들에게 가시성을 제공해야 했다. 이 사업부에서는 6만 건 이상의 비즈니스 메시지가 매일 생성된다. 필립스에 따르면, 새로운 MRI 시스템을 판매와 주문이 일어날 때, 이 회사는 많은 관련 부서에 전달하는 메시지의 사슬을 설정한다고 한다. 이 관련 부서에는 세부 주문 사항을 정리하는 영업부서, 시스템 구축을 담당하는 제조부서, 자재 구매를 요청하는 구매부서, 고객에게 청구서를 보내는 재무부서, MRI 시스템이 고객에게 잘 설치됐는지를 확인하는 프로젝트 관리부서 등이 있다. 때문에 데이터가 정확하게 필립스의 모든 부서간에 매핑돼 있는지 확인하는 것이 가장 중요해 진다. 필립스헬스케어는 원래 팁코의 EAI를 사용하고 있었다. 이 시스템이 10년이 지나자 이 시스템은 더 이상 새로운 미들웨어 요구 사항을 수용할 수 없게 됐으며 필립스헬스케어는 조치를 취할 수 밖에 없게 됐다. 필립스는 자사 데이터에 대한 단일 XML 기반 구조를 적용할 수 있도록 새로운 표준 모델과 함께 최신 팁코 플랫폼으로 업그레이드했다. 그러나 새로운 팁코 플랫폼으로 필립스는 기존의 자사 데이터 매핑 개발 방식에서 몇 가지 문제점을 발견하게 됐다. XML 환경으로 업그레이드한 후 필립스는 엑셀에서만 작성할 수 있는 매핑과 이를 코딩하는 매핑 과정이 충분치 않다는 것을 알게 됐다. 이따금 매핑 사양과 매핑 코딩이 동기화되지 않는다는 사실을 발견한 것이다. 필립스헬스케어의 EAI 컨설턴트 한스 슬루츠는 “매핑을 정의하고 새로운 미들웨어 플랫폼으로 전환할 수 있을 만큼 유연한 새로운 솔루션이 필요했다”라고 말했다. 필립스는 리에...

2012.07.02

금융 산업 빅 데이터를 주도하는 10대 트렌드

지금까지 금융 업종은 빅 데이터 기술을 도입하는데 다른 업종에 비해 뒤쳐지는 모습을 보였다. 이에 대해 선가드 컨설팅 서비시즈(SunGard Consulting Services)의 선진 테크놀로지 비즈니스 사업부 파트너로 활동 중인 닐 팔머는 금융 산업이 과도한 규제 때문에 혁신적 방법론을 도입하는데 신중한 자세를 취해왔다며 그 이유를 설명했다. 하지만 유입 데이터 규모의 증가와 운용 비용 절감의 압력은 금융 업종에서도 빅 데이터에 대한 관심을 증대시키게 되었다. IDC 파이낸셜 인사이츠(IDC Financial Insights)에서 국제 리스크 연구 담당 이사겸 빅 데이터 산업 리더로 활동 중인 마이클 베르사체는 금융 서비스 시장의 핵심은 ‘비즈니스 애널리틱스(business analytics)’라고 소개한 바 있다. 여기 선가드의 팔머가 꼽은 2012년 금융 시장의 10대 빅 데이터 트렌드를 소개하고자 한다. ciokr@idg.co.kr

금융 리스크 관리 ETL 비즈니스 분석 예측 모델링

2012.06.18

지금까지 금융 업종은 빅 데이터 기술을 도입하는데 다른 업종에 비해 뒤쳐지는 모습을 보였다. 이에 대해 선가드 컨설팅 서비시즈(SunGard Consulting Services)의 선진 테크놀로지 비즈니스 사업부 파트너로 활동 중인 닐 팔머는 금융 산업이 과도한 규제 때문에 혁신적 방법론을 도입하는데 신중한 자세를 취해왔다며 그 이유를 설명했다. 하지만 유입 데이터 규모의 증가와 운용 비용 절감의 압력은 금융 업종에서도 빅 데이터에 대한 관심을 증대시키게 되었다. IDC 파이낸셜 인사이츠(IDC Financial Insights)에서 국제 리스크 연구 담당 이사겸 빅 데이터 산업 리더로 활동 중인 마이클 베르사체는 금융 서비스 시장의 핵심은 ‘비즈니스 애널리틱스(business analytics)’라고 소개한 바 있다. 여기 선가드의 팔머가 꼽은 2012년 금융 시장의 10대 빅 데이터 트렌드를 소개하고자 한다. ciokr@idg.co.kr

2012.06.18

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.13