Offcanvas

ELT

분석을 위해 등장한 데이터베이스··· OLAP 따라잡기

OLAP(Online analytical processing ; 온라인 분석 처리) 데이터베이스는 분석 질의를 처리할 목적으로 구축된 데이터베이스이다.  분석 쿼리를 OLTP(online transaction-processing ; 온라인 트랜잭션 처리) 데이터베이스 상에서 실행하면 다음과 같은 이유로 회신 시간이 오래 걸린다. 첫째, OLTP 데이터베이스는 대개 제3정규형(3NF)이다. 복잡한 JOIN 연산을 여러 테이블에 수행해야 하므로 분석 질의에 컴퓨팅 자원이 많이 든다. 둘째, 읽기 작업이 많은 분석 질의는 인덱스가 더 많아야 유리한데 OLTP 데이터베이스는 쓰기 속도를 최적화하기 위해 인덱스가 적은 편이다. 셋째, 소규모 트랜잭션으로 계속 바쁜 OLTP 데이터베이스에서 긴 분석 질의를 실행하면 (주로 인덱스에 대한) 경쟁이 야기되어 트랜잭션 속도와 질의 속도 모두 저하된다. 이러한 문제를 해결하기 위해 OLAP 데이터베이스는 최적화된 별도의 분석 질의용 데이터베이스로 등장했다. 데이터베이스를 분석용으로 최적화하는 방법은 다음과 같다. OLAP에 대한 설명 OLAP 데이터베이스는 데이터 웨어하우스 또는 데이터 마트에서 나온 대량의 데이터를 다차원적으로 분석할 때 속도를 높일 목적으로 설계됐다. 분석 속도를 높이는 방법으로는 OLAP 큐브라는 다차원 형식으로 관계형 데이터를 추출해 넣는 방법, 분석할 데이터를 메모리 내에 불러들이거나 열 순서로 저장하는 방법, 여러 CPU를 병렬로 활용한(고도 병렬 처리(MPP)) 분석 수행 방법 등이 있다. ETL 및 ELT OLAP를 구현하려면 데이터를 트랜잭션 데이터베이스에서 꺼내 분석 데이터베이스로 넣는 프로세스를 정립해야 한다. 예전에는 이를 위해 밤마다 데이터 추출, 변환 및 로드(ETL) 작업이 일괄적으로 수행되곤 했다.  하드웨어와 소프트웨어가 개선되면서 ETL 일괄 작업 대신 연속 데이터 스트림이 사용되는 경우가 많아졌고 변환(T) 단계가 로드(L) 이후의 프로세스 말미로 미...

OLAP OLTP 데이터베이스 ETL ELT MOLAP ROLAP HOLAP

2022.02.15

OLAP(Online analytical processing ; 온라인 분석 처리) 데이터베이스는 분석 질의를 처리할 목적으로 구축된 데이터베이스이다.  분석 쿼리를 OLTP(online transaction-processing ; 온라인 트랜잭션 처리) 데이터베이스 상에서 실행하면 다음과 같은 이유로 회신 시간이 오래 걸린다. 첫째, OLTP 데이터베이스는 대개 제3정규형(3NF)이다. 복잡한 JOIN 연산을 여러 테이블에 수행해야 하므로 분석 질의에 컴퓨팅 자원이 많이 든다. 둘째, 읽기 작업이 많은 분석 질의는 인덱스가 더 많아야 유리한데 OLTP 데이터베이스는 쓰기 속도를 최적화하기 위해 인덱스가 적은 편이다. 셋째, 소규모 트랜잭션으로 계속 바쁜 OLTP 데이터베이스에서 긴 분석 질의를 실행하면 (주로 인덱스에 대한) 경쟁이 야기되어 트랜잭션 속도와 질의 속도 모두 저하된다. 이러한 문제를 해결하기 위해 OLAP 데이터베이스는 최적화된 별도의 분석 질의용 데이터베이스로 등장했다. 데이터베이스를 분석용으로 최적화하는 방법은 다음과 같다. OLAP에 대한 설명 OLAP 데이터베이스는 데이터 웨어하우스 또는 데이터 마트에서 나온 대량의 데이터를 다차원적으로 분석할 때 속도를 높일 목적으로 설계됐다. 분석 속도를 높이는 방법으로는 OLAP 큐브라는 다차원 형식으로 관계형 데이터를 추출해 넣는 방법, 분석할 데이터를 메모리 내에 불러들이거나 열 순서로 저장하는 방법, 여러 CPU를 병렬로 활용한(고도 병렬 처리(MPP)) 분석 수행 방법 등이 있다. ETL 및 ELT OLAP를 구현하려면 데이터를 트랜잭션 데이터베이스에서 꺼내 분석 데이터베이스로 넣는 프로세스를 정립해야 한다. 예전에는 이를 위해 밤마다 데이터 추출, 변환 및 로드(ETL) 작업이 일괄적으로 수행되곤 했다.  하드웨어와 소프트웨어가 개선되면서 ETL 일괄 작업 대신 연속 데이터 스트림이 사용되는 경우가 많아졌고 변환(T) 단계가 로드(L) 이후의 프로세스 말미로 미...

2022.02.15

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

ETL ELT 데이터 빅 데이터 데이터 과학 데이터 관리 데이터 레이크 데이터 웨어하우스

2021.09.15

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

2021.09.15

‘데이터 랭글링’ 및 ‘탐구 데이터 분석’ 따라잡기

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

데이터 과학자 데이터 랭글링 탐구 데이터 분석 데이터 처리 애널리틱스 데이터 정제 데이터 모델링 ETL ELT 데이터 마이닝 데이터 스크래핑

2021.03.26

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

2021.03.26

"디지털 혁신이 가져올 변화와 대응방안"··· 한국IDG, IT Roadmap 2019 컨퍼런스 개최

한국 IDG가 10월 23일 양재동 엘타워 그레이스 홀에서 IT Roadmap 2019 컨퍼런스를 개최한다. 이번 IT Roadmap 컨퍼런스에는 월마트, 버라이즌, 머스크, 베터먼트, 오라클, 뉴타닉스 코리아, 효성인포메이션시스템 등 국내외 연사진들의 다양한 강연이 준비되어 있다. 미국 최대 소매 유통업체인 월마트의 기업전략을 담당하고 있는 정지은 디렉터는 “혁신 기술은 어떻게 차세대 커머스와 새로운 쇼핑 경험을 만들어내는가”라는 주제로, 새로운 커머스 모델과 쇼핑 경험에 대해 공유한다. 또한, 미국 최대 통신사 버라이즌의 5G 부문 담당 Distinguished Technologist인 조셉 호 박사는 4차 산업혁명을 위한 커넥티비티 기술인 5G에 대해 발표한다. 5G가 가능케 하는 새로운 서비스를 사례와 함께 살펴봄으로써 5G를 보다 이해하는 데 도움을 줄 예정이다.   세계 1위 해운그룹인 머스크의 클라우드 CoE(Center of Excellence) 리더인 라스무스 할드는 “Succeeding with Cloud at MAERSK”를 주제로, 머스크의 디지털 혁신을 위한 퍼블릭 클라우드 전환 사례를 공유하고 어려웠던 점과 교훈 등을 전달한다. 로보어드바이저 선두주자인 베터먼트의 벤 가비 시니어 엔지니어링 매니저는 최근 5년간 데이터 분석 파이프라인이 어떻게 변화했는지 살펴보고, 기존의 데이터 처리방식인 ETL(Extract, Transform and Load)에서 ELT(Extract, Load and Transform)로의 전환을 통한 빠르고 유연한 분석을 구축하는 방법을 알아본다. 아울러 뉴타닉스 코리아, 효성인포메이션시스템, 오라클, 오토메이션애니웨어, 레드햇, 퍼즐데이터 등도 참여해 최신 IT 동향과 효과적인 대응 방안을 전달할 예정이다. 현재 사전등록이 가능하며, 컨퍼런스 참석에 대한 보다 자세한 정보는 한국IDG 컨퍼런스 사이트를 통해 확인할 수 있다. ciokr@idg.co.kr

혁신 뉴타닉스 코리아 IT 로드맵 2019 IT Roadmap 2019 ELT 오토메이션애니웨어 퍼즐데이터 머스크 디지털 변혁 효성인포메이션시스템 월마트 5G 버라이즌 ETL 레드햇 오라클 베터먼트

2019.09.25

한국 IDG가 10월 23일 양재동 엘타워 그레이스 홀에서 IT Roadmap 2019 컨퍼런스를 개최한다. 이번 IT Roadmap 컨퍼런스에는 월마트, 버라이즌, 머스크, 베터먼트, 오라클, 뉴타닉스 코리아, 효성인포메이션시스템 등 국내외 연사진들의 다양한 강연이 준비되어 있다. 미국 최대 소매 유통업체인 월마트의 기업전략을 담당하고 있는 정지은 디렉터는 “혁신 기술은 어떻게 차세대 커머스와 새로운 쇼핑 경험을 만들어내는가”라는 주제로, 새로운 커머스 모델과 쇼핑 경험에 대해 공유한다. 또한, 미국 최대 통신사 버라이즌의 5G 부문 담당 Distinguished Technologist인 조셉 호 박사는 4차 산업혁명을 위한 커넥티비티 기술인 5G에 대해 발표한다. 5G가 가능케 하는 새로운 서비스를 사례와 함께 살펴봄으로써 5G를 보다 이해하는 데 도움을 줄 예정이다.   세계 1위 해운그룹인 머스크의 클라우드 CoE(Center of Excellence) 리더인 라스무스 할드는 “Succeeding with Cloud at MAERSK”를 주제로, 머스크의 디지털 혁신을 위한 퍼블릭 클라우드 전환 사례를 공유하고 어려웠던 점과 교훈 등을 전달한다. 로보어드바이저 선두주자인 베터먼트의 벤 가비 시니어 엔지니어링 매니저는 최근 5년간 데이터 분석 파이프라인이 어떻게 변화했는지 살펴보고, 기존의 데이터 처리방식인 ETL(Extract, Transform and Load)에서 ELT(Extract, Load and Transform)로의 전환을 통한 빠르고 유연한 분석을 구축하는 방법을 알아본다. 아울러 뉴타닉스 코리아, 효성인포메이션시스템, 오라클, 오토메이션애니웨어, 레드햇, 퍼즐데이터 등도 참여해 최신 IT 동향과 효과적인 대응 방안을 전달할 예정이다. 현재 사전등록이 가능하며, 컨퍼런스 참석에 대한 보다 자세한 정보는 한국IDG 컨퍼런스 사이트를 통해 확인할 수 있다. ciokr@idg.co.kr

2019.09.25

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9