Offcanvas

��������� ���������������

“바퀴 달린 데이터 엔진” NJ 트랜싯의 트랜스포메이션 사례

美 뉴저지주를 중심으로 한 동부권의 철도/버스 회사 ‘뉴저지 트랜싯(NJ Transit)’의 최고 데이터 및 디지털 책임자 룩맨 파잘은 데이터센터 스택을 멀티클라우드 플랫폼으로 이전했으며, 가능한 한 많은 인사이트를 추출해 비즈니스를 최적화하고 있다.  NJ 트랜싯에 합류한 이후 파잘은 ‘데이터 혁신’ 지원이라는 핵심 목표를 달성하고 있다. 이를 위해 그는 애널리스트가 원하는 모든 것(심지어는 알지 못했던 것)을 제공할 수 있는 클라우드 기반 플랫폼으로 이 회사의 IT 운영 환경을 전환할 계획을 수립했다. 그 결과 NJ 트랜싯은 보고서 및 원형 차트에서 나아가 고급 챗봇, AI/ML 모델 및 예측 애널리틱스를 활용하게 됐다.  파잘은 이 트랜스포메이션을 언급하면서, “가치를 보여줬다. 지난 몇 년 동안 IT가 구축한 것은 직원들의 삶을 더 단순하게 만드는 방법, 통근 시간을 줄이는 방법이었다”라고 설명했다.    “바퀴 달린 데이터 엔진(Data engine on wheels)” 오래된 인프라에서 더 많은 데이터를 마이닝하기 위해 파잘은 우선 NJ 트랜싯의 스택을 현대화해야 했다고 밝혔다. 그는 “2020년 초 이 회사의 인프라는 메인프레임부터 클라이언트/서버, SaaS 시스템, 심지어는 맞춤형 제품, 기성품, 대기업 제품, 소기업 제품이 뒤섞인 140개의 애플리케이션까지 그야말로 짬뽕과도 같았다”라고 전했다.  수많은 애플리케이션에서 나오는 데이터는 여러 저장소(주로 기존 데이터베이스)에 분산됐다. 그는 IT팀에 대규모 데이터 웨어하우스를 구축하려고 서두르다가 ‘귀중한’ 데이터를 잃어버리지 말고, 일단 모든 데이터를 수집한 다음, 나중에 그 용도를 체계적으로 결정하자고 지시했다. 파잘은 “무슨 데이터인지 신경 쓰지 않았다. 그냥 덤프트럭이라 생각하고 전부 수집하라고 했다”라고 말했다. 그에 따르면 이러한 접근 방식은 실질적인 비즈니스 이점을 창출했으며, 고객 서비스도 개선했다. 이에 따라 오늘날 NJ 트...

데이터 혁신 데이터 트랜스포메이션 멀티클라우드 데이터 웨어하우스 데이터 레이크 데이터 애널리틱스 클라우드 마이그레이션

2022.09.27

美 뉴저지주를 중심으로 한 동부권의 철도/버스 회사 ‘뉴저지 트랜싯(NJ Transit)’의 최고 데이터 및 디지털 책임자 룩맨 파잘은 데이터센터 스택을 멀티클라우드 플랫폼으로 이전했으며, 가능한 한 많은 인사이트를 추출해 비즈니스를 최적화하고 있다.  NJ 트랜싯에 합류한 이후 파잘은 ‘데이터 혁신’ 지원이라는 핵심 목표를 달성하고 있다. 이를 위해 그는 애널리스트가 원하는 모든 것(심지어는 알지 못했던 것)을 제공할 수 있는 클라우드 기반 플랫폼으로 이 회사의 IT 운영 환경을 전환할 계획을 수립했다. 그 결과 NJ 트랜싯은 보고서 및 원형 차트에서 나아가 고급 챗봇, AI/ML 모델 및 예측 애널리틱스를 활용하게 됐다.  파잘은 이 트랜스포메이션을 언급하면서, “가치를 보여줬다. 지난 몇 년 동안 IT가 구축한 것은 직원들의 삶을 더 단순하게 만드는 방법, 통근 시간을 줄이는 방법이었다”라고 설명했다.    “바퀴 달린 데이터 엔진(Data engine on wheels)” 오래된 인프라에서 더 많은 데이터를 마이닝하기 위해 파잘은 우선 NJ 트랜싯의 스택을 현대화해야 했다고 밝혔다. 그는 “2020년 초 이 회사의 인프라는 메인프레임부터 클라이언트/서버, SaaS 시스템, 심지어는 맞춤형 제품, 기성품, 대기업 제품, 소기업 제품이 뒤섞인 140개의 애플리케이션까지 그야말로 짬뽕과도 같았다”라고 전했다.  수많은 애플리케이션에서 나오는 데이터는 여러 저장소(주로 기존 데이터베이스)에 분산됐다. 그는 IT팀에 대규모 데이터 웨어하우스를 구축하려고 서두르다가 ‘귀중한’ 데이터를 잃어버리지 말고, 일단 모든 데이터를 수집한 다음, 나중에 그 용도를 체계적으로 결정하자고 지시했다. 파잘은 “무슨 데이터인지 신경 쓰지 않았다. 그냥 덤프트럭이라 생각하고 전부 수집하라고 했다”라고 말했다. 그에 따르면 이러한 접근 방식은 실질적인 비즈니스 이점을 창출했으며, 고객 서비스도 개선했다. 이에 따라 오늘날 NJ 트...

2022.09.27

“쉽고 빠른 풀스택 접근법” MS 애저 애널리틱스 서비스 7선

마이크로소프트는 애저 클라우드에서 (전체 애널리틱스 스택으로 함께 작동하는) 다양한 데이터 애널리틱스 옵션을 제공한다. 여기서는 핵심 서비스와 적합한 사용 사례를 살펴본다.  비즈니스 데이터를 이해할 수 없다면 사실상 눈을 가린 채로 비행하는 것이나 마찬가지다. 데이터에 숨겨진 인사이트는 비즈니스 운영을 최적화하고, 고객 경험을 미세 조정하며, 새로운 제품 또는 새로운 비즈니스 라인(예: 예측 유지 보수 등)을 개발하는 데 필수적이다.  애널리틱스는 이러한 인사이트를 발견하기 위한 수단이고, 이를 제대로 하려면 데이터 수집 및 준비, 데이터 보강 및 태깅, 보고서 작성 및 공유, 데이터 및 인사이트 관리 및 보호를 위한 도구가 필요하다. 또한 기업들이 점점 더 많은 양의 데이터와 씨름하면서 클라우드는 애널리틱스 작업에 안성맞춤인 장소로 빠르게 변하고 있다.     많은 기업에서 ‘마이크로소프트 애저(Microsoft Azure)’는 애널리틱스를 위한 중앙 허브가 됐다. 데이터 애널리틱스를 광범위하게 해석하는 애저는 12개 이상의 서비스를 제공한다(이후 AI 기반 분석 및 새로운 데이터마트 옵션을 지원하는 ‘파워 BI(Power BI)’ 또는 마이크로소프트 퍼뷰(Microsoft Purview) 등의 거버넌스 지향 접근법도 추가됐다).  마이크로소프트 애널리틱스(Microsoft Analytics)의 CTO 아미르 네츠는 “단편적인 접근법이 아니라, 함께 작동하도록 설계된 애저에서 전체 애널리틱스 서비스 스택을 제공하는 것을 목표로 하고 있다”라고 말했다.  다양한 서비스 간에 중복되는 부분이 있긴 하지만 그는 애저의 애널리틱스 서비스가 애널리틱스 아키텍처 프레임워크 생성 시 기업이 구축하는 계층에 광범위하게 해당된다고 밝혔다. 넷츠는 “데이터 레이크 생성, 데이터 저장, 레이크에서의 데이터 처리, 데이터 엔지니어링, 데이터 웨어하우스 구축, 머신러닝 알고리즘 및 데이터 과학 실행, 비즈니스 사용자...

마이크로소프트 애저 클라우드 애널리틱스 데이터 애널리틱스 데이터 레이크 데이터 웨어하우스 머신러닝

2022.07.04

마이크로소프트는 애저 클라우드에서 (전체 애널리틱스 스택으로 함께 작동하는) 다양한 데이터 애널리틱스 옵션을 제공한다. 여기서는 핵심 서비스와 적합한 사용 사례를 살펴본다.  비즈니스 데이터를 이해할 수 없다면 사실상 눈을 가린 채로 비행하는 것이나 마찬가지다. 데이터에 숨겨진 인사이트는 비즈니스 운영을 최적화하고, 고객 경험을 미세 조정하며, 새로운 제품 또는 새로운 비즈니스 라인(예: 예측 유지 보수 등)을 개발하는 데 필수적이다.  애널리틱스는 이러한 인사이트를 발견하기 위한 수단이고, 이를 제대로 하려면 데이터 수집 및 준비, 데이터 보강 및 태깅, 보고서 작성 및 공유, 데이터 및 인사이트 관리 및 보호를 위한 도구가 필요하다. 또한 기업들이 점점 더 많은 양의 데이터와 씨름하면서 클라우드는 애널리틱스 작업에 안성맞춤인 장소로 빠르게 변하고 있다.     많은 기업에서 ‘마이크로소프트 애저(Microsoft Azure)’는 애널리틱스를 위한 중앙 허브가 됐다. 데이터 애널리틱스를 광범위하게 해석하는 애저는 12개 이상의 서비스를 제공한다(이후 AI 기반 분석 및 새로운 데이터마트 옵션을 지원하는 ‘파워 BI(Power BI)’ 또는 마이크로소프트 퍼뷰(Microsoft Purview) 등의 거버넌스 지향 접근법도 추가됐다).  마이크로소프트 애널리틱스(Microsoft Analytics)의 CTO 아미르 네츠는 “단편적인 접근법이 아니라, 함께 작동하도록 설계된 애저에서 전체 애널리틱스 서비스 스택을 제공하는 것을 목표로 하고 있다”라고 말했다.  다양한 서비스 간에 중복되는 부분이 있긴 하지만 그는 애저의 애널리틱스 서비스가 애널리틱스 아키텍처 프레임워크 생성 시 기업이 구축하는 계층에 광범위하게 해당된다고 밝혔다. 넷츠는 “데이터 레이크 생성, 데이터 저장, 레이크에서의 데이터 처리, 데이터 엔지니어링, 데이터 웨어하우스 구축, 머신러닝 알고리즘 및 데이터 과학 실행, 비즈니스 사용자...

2022.07.04

오픈소스 MPP 데이터 웨어하우스, ‘아파치 도리스’란? 

‘그’가 누구이고, 어떤 학교에 다녔는지 궁금한가? ‘아파치 도리스(Apache Doris)’는 아파치 인큐베이터(Apache Incubator)에서 개발한 오픈소스 MPP 분석 데이터 웨어하우스다. 지난주 아파치 소프트웨어 재단(Apache Software Foundation; ASF)은 도리스가 최상위 수준 프로젝트(Top-Level Project; TLP)로 승격했다고 발표했다.  MySQL 애널리틱스를 활용하는 이 SQL 기반 데이터 웨어하우스는 최근 버전 1.0 그리고 도리스를 다양한 애널리틱스 및 처리 기술과 연결하는 6개의 커넥터 릴리즈를 함께 출시했다(버전 1.0은 여덟 번째 릴리즈다). 특히 이는 데이터 과학 시나리오에서 자주 사용되는 온라인 분석 처리(OLAP) 워크로드를 지원하기 위해 개발됐다.  도리스는 중국의 인터넷 검색 대기업 바이두(Baidu)에서 태어났으며, 당시에는 ‘팔로(Palo)’라고 불렸다. 2017년 오픈소스화되고, 이어 2018년 아파치 인큐베이터에 기증되기 전까지 (바이두의) 광고 비즈니스를 위한 데이터 웨어하우징 시스템으로 사용됐다.    아파치 임팔라 및 구글 매사를 기반으로 하는 도리스 도리스는 구글 F1(Google F1)을 토대로 2012년 개발된 오픈소스 MPP SQL 쿼리 엔진 구글 매사(Google Mesa)와 아파치 임팔라(Apache Impala)의 기술 통합을 바탕으로 한다. 2014년경 확장성이 뛰어난 분석 데이터 웨어하우징 시스템으로 설계된 매사는 구글의 인터넷 광고 비즈니스와 관련된 중요한 측정 데이터를 저장하는 데 활용됐다.  바이두와 아파치 인큐베이터의 개발자에 따르면 이 데이터베이스는 고가용성, 안정성, 내결함성, 확장성은 물론 단순한 설계 아키텍처까지 제공한다. 아파치 소프트웨어 재단은 공식 성명에서 “단일 시스템(에서의 개발, 배포, 사용)과 많은 데이터 제공 요건을 충족하는 게 도리스의 주요 기능이다”라면서, “이 데이터 웨어하우수...

오픈소스 데이터 웨어하우스 아파치 도리스 아파치 소프트웨어 재단 아파치 인큐베이터 MPP 데이터 과학 바이두 오픈소스 데이터베이스

2022.06.24

‘그’가 누구이고, 어떤 학교에 다녔는지 궁금한가? ‘아파치 도리스(Apache Doris)’는 아파치 인큐베이터(Apache Incubator)에서 개발한 오픈소스 MPP 분석 데이터 웨어하우스다. 지난주 아파치 소프트웨어 재단(Apache Software Foundation; ASF)은 도리스가 최상위 수준 프로젝트(Top-Level Project; TLP)로 승격했다고 발표했다.  MySQL 애널리틱스를 활용하는 이 SQL 기반 데이터 웨어하우스는 최근 버전 1.0 그리고 도리스를 다양한 애널리틱스 및 처리 기술과 연결하는 6개의 커넥터 릴리즈를 함께 출시했다(버전 1.0은 여덟 번째 릴리즈다). 특히 이는 데이터 과학 시나리오에서 자주 사용되는 온라인 분석 처리(OLAP) 워크로드를 지원하기 위해 개발됐다.  도리스는 중국의 인터넷 검색 대기업 바이두(Baidu)에서 태어났으며, 당시에는 ‘팔로(Palo)’라고 불렸다. 2017년 오픈소스화되고, 이어 2018년 아파치 인큐베이터에 기증되기 전까지 (바이두의) 광고 비즈니스를 위한 데이터 웨어하우징 시스템으로 사용됐다.    아파치 임팔라 및 구글 매사를 기반으로 하는 도리스 도리스는 구글 F1(Google F1)을 토대로 2012년 개발된 오픈소스 MPP SQL 쿼리 엔진 구글 매사(Google Mesa)와 아파치 임팔라(Apache Impala)의 기술 통합을 바탕으로 한다. 2014년경 확장성이 뛰어난 분석 데이터 웨어하우징 시스템으로 설계된 매사는 구글의 인터넷 광고 비즈니스와 관련된 중요한 측정 데이터를 저장하는 데 활용됐다.  바이두와 아파치 인큐베이터의 개발자에 따르면 이 데이터베이스는 고가용성, 안정성, 내결함성, 확장성은 물론 단순한 설계 아키텍처까지 제공한다. 아파치 소프트웨어 재단은 공식 성명에서 “단일 시스템(에서의 개발, 배포, 사용)과 많은 데이터 제공 요건을 충족하는 게 도리스의 주요 기능이다”라면서, “이 데이터 웨어하우수...

2022.06.24

칼럼ㅣ데이터를 통제할 수 없게 됐는가?

데이터부터 빅데이터, 더 큰 데이터 웨어하우스, 더욱더 큰 데이터 레이크까지 데이터의 ‘얼굴’은 수년에 걸쳐 다양한 형태를 취해왔다. 저장 위치가 변경됐고, 사용 방법도 변경됐다. 추적하기도 어려워졌다. 수십 년 동안 축적된 데이터와 다양한 프로세스가 그야말로 ‘데이터 혼돈(data chaos)’을 불러왔다. 데이터를 적절한 경로로 되돌릴 수 있는 사고방식의 전환이 필요한 때다.  기업 데이터의 ‘얼굴’은 수년에 걸쳐 확장돼 왔으며, 계속해서 빠르게 발전하고 있다. (이에 따라) 기업 내에서 데이터를 저장하는 위치가 변화했다. 사용 방법도 마찬가지다. 추적하기도 어려워졌다.  축적된 데이터 볼륨, 스토리지 아키텍처, 이를 둘러싼 여러 프로세스로 인해 ‘데이터 혼돈(data chaos)’이 발생했다. 현재의 데이터 아키텍처는 모놀리식이고, 중앙집중화돼 있기 때문에 길을 잃었다. 기업들은 통제권을 되찾기 위해 사고방식을 전환해야 한다. 그리고 많은 사람이 오늘날 데이터 분야에서 가장 핫한 트렌드인 ‘데이터 메시’가 해답일 것이라고 이야기한다.    데이터 메시(mesh)? 데이터 메스(mess)? ‘데이터 메시(Data Mesh)’는 아직 초기 단계이긴 하지만 빅데이터를 잇는 개념으로 간주된다. 그렇다면 데이터 메시란 무엇인가? 모든 데이터를 불분명한 소유 형태로 한곳에 보관하는 게 아니라, ‘제품으로써의 데이터(data-as-a-product)’를 제공하는 일종의 연합 모델이다. 이 모델은 여러 데이터 도메인에서 협업 가능한 범용 데이터 표준 웹으로 연결된다. 하지만 데이터 메시의 ‘왜(why)’와 ‘어떻게(how)’에 초점을 맞춰야 한다. 그래야 ‘무엇(what)’에 정신이 팔리거나 이 아키텍처의 기술적 설명에 얽매이는 것보다 훨씬 더 유용할 수 있다. ‘소속 기업에서 데이터 관리를 변경하고 싶은 이유는 무엇이며, 어떻게 해야 할까?’라고 자문하라. 막대한 자금을 지원받는 스타트업에서 일하지 않는 한, 텅 빈 도면과...

데이터 빅데이터 데이터 웨어하우스 데이터 레이크 데이터 메시 사일로

2022.05.24

데이터부터 빅데이터, 더 큰 데이터 웨어하우스, 더욱더 큰 데이터 레이크까지 데이터의 ‘얼굴’은 수년에 걸쳐 다양한 형태를 취해왔다. 저장 위치가 변경됐고, 사용 방법도 변경됐다. 추적하기도 어려워졌다. 수십 년 동안 축적된 데이터와 다양한 프로세스가 그야말로 ‘데이터 혼돈(data chaos)’을 불러왔다. 데이터를 적절한 경로로 되돌릴 수 있는 사고방식의 전환이 필요한 때다.  기업 데이터의 ‘얼굴’은 수년에 걸쳐 확장돼 왔으며, 계속해서 빠르게 발전하고 있다. (이에 따라) 기업 내에서 데이터를 저장하는 위치가 변화했다. 사용 방법도 마찬가지다. 추적하기도 어려워졌다.  축적된 데이터 볼륨, 스토리지 아키텍처, 이를 둘러싼 여러 프로세스로 인해 ‘데이터 혼돈(data chaos)’이 발생했다. 현재의 데이터 아키텍처는 모놀리식이고, 중앙집중화돼 있기 때문에 길을 잃었다. 기업들은 통제권을 되찾기 위해 사고방식을 전환해야 한다. 그리고 많은 사람이 오늘날 데이터 분야에서 가장 핫한 트렌드인 ‘데이터 메시’가 해답일 것이라고 이야기한다.    데이터 메시(mesh)? 데이터 메스(mess)? ‘데이터 메시(Data Mesh)’는 아직 초기 단계이긴 하지만 빅데이터를 잇는 개념으로 간주된다. 그렇다면 데이터 메시란 무엇인가? 모든 데이터를 불분명한 소유 형태로 한곳에 보관하는 게 아니라, ‘제품으로써의 데이터(data-as-a-product)’를 제공하는 일종의 연합 모델이다. 이 모델은 여러 데이터 도메인에서 협업 가능한 범용 데이터 표준 웹으로 연결된다. 하지만 데이터 메시의 ‘왜(why)’와 ‘어떻게(how)’에 초점을 맞춰야 한다. 그래야 ‘무엇(what)’에 정신이 팔리거나 이 아키텍처의 기술적 설명에 얽매이는 것보다 훨씬 더 유용할 수 있다. ‘소속 기업에서 데이터 관리를 변경하고 싶은 이유는 무엇이며, 어떻게 해야 할까?’라고 자문하라. 막대한 자금을 지원받는 스타트업에서 일하지 않는 한, 텅 빈 도면과...

2022.05.24

빅데이터 분석 위한 대규모 확장형 스토리지··· ‘데이터 레이크’ A to Z

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

데이터 레이크 하둡 스토리지 클러스터 데이터마트 데이터 웨어하우스 애널리틱스

2022.05.03

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

2022.05.03

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

데이터브릭스 데이터 통합 플랫폼 데이터 파이프라인 ETL 데이터레이크 데이터 웨어하우스

2022.04.08

데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다.    델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다.  컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다.  이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다.  데이터 레이크하우스의 초기 단계  하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다.  "데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 ...

2022.04.08

‘아파치 카프카’, 개념부터 사용례까지

2011년 링크드인(LinkedIn)에서 개발된 ‘아파치 카프카(Apache Kafka)’는 이벤트 스트리밍에서 널리 쓰이는 플랫폼 중 하나다. 카프카는 고성능 데이터 파이프라인, 스트리밍 애널리틱스, 데이터 통합, 미션 크리티컬 애플리케이션에 사용된다.  모든 데이터를 데이터 웨어하우스에 저장하고 야간 배치 처리를 사용하여 분석하는 것만으로는 더 이상 비즈니스 또는 프로세스를 적시에 모니터링 및 관리하기가 충분하지 않다. 대신에 이후의 심층 분석을 위해 데이터 저장 외에 간단한 데이터 스트림 실시간 분석을 수행해야 한다.    카프카의 부속물에는 아파치 플링크(Apache Flink), 아파치 삼자(Apache Samza), 아파치 스파크(Apache Spark), 아파치 스톰(Apache Storm), 데이터브릭스(Databricks), 버베리카(Ververica) 등이 있다. 카프카의 대안으로는 아마존 키네시스(Amazon Kinesis), 아파치 펄사(Apache Pulsar), 애저 스트림 애널리틱스(Azure Stream Analytics), 컨플루언트(Confluent), 구글 클라우드 데이터플로(Google Cloud Dataflow) 등이 있다. 단, 카프카의 단점은 대규모 카프카 클러스터 구성이 까다로울 수 있다는 것이다. 컨플루언트 클라우드(Confluent Cloud)와 아파치 카프카용 아마존 관리형 스트리밍(Amazon Managed Streaming) 등 카프카의 상용 클라우드 버전을 사용하면 이 문제와 다른 문제를 해결할 수 있다(유료). 아파치 카프카란? 아파치 카프카는 고성능 데이터 파이프라인, 스트리밍 분석, 데이터 통합, 미션 크리티컬 애플리케이션을 위한 오픈소스, 자바/스칼라, 분산 이벤트 스트리밍 플랫폼이다. 카프카 이벤트는 토픽별로 구성되고 저장된다. 카프카의 핵심 API는 5개이며, 다음과 같다.  • Admin API: 토픽, 브로커, 기타 카프카 객체를 관리하고 검사한다...

아파치 카프카 이벤트 스트리밍 데이터 데이터 파이프라인 데이터 웨어하우스 링크드인 컨플루언트 애널리틱스 소프트웨어 개발

2022.03.02

2011년 링크드인(LinkedIn)에서 개발된 ‘아파치 카프카(Apache Kafka)’는 이벤트 스트리밍에서 널리 쓰이는 플랫폼 중 하나다. 카프카는 고성능 데이터 파이프라인, 스트리밍 애널리틱스, 데이터 통합, 미션 크리티컬 애플리케이션에 사용된다.  모든 데이터를 데이터 웨어하우스에 저장하고 야간 배치 처리를 사용하여 분석하는 것만으로는 더 이상 비즈니스 또는 프로세스를 적시에 모니터링 및 관리하기가 충분하지 않다. 대신에 이후의 심층 분석을 위해 데이터 저장 외에 간단한 데이터 스트림 실시간 분석을 수행해야 한다.    카프카의 부속물에는 아파치 플링크(Apache Flink), 아파치 삼자(Apache Samza), 아파치 스파크(Apache Spark), 아파치 스톰(Apache Storm), 데이터브릭스(Databricks), 버베리카(Ververica) 등이 있다. 카프카의 대안으로는 아마존 키네시스(Amazon Kinesis), 아파치 펄사(Apache Pulsar), 애저 스트림 애널리틱스(Azure Stream Analytics), 컨플루언트(Confluent), 구글 클라우드 데이터플로(Google Cloud Dataflow) 등이 있다. 단, 카프카의 단점은 대규모 카프카 클러스터 구성이 까다로울 수 있다는 것이다. 컨플루언트 클라우드(Confluent Cloud)와 아파치 카프카용 아마존 관리형 스트리밍(Amazon Managed Streaming) 등 카프카의 상용 클라우드 버전을 사용하면 이 문제와 다른 문제를 해결할 수 있다(유료). 아파치 카프카란? 아파치 카프카는 고성능 데이터 파이프라인, 스트리밍 분석, 데이터 통합, 미션 크리티컬 애플리케이션을 위한 오픈소스, 자바/스칼라, 분산 이벤트 스트리밍 플랫폼이다. 카프카 이벤트는 토픽별로 구성되고 저장된다. 카프카의 핵심 API는 5개이며, 다음과 같다.  • Admin API: 토픽, 브로커, 기타 카프카 객체를 관리하고 검사한다...

2022.03.02

2022년 IT 지출처··· ‘핫한’ 7가지 ‘지는’ 4가지

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

IT 투자 IT 리더 CIO IT 리더십 디지털 트랜스포메이션 클라우드 네이티브 사물인터넷 데이터 레이크 데이터 웨어하우스 프라이빗 클라우드 직원 인게이지먼트 애널리틱스 데이터 과학 고객 경험 보안

2022.01.10

IT 리더들이 ‘기술’을 활용하여 혁신과 비즈니스 트랜스포메이션에 박차를 가할 방안을 모색하고 있다. 그렇다면 투자가 늘어나고 있는 기술은 무엇인지, 반면에 약화되거나 축소되고 있는 기술은 무엇인지 살펴본다.  팬데믹 기간 동안 가속화된 디지털 트랜스포메이션 물결을 타고 올해에도 기업들은 혁신을 촉진하고 비즈니스 운영을 트랜스포메이션하고자 기술을 적극적으로 활용할 전망이다. 이를 위해서는 기술 투자가 필요하다. 이를 아는 기업들은 새로운 기술 및 기존 기술 예산을 늘리고 있다. 액센츄어에 따르면 전체 디지털 지출은 2023년까지 총 IT 지출의 55%를 차지할 것으로 예상되며, 지난 2021년보다 약 10% 증가하는 수준이다.    액센츄어의 수석 전무이사 애슐리 스카이름은 이러한 지출이 4가지 핵심 영역에 집중될 것이라고 밝혔다. 첫 번째는 시장 출시 속도가 중요한 시장(예: AI, 블록체인, AR/VR 등)에서 가치를 입증하기 위해 새로운 사용 사례를 빠르게 시험하고 프로토타이핑하면서 기업들이 ‘재창조하고 혁신하는’ 영역이다. 두 번째 영역은 데이터 및 애널리틱스용 플랫폼 등 ‘새로운 역량 또는 수익원을 창출하는 혁신적인 투자’를 통해 확장하고 차별화하면서 비즈니스를 성장시키는 것이다. 세 번째는 ERP/CRM, 품질, 공급 계획 시스템 등 경쟁력 있는 비즈니스 역량 또는 프로세스 디지털화를 통해 가치사슬을 디지털화하는 것이다. 마지막은 비즈니스를 운영하고, 데이터센터 및 네트워크 등에서 보안 및 컴플라이언스를 유지하는 데 필요한 기술 역량이다.  여기서는 2022년 CIO와 IT 리더들이 투자하게 될 ‘뜨거운(Hot)’ IT 기술 7가지와 ‘차가운(Cold)’ IT 기술 4가지를 정리했다.   Hot: 클라우드 네이티브 관리형 서비스 KPMG의 수석 고문 마크 생크는 클라우드 네이티브 관리형 서비스를 활용하기 위한 투자가 이뤄질 것이라고 말했다. 그는 “예전엔 기업들이 클라우드 투자로 인한 벤더 락...

2022.01.10

첫눈 내린 날, '스노우플레이크'도 한국에 왔다

“스노우플레이크 솔루션의 본질은 온프레미스와 여러 퍼블릭 클라우드에 걸쳐 있는 데이터 사일로를 해소한다는 것입니다. 단일의 통합된 데이터 플랫폼을 구현해 기업들이 데이터를 마침내 제대로 활용할 수 있도록 지원합니다. 한국에서도 진정한 단순함을 체험할 수 있기를 바랍니다.” 서울에 이른 첫눈이 10일, 스노우플레이크가 한국 시장에 공식 진출했다. 신임 한국 지사장에 선임된 강현준 지사장은 “겨울과 함께 스노우플레이크가 한국에 마침내 왔다”라고 말했다. 국내 파트너 기업으로는 SK C&C와 한컴MDS가 선정된 바 있다. SK C&C는 아태 지역 최초의 ‘파워드 바이 스노우플레이크’ 파트너이기도 하다. 9년 전 설립된 스노우플레이크는 클라우드 데이터 웨어하우스 전문 기업이다. 21018년 2억 6,300만 달러 투자를 유치하면서 클라우드 기반 데이터 웨어하우스 기업으로는 처음 '유니콘' 대열에 합류했다. 2020년 9월에는 뉴욕 증권거래소에 상장됐다. 당시 기록한 30억 달러의 모금액은 소프트웨어 기업이 IPO에서 달성한 역대 최대의 금액이었던 바 있다.  스노우플레이크는 한국 진출에 앞서 호주, 인도, 일본, 뉴질랜드, 싱가포르, 동남아시아 등 아태 및 일본(APJ) 지역에서 광범위하게 비즈니스를 운영하고 있다. 스노우플레이크의 한국 진출은 스노우플레이크가 한국 기업의 데이터 역량 강화를 지원하겠다는 지속적인 의지의 표명이라고 회사 측은 밝혔다.  스노우플레이크 프랭크 슬루트만 CEO는 “한국은 전 세계에서 8번째로 큰 시장이다. 데이터 혁신에 관심이 큰 기업이 다수 존재한다는 점에서 우리에게 적합한 시장이다. 고객들은 이제 하나 이상의 데이터 플랫폼을 원하지 않는다. 풀 스펙트럼을 갖춘 단일한 플랫폼에 대한 니즈가 한국 고객들에게 크다”라고 말했다.  강형준 지사장은 “자동차, 금융서비스, 제조, 유통 등 한국의 핵심 산업은 스노우플레이크의 유연성, 동시성 및 안전한 데이터 공유 혜택 등을 받을 수 있다. 글...

스노우플레이크 강형준 데이터 웨어하우스 데이터 플랫폼 데이터 클라우드

2021.11.10

“스노우플레이크 솔루션의 본질은 온프레미스와 여러 퍼블릭 클라우드에 걸쳐 있는 데이터 사일로를 해소한다는 것입니다. 단일의 통합된 데이터 플랫폼을 구현해 기업들이 데이터를 마침내 제대로 활용할 수 있도록 지원합니다. 한국에서도 진정한 단순함을 체험할 수 있기를 바랍니다.” 서울에 이른 첫눈이 10일, 스노우플레이크가 한국 시장에 공식 진출했다. 신임 한국 지사장에 선임된 강현준 지사장은 “겨울과 함께 스노우플레이크가 한국에 마침내 왔다”라고 말했다. 국내 파트너 기업으로는 SK C&C와 한컴MDS가 선정된 바 있다. SK C&C는 아태 지역 최초의 ‘파워드 바이 스노우플레이크’ 파트너이기도 하다. 9년 전 설립된 스노우플레이크는 클라우드 데이터 웨어하우스 전문 기업이다. 21018년 2억 6,300만 달러 투자를 유치하면서 클라우드 기반 데이터 웨어하우스 기업으로는 처음 '유니콘' 대열에 합류했다. 2020년 9월에는 뉴욕 증권거래소에 상장됐다. 당시 기록한 30억 달러의 모금액은 소프트웨어 기업이 IPO에서 달성한 역대 최대의 금액이었던 바 있다.  스노우플레이크는 한국 진출에 앞서 호주, 인도, 일본, 뉴질랜드, 싱가포르, 동남아시아 등 아태 및 일본(APJ) 지역에서 광범위하게 비즈니스를 운영하고 있다. 스노우플레이크의 한국 진출은 스노우플레이크가 한국 기업의 데이터 역량 강화를 지원하겠다는 지속적인 의지의 표명이라고 회사 측은 밝혔다.  스노우플레이크 프랭크 슬루트만 CEO는 “한국은 전 세계에서 8번째로 큰 시장이다. 데이터 혁신에 관심이 큰 기업이 다수 존재한다는 점에서 우리에게 적합한 시장이다. 고객들은 이제 하나 이상의 데이터 플랫폼을 원하지 않는다. 풀 스펙트럼을 갖춘 단일한 플랫폼에 대한 니즈가 한국 고객들에게 크다”라고 말했다.  강형준 지사장은 “자동차, 금융서비스, 제조, 유통 등 한국의 핵심 산업은 스노우플레이크의 유연성, 동시성 및 안전한 데이터 공유 혜택 등을 받을 수 있다. 글...

2021.11.10

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

ETL ELT 데이터 빅 데이터 데이터 과학 데이터 관리 데이터 레이크 데이터 웨어하우스

2021.09.15

‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다.  일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다.    다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다.  그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다.  가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다.  전통적인 ETL의 단점 기존 ETL에는 다음과 같은 단점이 있다.  • 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.   • ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.   • ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.   • 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이...

2021.09.15

칼럼ㅣ데이터 레이크 저물고 '데이터 패브릭' 떠오른다

데이터 레이크와 데이터 웨어하우스가 여전히 유용하긴 하지만 이제 데이터 관리에 새로운 접근법을 취할 때다.  지난 20년 동안 CIO, CDO, 애널리스트가 기업 인프라에 저장된 데이터에 관해 의사결정을 내리면서 중앙 집중화를 강조하는 문화를 조성했다. IT 팀의 보호 아래에서 데이터를 처리할 때 (데이터가) 가장 잘 통제되고 유용하다는 것이었다.  이 기간에는 해당 논리에 관한 논쟁이 있을 수 없었다. 이로 인해 데이터 웨어하우징을 통한 첫 번째 데이터 통합의 물결이 일었다. 1990년대에 이는 데이터를 사전 정의된 사용 사례에 맞춰 고정된 구조적 형태로 사전 처리 및 저장하여 여러 비즈니스 인텔리전스 플랫폼을 단일 솔루션으로 연결하는 효과적인 방법이었다.    하지만 시간이 지나면서 이러한 아키텍처에 광범위한 사용자 정의 및 데이터 유지관리가 필요하다는 게 명확해졌고, 확장 요건에도 어려움을 겪었다. 게다가 데이터 프로젝트의 소유권을 부서별로 가져가기 어려웠기 때문에 데이터가 비즈니스에 미치는 전반적인 영향도 감소했다.  그리고 이 문제를 해결하기 위해 새로운 유형의 아키텍처 ‘데이터 레이크’가 등장했다. 기업들은 데이터 레이크를 통해 모든 정형 및 비정형 데이터를 규모에 상관없이 중앙 저장소에 저장할 수 있었다.  데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했다. 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었다.  하지만 이런 발전에도 불구하고 한계점은 남아 있었다. 기업 내의 데이터 팀은 보유한 데이터로 더 많은 일을 할 수 있었지만 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하느라 진땀을 빼고 있었다.  데이터 플랫폼 아키텍처...

데이터 관리 데이터 거버넌스 마스터 데이터 관리 데이터 레이크 데이터 웨어하우스 데이터 패브릭 데이터 메시

2021.09.10

데이터 레이크와 데이터 웨어하우스가 여전히 유용하긴 하지만 이제 데이터 관리에 새로운 접근법을 취할 때다.  지난 20년 동안 CIO, CDO, 애널리스트가 기업 인프라에 저장된 데이터에 관해 의사결정을 내리면서 중앙 집중화를 강조하는 문화를 조성했다. IT 팀의 보호 아래에서 데이터를 처리할 때 (데이터가) 가장 잘 통제되고 유용하다는 것이었다.  이 기간에는 해당 논리에 관한 논쟁이 있을 수 없었다. 이로 인해 데이터 웨어하우징을 통한 첫 번째 데이터 통합의 물결이 일었다. 1990년대에 이는 데이터를 사전 정의된 사용 사례에 맞춰 고정된 구조적 형태로 사전 처리 및 저장하여 여러 비즈니스 인텔리전스 플랫폼을 단일 솔루션으로 연결하는 효과적인 방법이었다.    하지만 시간이 지나면서 이러한 아키텍처에 광범위한 사용자 정의 및 데이터 유지관리가 필요하다는 게 명확해졌고, 확장 요건에도 어려움을 겪었다. 게다가 데이터 프로젝트의 소유권을 부서별로 가져가기 어려웠기 때문에 데이터가 비즈니스에 미치는 전반적인 영향도 감소했다.  그리고 이 문제를 해결하기 위해 새로운 유형의 아키텍처 ‘데이터 레이크’가 등장했다. 기업들은 데이터 레이크를 통해 모든 정형 및 비정형 데이터를 규모에 상관없이 중앙 저장소에 저장할 수 있었다.  데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했다. 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었다.  하지만 이런 발전에도 불구하고 한계점은 남아 있었다. 기업 내의 데이터 팀은 보유한 데이터로 더 많은 일을 할 수 있었지만 서로 다른 요구사항을 가진 비즈니스 내 여러 부서로부터 받은 임시 요청을 처리하느라 진땀을 빼고 있었다.  데이터 플랫폼 아키텍처...

2021.09.10

더 스마트한 컴퓨팅··· ‘엣지 애널리틱스’가 견인한다

실시간 애널리틱스 분야에서의 ‘엣지 컴퓨팅’과 ‘IoT 기기’ 활용은 무한한 가능성을 가지고 있다. 엣지 구축을 위한 애널리틱스 모델 설계가 만만치 않지만 말이다.  애널리틱스 및 머신러닝과 관련한 많은 사용 사례가 데이터 웨어하우스 또는 데이터 레이크에 저장된 데이터와 연결되고, 전체 데이터세트나 데이터 하위 집합에서 알고리즘을 실행하며, 클라우드 아키텍처에서 결과를 계산한다. 이는 데이터가 빈번하게 변경되지 않는다면 효과적인 방식이다. 하지만 데이터가 자주 바뀐다면?    오늘날 많은 기업에서 실시간으로 데이터를 처리하고 분석해야 할 필요성이 높아지고 있다. 이러한 변화를 주도한 건 사물인터넷(IoT)이다. 센서에서 스트리밍되는 데이터로 다운스트림 시스템을 제어하기 위해서는 즉각적인 처리와 애널리틱스가 필요하기 때문이다.  또한 실시간 애널리틱스는 의료, 금융 서비스, 제조, 광고 등을 포함한 많은 산업에서도 중요하다. 데이터의 작은 변화가 금융, 의료, 안전 및 기타 비즈니스에 상당한 영향을 미칠 수 있어서다.   실시간 애널리틱스에 관심이 있다면? 또한 엣지 컴퓨팅, AR/VR, 대규모 IoT 센서 및 머신러닝을 조합해 활용하는 신기술에 관심이 있다면? ‘엣지 애널리틱스’ 설계를 이해하는 게 중요하다. 자율주행 드론, 스마트 시티, 소매 체인 관리, 증강현실 게임 네트워크 등의 엣지 컴퓨팅 사용 사례가 모두 대규모이면서 안정적인 엣지 애널리틱스 구축을 목표로 하기 때문이다.  엣지 애널리틱스, 스트리밍 애널리틱스 그리고 엣지 컴퓨팅  서로 다른 여러 애널리틱스, 머신러닝, 엣지 컴퓨팅 패러다임은 ‘엣지 애널리틱스’와 관련돼 있다.  • 엣지 애널리틱스(Edge analytics)는 클라우드 외부 인프라, 그리고 지리적으로 로컬화된 인프라의 ‘엣지에(on the edge)’ 구축된 애널리틱스 및 머신러닝 알고리즘을 가리킨다.  • 스트리밍 애널리틱스(S...

스마트 컴퓨팅 엣지 엣지 컴퓨팅 엣지 애널리틱스 IoT 사물인터넷 센서 데이터 웨어하우스 데이터 레이크 증강현실 가상현실 머신러닝 자율주행 드론 스마트 시티 스트리밍 애널리틱스 이벤트 프로세싱 포그 컴퓨팅

2020.10.28

실시간 애널리틱스 분야에서의 ‘엣지 컴퓨팅’과 ‘IoT 기기’ 활용은 무한한 가능성을 가지고 있다. 엣지 구축을 위한 애널리틱스 모델 설계가 만만치 않지만 말이다.  애널리틱스 및 머신러닝과 관련한 많은 사용 사례가 데이터 웨어하우스 또는 데이터 레이크에 저장된 데이터와 연결되고, 전체 데이터세트나 데이터 하위 집합에서 알고리즘을 실행하며, 클라우드 아키텍처에서 결과를 계산한다. 이는 데이터가 빈번하게 변경되지 않는다면 효과적인 방식이다. 하지만 데이터가 자주 바뀐다면?    오늘날 많은 기업에서 실시간으로 데이터를 처리하고 분석해야 할 필요성이 높아지고 있다. 이러한 변화를 주도한 건 사물인터넷(IoT)이다. 센서에서 스트리밍되는 데이터로 다운스트림 시스템을 제어하기 위해서는 즉각적인 처리와 애널리틱스가 필요하기 때문이다.  또한 실시간 애널리틱스는 의료, 금융 서비스, 제조, 광고 등을 포함한 많은 산업에서도 중요하다. 데이터의 작은 변화가 금융, 의료, 안전 및 기타 비즈니스에 상당한 영향을 미칠 수 있어서다.   실시간 애널리틱스에 관심이 있다면? 또한 엣지 컴퓨팅, AR/VR, 대규모 IoT 센서 및 머신러닝을 조합해 활용하는 신기술에 관심이 있다면? ‘엣지 애널리틱스’ 설계를 이해하는 게 중요하다. 자율주행 드론, 스마트 시티, 소매 체인 관리, 증강현실 게임 네트워크 등의 엣지 컴퓨팅 사용 사례가 모두 대규모이면서 안정적인 엣지 애널리틱스 구축을 목표로 하기 때문이다.  엣지 애널리틱스, 스트리밍 애널리틱스 그리고 엣지 컴퓨팅  서로 다른 여러 애널리틱스, 머신러닝, 엣지 컴퓨팅 패러다임은 ‘엣지 애널리틱스’와 관련돼 있다.  • 엣지 애널리틱스(Edge analytics)는 클라우드 외부 인프라, 그리고 지리적으로 로컬화된 인프라의 ‘엣지에(on the edge)’ 구축된 애널리틱스 및 머신러닝 알고리즘을 가리킨다.  • 스트리밍 애널리틱스(S...

2020.10.28

굿바이 하둡! 라쿠텐, 클라우드 기반 스노우플레이크로 전환

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

전자상거래 빅데이터 하둡 스칼라 파이썬 스파크 SQL 라쿠텐 스노우플레이크 데이터 웨어하우스 DW 데이터 레이크 ETL 클라우데라 캐쉬백

2020.06.25

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

2020.06.25

의사결정지원시스템(DSS)이란? BI와 어떻게 다르지?

의사결정지원시스템(DSS)은 일종의 대화형 정보시스템으로, 대량의 데이터를 분석해 업무 의사결정에 필요한 정보를 제공한다. 불확실성의 의미를 평가하고 한가지 결정 대신 다른 결정을 했을 때 어떤 장단점이 있는지도 가늠함으로써 조직의 관리, 운영, 기획 수준에서 의사결정 개선을 지원한다.   DSS는 미가공 데이터와 문서, 개인 지식 및 사업 모델 등을 모두 활용하여 사용자의 의사결정 개선을 돕는다. DSS에서 사용되는 데이터 소스로는 관계형 데이터 소스, 큐브, 데이터창고, EHR, 수입 예상 자료, 판매 예상 자료 등등이 있을 수 있다. 의사결정지원시스템의 개념은 1950년대와 1960년대에 카네기 공과대학`에서 수행된 연구에서 유래한 것으로 1980년대에 EIS, GDSS, ODSS 등의 형태로 기업에서 제대로 뿌리를 내렸다. 요즘 들어 각 조직에서 데이터 주도 의사결정에 집중하는 경향이 늘어남에 따라 의사결정 과학(또는 의사결정 인텔리전스)이 부상하고 있으며, 의사결정 과학 시스템의 잠재력을 활용할 열쇠는 의사결정 과학자들이 쥐고 있을 수도 있다. 응용데이터과학, 사회과학, 경영과학 등이 결합된 의사결정 과학은 고급 의사결정을 내리기 위해 필요한 노력을 줄이기 위해 여러 옵션 중 취사선택에 집중한다. DSS와 BI의 비교 의사결정지원시스템(DSS)과 비즈니스 인텔리전스(BI)는 서로 융합되는 경우가 많다. DSS를 계승한 것이 BI라고 보는 전문가들도 있다. 대체로 의사결정지원시스템은 데이터 웨어하우징 및 데이터 마이닝과 더불어 비즈니스 인텔리전스 시스템의 한 요소로 인식되고 있다. BI는 의사결정에 사용될 데이터를 수집, 분석하고 평가하기 위한 광범위한 범주의 애플리케이션, 서비스, 기술인 반면, DSS 애플리케이션은 좀더 구체적인 의사결정을 지원하기 위한 목적을 두고 구축되는 경향이 있다. 예를 들어, 비즈니스 DSS는 과거의 판매 자료와 현재의 변수를 분석하여 일정 기간 회사의 수익 추정에 도움을 줄 수 있다. 의료 업체는 임상 의...

CIO 의사결정시스템 DSS ERP 데이터 분석 데이터 마이닝 인공지능 GPS 데이터 과학 비즈니스 인텔리전스 데이터베이스 데이터 웨어하우스 DW 예측 클릭뷰 SAP 비즈니스 오브젝트 BO 팁코 스폿파이어 세일즈포스 파워누늘 사운전드마인즈 브리크

2020.06.02

의사결정지원시스템(DSS)은 일종의 대화형 정보시스템으로, 대량의 데이터를 분석해 업무 의사결정에 필요한 정보를 제공한다. 불확실성의 의미를 평가하고 한가지 결정 대신 다른 결정을 했을 때 어떤 장단점이 있는지도 가늠함으로써 조직의 관리, 운영, 기획 수준에서 의사결정 개선을 지원한다.   DSS는 미가공 데이터와 문서, 개인 지식 및 사업 모델 등을 모두 활용하여 사용자의 의사결정 개선을 돕는다. DSS에서 사용되는 데이터 소스로는 관계형 데이터 소스, 큐브, 데이터창고, EHR, 수입 예상 자료, 판매 예상 자료 등등이 있을 수 있다. 의사결정지원시스템의 개념은 1950년대와 1960년대에 카네기 공과대학`에서 수행된 연구에서 유래한 것으로 1980년대에 EIS, GDSS, ODSS 등의 형태로 기업에서 제대로 뿌리를 내렸다. 요즘 들어 각 조직에서 데이터 주도 의사결정에 집중하는 경향이 늘어남에 따라 의사결정 과학(또는 의사결정 인텔리전스)이 부상하고 있으며, 의사결정 과학 시스템의 잠재력을 활용할 열쇠는 의사결정 과학자들이 쥐고 있을 수도 있다. 응용데이터과학, 사회과학, 경영과학 등이 결합된 의사결정 과학은 고급 의사결정을 내리기 위해 필요한 노력을 줄이기 위해 여러 옵션 중 취사선택에 집중한다. DSS와 BI의 비교 의사결정지원시스템(DSS)과 비즈니스 인텔리전스(BI)는 서로 융합되는 경우가 많다. DSS를 계승한 것이 BI라고 보는 전문가들도 있다. 대체로 의사결정지원시스템은 데이터 웨어하우징 및 데이터 마이닝과 더불어 비즈니스 인텔리전스 시스템의 한 요소로 인식되고 있다. BI는 의사결정에 사용될 데이터를 수집, 분석하고 평가하기 위한 광범위한 범주의 애플리케이션, 서비스, 기술인 반면, DSS 애플리케이션은 좀더 구체적인 의사결정을 지원하기 위한 목적을 두고 구축되는 경향이 있다. 예를 들어, 비즈니스 DSS는 과거의 판매 자료와 현재의 변수를 분석하여 일정 기간 회사의 수익 추정에 도움을 줄 수 있다. 의료 업체는 임상 의...

2020.06.02

테라데이타 밴티지, 2020년부터 구글 클라우드에서 구동

테라데이타의 데이터 분석 플랫폼 밴티지가 2020년부터는 구글 클라우드에서 구동될 예정이다.   내년부터 구글 클라우드 플랫폼에서 테라데이타 밴티지 클라우드 분석 플랫폼을 제공하도록 구글과 테라데이타가 손잡았다.  밴티지는 퍼블릭 클라우드, 하이브리드 또는 멀티 클라우드 환경을 포함한 모든 유형의 클라우드에서 분석을 실행하도록 설계된 클라우드 우선 분석 플랫폼이다. 구글 클라우드의 글로벌 에코시스템 및 사업 기획 부사장인 케빈 이치푸라니는 블로그 게시물에서 "테라데이타를 구글 클라우드로 가져오면 테라데이타의 소프트웨어를 이미 사용하고 있는 고객은 구글 클라우드에서 실행 경로를 간소화하고 구글 클라우드의 글로벌 인프라, 보안, 확장성, 컴퓨팅 기능을 활용할 수 있다"라고 말했다. 이어서 “또한 밴티지 소프트웨어가 어디서나 일관성 있게 유지되면서 프로세스가 크게 간소화되기 때문에 온-프레미스 분석 시스템에서 GCP의 밴티지로 마이그레이션하면 속도는 빨라지고 위험은 줄어들 것이다”라고 덧붙였다.  테라데이타가 퍼블릭 클라우드 서비스를 구글 클라우드 플랫폼으로 확장한 후 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 같은 글로벌 퍼블릭 클라우드 제공 업체 3곳에서 서비스 기능을 사용할 수 있게 되었다. 테라데이타의 제품 관리 부사장인 아시쉬 야즈니크는 “테라데이타가 이미 글로벌 시장에서 다진 입지에 구글 클라우드 플랫폼이라는 신무기를 추가해 테라데이타 밴티지를 사용하는 방법과 장소에 관한 선택과 유연성을 고객에게 제공할 것이다”라고 밝혔다.  구글 클라우드 플랫폼에서 구동되는 테라데이타 밴티지는 2020년에 출시되며 내년 상반기에 비공개 프리뷰가 시작될 예정이다. 한편 테라데이타는 객체 저장소 아마존 S3, 애저 블롭(Azure Blob) 및 궁극적으로 구글 클라우드 스토리지를 통해 저비용 스토리지에 대한 기본 지원을 추가하고 있다. 저비용 객체 저장소에 대한 기본 접근은 현재 비공개 프리뷰로 제공...

DW 구글 클라우드 플랫폼 GCP 구글 클라우드 에코시스템 데이터 분석 데이터 웨어하우스 생태계 하둡 테라데이타 밴티지

2019.10.25

테라데이타의 데이터 분석 플랫폼 밴티지가 2020년부터는 구글 클라우드에서 구동될 예정이다.   내년부터 구글 클라우드 플랫폼에서 테라데이타 밴티지 클라우드 분석 플랫폼을 제공하도록 구글과 테라데이타가 손잡았다.  밴티지는 퍼블릭 클라우드, 하이브리드 또는 멀티 클라우드 환경을 포함한 모든 유형의 클라우드에서 분석을 실행하도록 설계된 클라우드 우선 분석 플랫폼이다. 구글 클라우드의 글로벌 에코시스템 및 사업 기획 부사장인 케빈 이치푸라니는 블로그 게시물에서 "테라데이타를 구글 클라우드로 가져오면 테라데이타의 소프트웨어를 이미 사용하고 있는 고객은 구글 클라우드에서 실행 경로를 간소화하고 구글 클라우드의 글로벌 인프라, 보안, 확장성, 컴퓨팅 기능을 활용할 수 있다"라고 말했다. 이어서 “또한 밴티지 소프트웨어가 어디서나 일관성 있게 유지되면서 프로세스가 크게 간소화되기 때문에 온-프레미스 분석 시스템에서 GCP의 밴티지로 마이그레이션하면 속도는 빨라지고 위험은 줄어들 것이다”라고 덧붙였다.  테라데이타가 퍼블릭 클라우드 서비스를 구글 클라우드 플랫폼으로 확장한 후 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 같은 글로벌 퍼블릭 클라우드 제공 업체 3곳에서 서비스 기능을 사용할 수 있게 되었다. 테라데이타의 제품 관리 부사장인 아시쉬 야즈니크는 “테라데이타가 이미 글로벌 시장에서 다진 입지에 구글 클라우드 플랫폼이라는 신무기를 추가해 테라데이타 밴티지를 사용하는 방법과 장소에 관한 선택과 유연성을 고객에게 제공할 것이다”라고 밝혔다.  구글 클라우드 플랫폼에서 구동되는 테라데이타 밴티지는 2020년에 출시되며 내년 상반기에 비공개 프리뷰가 시작될 예정이다. 한편 테라데이타는 객체 저장소 아마존 S3, 애저 블롭(Azure Blob) 및 궁극적으로 구글 클라우드 스토리지를 통해 저비용 스토리지에 대한 기본 지원을 추가하고 있다. 저비용 객체 저장소에 대한 기본 접근은 현재 비공개 프리뷰로 제공...

2019.10.25

칼럼 | 데이터 웨어하우징의 미래 비전··· '크로스 클라우드'

데이터 웨어하우징에 대한 오늘날의 전략이 멀티 클라우드라면, 미래의 비전은 크로스 클라우드라고 할 수 있다. 왜냐하면 데이터를 이동하고 교환함에 있어 같은 클라우드 제공업체 내의 서로 다른 지역 간은 물론 서로 다른 클라우드 간에도 원활하게 해야 하는 보편적인 필요성이 대두되고 있기 때문이다. 지리적 위치의 제약이나 클라우드 플랫폼이 서로 호환되지 않는 등의 제약이 흔하다. 이로 인해 전세계 어디서나 데이터에 접근 가능할 수 있다는 이상은 그리 녹록하지 않으며, 기업 입장에서는 회사 내외부적으로 데이터를 안전하게 공유하는 일이 쉽지 않다. 사업장 간의 지연 문제도 신경 써야 하고 여러 개의 클라우드를 사용하면서 생기는 데이터들이 고립되지 않도록 궁리해야 한다.  이렇게 힘든 상황이 나아질 서광이 비치고 있다. 머지않아 조직의 데이터에 경계가 사라지게 될 것이기 때문이다. 이용 클라우드 업체나 데이터 저장 장소를 불문하고 원하면 어디에서나 모든 데이터에 접근할 수 있게 된다는 뜻이다.    현재 데이터 활용의 제약 클라우드의 장점은 잘 알려져 있지만 클라우드 서비스 분야의 약속이 아직 충분히 실현되지 않고 있는 주요 이유는 다음과 같다. - 지리적 제약 : 클라우드 서비스의 속성상 회사들은 소재 지역 내 클라우드를 사용해야 하는 경우가 잦다. 사용자들이 가까이 있어야 최상의 서비스가 가능하기 때문이다. 멀리 떨어진 클라우드에 저장된 데이터에 대해 질의나 공유를 시도해 본 사람은 누구나 경험한 바 있듯이 지연 현상이 문제이다.  따라서, 지역별로 개인 계정을 만드는 회사가 많다. 지역별 개인 계정은 데이터가 저장되고 현지 사용자들에 의해 질의 되는 물리적인 장소가 된다. 그러나 사업장이 여러 지역에 있는 회사들 입장에서는 전사적인 데이터 공유가 쉽지 않기 때문에 결코 이상적이지 않은 상황이다. - 업체별 고유 API : 주요 클라우드 플랫폼(아마존 웹 서비스, 마이크로소프트 애저, 구글 클라우드 플랫폼)은 모두 고유...

데이터 웨어하우스 멀티 클라우드 크로스 클라우드

2019.10.21

데이터 웨어하우징에 대한 오늘날의 전략이 멀티 클라우드라면, 미래의 비전은 크로스 클라우드라고 할 수 있다. 왜냐하면 데이터를 이동하고 교환함에 있어 같은 클라우드 제공업체 내의 서로 다른 지역 간은 물론 서로 다른 클라우드 간에도 원활하게 해야 하는 보편적인 필요성이 대두되고 있기 때문이다. 지리적 위치의 제약이나 클라우드 플랫폼이 서로 호환되지 않는 등의 제약이 흔하다. 이로 인해 전세계 어디서나 데이터에 접근 가능할 수 있다는 이상은 그리 녹록하지 않으며, 기업 입장에서는 회사 내외부적으로 데이터를 안전하게 공유하는 일이 쉽지 않다. 사업장 간의 지연 문제도 신경 써야 하고 여러 개의 클라우드를 사용하면서 생기는 데이터들이 고립되지 않도록 궁리해야 한다.  이렇게 힘든 상황이 나아질 서광이 비치고 있다. 머지않아 조직의 데이터에 경계가 사라지게 될 것이기 때문이다. 이용 클라우드 업체나 데이터 저장 장소를 불문하고 원하면 어디에서나 모든 데이터에 접근할 수 있게 된다는 뜻이다.    현재 데이터 활용의 제약 클라우드의 장점은 잘 알려져 있지만 클라우드 서비스 분야의 약속이 아직 충분히 실현되지 않고 있는 주요 이유는 다음과 같다. - 지리적 제약 : 클라우드 서비스의 속성상 회사들은 소재 지역 내 클라우드를 사용해야 하는 경우가 잦다. 사용자들이 가까이 있어야 최상의 서비스가 가능하기 때문이다. 멀리 떨어진 클라우드에 저장된 데이터에 대해 질의나 공유를 시도해 본 사람은 누구나 경험한 바 있듯이 지연 현상이 문제이다.  따라서, 지역별로 개인 계정을 만드는 회사가 많다. 지역별 개인 계정은 데이터가 저장되고 현지 사용자들에 의해 질의 되는 물리적인 장소가 된다. 그러나 사업장이 여러 지역에 있는 회사들 입장에서는 전사적인 데이터 공유가 쉽지 않기 때문에 결코 이상적이지 않은 상황이다. - 업체별 고유 API : 주요 클라우드 플랫폼(아마존 웹 서비스, 마이크로소프트 애저, 구글 클라우드 플랫폼)은 모두 고유...

2019.10.21

올해 전세계 빅데이터 분석 시장 두자릿수 성장··· 1,891억 달러 전망 <IDC>

2019년 빅데이터와 분석(BDA) 시장이 두 자릿수 성장할 것으로 기대되는 가운데 IT서비스 구축 협력사가 이 시장을 최대한 활용할 수 있는 가장 좋은 위치에 있다는 주장이 나왔다.    이는 IDC의 새로운 발견에 따른 것으로, 올해 BDA 투자는 전 세계적으로 2018년에 비해 12% 증가해 미화 1,891억 달러에 이를 것으로 예상된다.  올해 BDA 시장에서 IT서비스는 775억 달러로 가장 많고, 하드웨어 구매(237억 달러)와 비즈니스 서비스(207억 달러)가 그 뒤를 이를 것으로 기대된다. IDC에 따르면 전체적으로 IT서비스와 비즈니스 서비스는 2022년까지 모든 BDA 매출의 절반 이상을 차지할 전망이다. IDC의 그룹 부사장인 댄 베셋은 "디지털 변환으로 경영진은 현재의 비즈니스 관행에 대한 심층적인 평가와 데이터 및 관련 분석 및 통찰력에 대한 좀더 빠르고, 좀더 포괄적인 접근을 요구하면서 경영진 단의 전략과 BDA 투자가 이 시장을 이끄는 핵심 동인이다"고 말했다.  이어서 "기업은 이러한 요구 사항을 충족하고 경쟁력을 유지하고 혁신을 유지할 수 있는 최신 기술에 투자하기 위해 재구성 작업을 진행하고 있다. BDA 솔루션은 이러한 투자의 핵심이다"고 덧붙였다. 한편 베셋은 BDA 관련 소프트웨어 매출이 2019년에 672억 달러에 달하며 여기에서 최종 사용자 쿼리, 보고서, 분석 툴(136억 달러)과 관계형 데이터 웨어하우스 관리 툴(121억 달러) 두 가지 가장 큰 소프트웨어 범주라고 설명했다. IDC에 따르면 가장 가파른 매출 성장을 보일 BDA 기술 범주는 비 관계형 분석 데이터 저장소(34%)와 인지/인공지능 소프트웨어 플랫폼(31.4%)이 될 것이다. IDC의 프로그램 담당 부사장인 제시카 괴페어트는 "빅데이터 기술은 기존의 온프레미스 환경에서 설치하고 관리하기가 어려울 수 있다"며 "데이터의 기하급수적인 증가와 이...

IDC BDA 2019년 분석 데이터 웨어하우스 인공지능 IT서비스 DBMS DW 빅데이터 디지털 벼혁

2019.04.11

2019년 빅데이터와 분석(BDA) 시장이 두 자릿수 성장할 것으로 기대되는 가운데 IT서비스 구축 협력사가 이 시장을 최대한 활용할 수 있는 가장 좋은 위치에 있다는 주장이 나왔다.    이는 IDC의 새로운 발견에 따른 것으로, 올해 BDA 투자는 전 세계적으로 2018년에 비해 12% 증가해 미화 1,891억 달러에 이를 것으로 예상된다.  올해 BDA 시장에서 IT서비스는 775억 달러로 가장 많고, 하드웨어 구매(237억 달러)와 비즈니스 서비스(207억 달러)가 그 뒤를 이를 것으로 기대된다. IDC에 따르면 전체적으로 IT서비스와 비즈니스 서비스는 2022년까지 모든 BDA 매출의 절반 이상을 차지할 전망이다. IDC의 그룹 부사장인 댄 베셋은 "디지털 변환으로 경영진은 현재의 비즈니스 관행에 대한 심층적인 평가와 데이터 및 관련 분석 및 통찰력에 대한 좀더 빠르고, 좀더 포괄적인 접근을 요구하면서 경영진 단의 전략과 BDA 투자가 이 시장을 이끄는 핵심 동인이다"고 말했다.  이어서 "기업은 이러한 요구 사항을 충족하고 경쟁력을 유지하고 혁신을 유지할 수 있는 최신 기술에 투자하기 위해 재구성 작업을 진행하고 있다. BDA 솔루션은 이러한 투자의 핵심이다"고 덧붙였다. 한편 베셋은 BDA 관련 소프트웨어 매출이 2019년에 672억 달러에 달하며 여기에서 최종 사용자 쿼리, 보고서, 분석 툴(136억 달러)과 관계형 데이터 웨어하우스 관리 툴(121억 달러) 두 가지 가장 큰 소프트웨어 범주라고 설명했다. IDC에 따르면 가장 가파른 매출 성장을 보일 BDA 기술 범주는 비 관계형 분석 데이터 저장소(34%)와 인지/인공지능 소프트웨어 플랫폼(31.4%)이 될 것이다. IDC의 프로그램 담당 부사장인 제시카 괴페어트는 "빅데이터 기술은 기존의 온프레미스 환경에서 설치하고 관리하기가 어려울 수 있다"며 "데이터의 기하급수적인 증가와 이...

2019.04.11

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.8