Offcanvas

������

특화된 모듈과 편리한 GUI로 복잡한 SAP 데이터에 쉽게 접근하기    

글로벌 ERP 시장 점유율 1위이자 시장의 31.6%(2019년 기준)를 차지하고 있는 SAP는 영업, 제조 및 재무 프로세스의 중요한 정보를 저장하는 핵심 비즈니스 애플리케이션이다. 기업 SAP  ERP 데이터를 다양한 비즈니스 라인에서 수집한 기타 데이터와 함께 분석하고 그 결과를 실시간으로 가시화해 비즈니스 의사결정에 활용한다.  빠르게 변화하는 데이터를 더욱 심도있게 활용하라는 요구는 하둡(Hadoop), 카프카(Kafka) 및 클라우드 같은 새로운 플랫폼에서 실시간 분석용 데이터를 복제하라는 과제로 이어진다. 그러나 SAP 데이터는 여러 SAP 모듈이나 애플리케이션과 복잡하게 얽혀 동작하므로 분석을 위한 접근과 통합이 어렵다는 평가를 받는다. 복잡한 SAP 데이터를 쉽게 이동시키는 2가지 핵심 그렇다면 오늘날 기업이 SAP 데이터를 활용할 때 필요한 것은 무엇일까? 바로, 복잡한 SAP 데이터에 쉽게 접근할 수 있는 특화된 모듈과 직관적인 사용자 인터페이스(GUI)를 통해 수작업을 최소화할 수 있는 복제 솔루션이다.  대표적인 복제 솔루션 ‘클릭 리플리케이트(Qlik Replicate)’는 엔터프라이즈 데이터 복제 및 SAP 통합 분야에서의 오랜 경험을 바탕으로 실제 운영 중인 SAP 데이터에 쉽게 접근해 다양한 플랫폼과 하이브리드 환경에서 중단 없이(real-time) 데이터를 사용할 수 있다. 또한, SAP HANA 시스템 또는 클라우드 환경의 모든 데이터 웨어하우스, 데이터 레이크로의 SAP 데이터 복제가 가능하다.  가장 주목해야 할 점은 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 플랫폼 같은 클라우드 업체와 협력해, 검증된 데이터 및 분석 플랫폼을 기반으로 재무관리, 재고관리, OTC(Order to Cash) SAP 데이터에 대한 특화된 모듈을 제공한다는 것이다.    2021년 국내 한 대기업이 자사 데이터의 구글 클라우드 전환을 발표하고, 대대적인...

ERP 하둡 카프카 GTPlus 지티플러스 클릭 Qlik 클릭리플리케이트 CDC 변경데이터캡처

2022.07.06

글로벌 ERP 시장 점유율 1위이자 시장의 31.6%(2019년 기준)를 차지하고 있는 SAP는 영업, 제조 및 재무 프로세스의 중요한 정보를 저장하는 핵심 비즈니스 애플리케이션이다. 기업 SAP  ERP 데이터를 다양한 비즈니스 라인에서 수집한 기타 데이터와 함께 분석하고 그 결과를 실시간으로 가시화해 비즈니스 의사결정에 활용한다.  빠르게 변화하는 데이터를 더욱 심도있게 활용하라는 요구는 하둡(Hadoop), 카프카(Kafka) 및 클라우드 같은 새로운 플랫폼에서 실시간 분석용 데이터를 복제하라는 과제로 이어진다. 그러나 SAP 데이터는 여러 SAP 모듈이나 애플리케이션과 복잡하게 얽혀 동작하므로 분석을 위한 접근과 통합이 어렵다는 평가를 받는다. 복잡한 SAP 데이터를 쉽게 이동시키는 2가지 핵심 그렇다면 오늘날 기업이 SAP 데이터를 활용할 때 필요한 것은 무엇일까? 바로, 복잡한 SAP 데이터에 쉽게 접근할 수 있는 특화된 모듈과 직관적인 사용자 인터페이스(GUI)를 통해 수작업을 최소화할 수 있는 복제 솔루션이다.  대표적인 복제 솔루션 ‘클릭 리플리케이트(Qlik Replicate)’는 엔터프라이즈 데이터 복제 및 SAP 통합 분야에서의 오랜 경험을 바탕으로 실제 운영 중인 SAP 데이터에 쉽게 접근해 다양한 플랫폼과 하이브리드 환경에서 중단 없이(real-time) 데이터를 사용할 수 있다. 또한, SAP HANA 시스템 또는 클라우드 환경의 모든 데이터 웨어하우스, 데이터 레이크로의 SAP 데이터 복제가 가능하다.  가장 주목해야 할 점은 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 플랫폼 같은 클라우드 업체와 협력해, 검증된 데이터 및 분석 플랫폼을 기반으로 재무관리, 재고관리, OTC(Order to Cash) SAP 데이터에 대한 특화된 모듈을 제공한다는 것이다.    2021년 국내 한 대기업이 자사 데이터의 구글 클라우드 전환을 발표하고, 대대적인...

2022.07.06

빅데이터 분석 위한 대규모 확장형 스토리지··· ‘데이터 레이크’ A to Z

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

데이터 레이크 하둡 스토리지 클러스터 데이터마트 데이터 웨어하우스 애널리틱스

2022.05.03

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

2022.05.03

칼럼 | 하둡의 실패 넘어선다··· 오픈 데이터 분야를 견인하는 4가지 기술 동향

기업들이 방대한 양의 데이터를 수집하고 있다. 이를 제대로 활용하기 위해서는 수십, 수천 개의 서로 다른 데이터 소스와 여러 다른 데이터 형식으로부터 통찰을 추출해낼 수 있어야 한다. 이러한 가운데 오픈 데이터 생태계와 관련된 빅데이터 기술이 눈길을 끌고 있다. 오픈 데이터 생태계가 부상하는 이유가 뭘까? 그리고 이 기술 트렌드가 기업의 미래 경쟁력으로 어떻게 이어질 수 있을까? 수준 높은 애널리틱스와 AI 이니셔티브를 추진함으로써 대량의 데이터를 분석해 우수한 고객 통찰을 도출하고 가치 있는 질문들을 해결할 수 있기를 수많은 기업들이 바라고 있다. 이러나 이러한 결과를 실현하려면 기업은 우선 구조적 및 비구조적이고, 다양한 형식인 이질적 데이터 출처와 씨름하면서 통찰을 도출해야 한다. 그리고 이는 간단한 일이 아니다.  지난 20년 동안 여러 기술이 이 문제를 해결할 수 있다고 약속했고 실패했다. 대표적인 것이 2000년대 중반의 하둡(Hadoop)이다.  하둡 이전의 유일한 선택지는 거대한 리소스를 가진 온-프레미스 데이터베이스였다. 이는 데이터를 신중하게 모델링하고, 스토리지를 관리하고, 가치를 평가하고, 이들을 연결하는 방법을 파악하는 일을 요구했다.  이와 달리 하둡은 데이터 레이크, 오픈 데이터 표준, 모듈식 첨단 소프트웨어 스택, 그리고 고객을 위해 가치를 견인하는 경쟁적인 데이터 관리 벤더로 이루어진 오픈 데이터 생태계를 주창했다.  하둡 운동과 아파치 유형의 프로젝트는 오픈 데이터 생태계라는 발상을 진전시켰지만 아래의 3가지 이유 때문에 궁극적으로 실패했다.  • 하드웨어를 구입하고 확장하고 관리하는 비용이 지나치게 비쌈 • 애플리케이션과 데이터 레이크 간의 공통 데이터 포맷의 결여로 인한 데이터 관리 및 이용의 난해함  • 데이터 관리에 이용할 수 있는 툴 및 스킬의 부족  하둡의 성과는 실망스러웠지만 그럼에도 불구하고 오픈 데이터는 다시 부상하고 있다. 그리고 이번에...

오픈 데이터 애널리틱스 개방형 데이터 하둡 아파치 파케이 아파치 애로우 아파치 아이스버그

2021.09.14

기업들이 방대한 양의 데이터를 수집하고 있다. 이를 제대로 활용하기 위해서는 수십, 수천 개의 서로 다른 데이터 소스와 여러 다른 데이터 형식으로부터 통찰을 추출해낼 수 있어야 한다. 이러한 가운데 오픈 데이터 생태계와 관련된 빅데이터 기술이 눈길을 끌고 있다. 오픈 데이터 생태계가 부상하는 이유가 뭘까? 그리고 이 기술 트렌드가 기업의 미래 경쟁력으로 어떻게 이어질 수 있을까? 수준 높은 애널리틱스와 AI 이니셔티브를 추진함으로써 대량의 데이터를 분석해 우수한 고객 통찰을 도출하고 가치 있는 질문들을 해결할 수 있기를 수많은 기업들이 바라고 있다. 이러나 이러한 결과를 실현하려면 기업은 우선 구조적 및 비구조적이고, 다양한 형식인 이질적 데이터 출처와 씨름하면서 통찰을 도출해야 한다. 그리고 이는 간단한 일이 아니다.  지난 20년 동안 여러 기술이 이 문제를 해결할 수 있다고 약속했고 실패했다. 대표적인 것이 2000년대 중반의 하둡(Hadoop)이다.  하둡 이전의 유일한 선택지는 거대한 리소스를 가진 온-프레미스 데이터베이스였다. 이는 데이터를 신중하게 모델링하고, 스토리지를 관리하고, 가치를 평가하고, 이들을 연결하는 방법을 파악하는 일을 요구했다.  이와 달리 하둡은 데이터 레이크, 오픈 데이터 표준, 모듈식 첨단 소프트웨어 스택, 그리고 고객을 위해 가치를 견인하는 경쟁적인 데이터 관리 벤더로 이루어진 오픈 데이터 생태계를 주창했다.  하둡 운동과 아파치 유형의 프로젝트는 오픈 데이터 생태계라는 발상을 진전시켰지만 아래의 3가지 이유 때문에 궁극적으로 실패했다.  • 하드웨어를 구입하고 확장하고 관리하는 비용이 지나치게 비쌈 • 애플리케이션과 데이터 레이크 간의 공통 데이터 포맷의 결여로 인한 데이터 관리 및 이용의 난해함  • 데이터 관리에 이용할 수 있는 툴 및 스킬의 부족  하둡의 성과는 실망스러웠지만 그럼에도 불구하고 오픈 데이터는 다시 부상하고 있다. 그리고 이번에...

2021.09.14

김진철의 How-to-Big Data | 빅데이터 괴담

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

김진철 빅데이터 데이터 과학 데이터 과학자 시행착오 데이터 레이크 하둡 스타트업 스파크 플링크 에어플로우 데이터웨어하우스 도커 서비스메시 쿠버네티스

2021.03.29

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

2021.03.29

김진철의 How-to-Big Data | 빅데이터의 미래 (12)

빅데이터 비즈니스 트렌드의 미래로서 사이버 물리 시스템 기반의 지능형 서비스 비즈니스를 꽤 오랜 지면을 할애해서 지난 1년간 살펴보고 있다. 이번 글은 인공지능 기술과 사이버 물리 시스템 사이의 관계, 미래를 살펴보는 마지막 글로, 지난 6월 13일 자 “이코노미스트(The Economist)”지에 실린 “계간 기술(Technology Quarterly)” 특집 기사의 내용을 같이 살펴보면서 앞으로 인공지능 기술이 어떤 양상으로 발전하게 될지 같이 엿보려고 한다. 지난 6월 13일 자 “이코노미스트(The Economist)”지의 “계간 기술(Technology Quarterly)”은 아직도 그 열기가 가시지 않고 있는 인공지능 기술에 대한 특집 기사로 채워졌다. 권위 있는 경제 매체인 “이코노미스트(The Economist)”지는 매 분기별로 글로벌 경제에 영향을 미치는 기술 이슈들을 주제별로 선정해 심도 있게 조사, 분석하여 소개하는 “계간 기술(Technology Quarterly)” 특집 기사를 정기적으로 싣고 있다.   “이코노미스트(The Economist)”지는 “네이처(Nature)”나 “사이언스(Science)”와 같은 전문 과학기술 학술 저널, “MIT 기술 리뷰(MIT Technology Review)”나 “와이어드(Wired)”와 같은 전문 기술 매체가 아닌 경제 전문 매체임에도 불구하고, 정확하고 균형 있는 조사와 분석을 통해 최근 기술의 발전 동향이 경제에 미치는 영향과 효과를 현실적이고 정확하게 소개해왔다. 이번 6월 13일 자의 “계간 기술(Technology Quarterly)” 특집 기사는 지난 5년간 전 지구를 뜨겁게 달구어 왔던 인공지능 기술을 주제로 하였다. 이번 6월 13일 자 “계간 기술(Technology Quarterly)” 특집 기사의 핵심 주제는 “인공지능 기술의 가을이 오고 있다(AI’s autumn is coming)”라는 한 문장으로 요약될 수 있다. 지금까지 주목받고 많은 이슈를 몰고 온 ...

빅데이터 사이버 물리 시스템 인공지능 AI 머신러닝 딥러닝 이코노미스트 가트너 알파고 엔비디아 마이크로소프트 구글 페이스북 챗봇 가상 비서 지능형 서비스 GM 하둡 스파크 텐서플로우 파이토치 디지털 전환 디지털 트랜스포메이션 4차 산업혁명 데이터 댐 아마존 해석가능한 인공지능 XAI

2020.10.30

빅데이터 비즈니스 트렌드의 미래로서 사이버 물리 시스템 기반의 지능형 서비스 비즈니스를 꽤 오랜 지면을 할애해서 지난 1년간 살펴보고 있다. 이번 글은 인공지능 기술과 사이버 물리 시스템 사이의 관계, 미래를 살펴보는 마지막 글로, 지난 6월 13일 자 “이코노미스트(The Economist)”지에 실린 “계간 기술(Technology Quarterly)” 특집 기사의 내용을 같이 살펴보면서 앞으로 인공지능 기술이 어떤 양상으로 발전하게 될지 같이 엿보려고 한다. 지난 6월 13일 자 “이코노미스트(The Economist)”지의 “계간 기술(Technology Quarterly)”은 아직도 그 열기가 가시지 않고 있는 인공지능 기술에 대한 특집 기사로 채워졌다. 권위 있는 경제 매체인 “이코노미스트(The Economist)”지는 매 분기별로 글로벌 경제에 영향을 미치는 기술 이슈들을 주제별로 선정해 심도 있게 조사, 분석하여 소개하는 “계간 기술(Technology Quarterly)” 특집 기사를 정기적으로 싣고 있다.   “이코노미스트(The Economist)”지는 “네이처(Nature)”나 “사이언스(Science)”와 같은 전문 과학기술 학술 저널, “MIT 기술 리뷰(MIT Technology Review)”나 “와이어드(Wired)”와 같은 전문 기술 매체가 아닌 경제 전문 매체임에도 불구하고, 정확하고 균형 있는 조사와 분석을 통해 최근 기술의 발전 동향이 경제에 미치는 영향과 효과를 현실적이고 정확하게 소개해왔다. 이번 6월 13일 자의 “계간 기술(Technology Quarterly)” 특집 기사는 지난 5년간 전 지구를 뜨겁게 달구어 왔던 인공지능 기술을 주제로 하였다. 이번 6월 13일 자 “계간 기술(Technology Quarterly)” 특집 기사의 핵심 주제는 “인공지능 기술의 가을이 오고 있다(AI’s autumn is coming)”라는 한 문장으로 요약될 수 있다. 지금까지 주목받고 많은 이슈를 몰고 온 ...

2020.10.30

효성인포메이션시스템, 오브젝트 스토리지 활용한 하둡 데이터 최적화 솔루션 제공

효성인포메이션시스템이 오브젝트 스토리지를 활용한 지능형 데이터 티어링 솔루션 ‘루마다 데이터 옵티마이저(Lumada Data Optimizer)를 출시, 하둡(Hadoop), 스플렁크(Splunk) 등의 대용량 데이터 운영 비용을 줄이고 실시간 데이터 분석을 지원한다고 밝혔다. HDFS(Hadoop Distributed File System, 하둡 분산 파일 시스템)는 데이터 블록을 3개씩 복제하여 분산 저장하기 때문에 데이터 블록이 유실돼도 복제본을 활용할 수 있어 데이터 저장 및 관리의 신뢰성을 높일 수 있다. 반면, 데이터 양이 많아질수록 컴퓨팅과 스토리지가 하나의 풀로 구성된 하둡 노드의 증설이 필수적이고, 노드 당 부과되는 HDFS 라이선스 비용도 함께 증가하게 된다. 회사에 따르면 ‘루마다 데이터 옵티마이저’는 데이터 최적화 프로그램을 통해 HDFS에 저장된 데이터 중 사용 빈도가 낮은 콜드 데이터를 티어링(Tiering)해 오브젝트 스토리지인 HCP에 저장하고, 활성 데이터는 HDFS 리소스에 남겨두는 방식으로 혁신을 제공한다. 루마다 데이터 옵티마이저는 HDFS에 직접 구성되는 소프트웨어로, 데이터를 다른 스토리지로 옮겼다가 필요시 리스토어(restore)하는 기존 방식과는 다르다는 게 업체 측 설명이다. 동적으로 HCP와 HDFS 데이터를 티어링함으로써 HDFS를 통해 모든 데이터에 실시간 액세스할 수 있어 중단 없이 하둡 데이터의 분석과 운영이 가능하다. 더불어 오브젝트 스토리지에 활용도 낮은 데이터를 보관함으로써, 라이선스 비용 감소를 통한 효율적인 운영이 가능한 것이 큰 차별점이다. HCP에서 제공하는 데이터 암호화 및 접근제어, 파일 위변조 방지, 자동 복구 및 버전 관리 기능을 활용하면 HCP로 이동된 데이터는 추가 보호가 필요하지 않으며, 하둡 노드와 라이선스 절감을 통해 비용 효율성과 데이터 신뢰성을 동시에 보장할 수 있다고 회사 측은 전했다. 로그 데이터 통합, 대시보드 생성, 추천 등을 제공하는 스플렁크를 사용하는...

효성인포메이션시스템 오브젝트 스토리지 하둡 스플렁크 데이터 최적화

2020.10.20

효성인포메이션시스템이 오브젝트 스토리지를 활용한 지능형 데이터 티어링 솔루션 ‘루마다 데이터 옵티마이저(Lumada Data Optimizer)를 출시, 하둡(Hadoop), 스플렁크(Splunk) 등의 대용량 데이터 운영 비용을 줄이고 실시간 데이터 분석을 지원한다고 밝혔다. HDFS(Hadoop Distributed File System, 하둡 분산 파일 시스템)는 데이터 블록을 3개씩 복제하여 분산 저장하기 때문에 데이터 블록이 유실돼도 복제본을 활용할 수 있어 데이터 저장 및 관리의 신뢰성을 높일 수 있다. 반면, 데이터 양이 많아질수록 컴퓨팅과 스토리지가 하나의 풀로 구성된 하둡 노드의 증설이 필수적이고, 노드 당 부과되는 HDFS 라이선스 비용도 함께 증가하게 된다. 회사에 따르면 ‘루마다 데이터 옵티마이저’는 데이터 최적화 프로그램을 통해 HDFS에 저장된 데이터 중 사용 빈도가 낮은 콜드 데이터를 티어링(Tiering)해 오브젝트 스토리지인 HCP에 저장하고, 활성 데이터는 HDFS 리소스에 남겨두는 방식으로 혁신을 제공한다. 루마다 데이터 옵티마이저는 HDFS에 직접 구성되는 소프트웨어로, 데이터를 다른 스토리지로 옮겼다가 필요시 리스토어(restore)하는 기존 방식과는 다르다는 게 업체 측 설명이다. 동적으로 HCP와 HDFS 데이터를 티어링함으로써 HDFS를 통해 모든 데이터에 실시간 액세스할 수 있어 중단 없이 하둡 데이터의 분석과 운영이 가능하다. 더불어 오브젝트 스토리지에 활용도 낮은 데이터를 보관함으로써, 라이선스 비용 감소를 통한 효율적인 운영이 가능한 것이 큰 차별점이다. HCP에서 제공하는 데이터 암호화 및 접근제어, 파일 위변조 방지, 자동 복구 및 버전 관리 기능을 활용하면 HCP로 이동된 데이터는 추가 보호가 필요하지 않으며, 하둡 노드와 라이선스 절감을 통해 비용 효율성과 데이터 신뢰성을 동시에 보장할 수 있다고 회사 측은 전했다. 로그 데이터 통합, 대시보드 생성, 추천 등을 제공하는 스플렁크를 사용하는...

2020.10.20

"하둡 시장, 2025년 235억 달러 규묘" 마켓앤마켓 보고서

하둡(Hadoop) 빅데이터 분석 시장 규모가 2025년까지 13%의 연평균복합성장률을 기록하며 성장할 것이라는 분석이 나왔다. 마켓앤마켓이 발표한 ‘2025년까지 하둡 빅데이터 분석 시장(Hadoop Big Data Analytics Market - Global Forecast to 2025)'에 따르면, 2020년 128억 달러이던 시장 규모는 2025년이 되면 235억 달러로 증가할 전망이다. 보고서는 하둡 빅 데이터 분석 시장을 구성 요소(Component), 배포 모드(Deployment Mode), 조직 규모(Organization Size), 비즈니스 기능(Business Function), 버티컬(Vertical), 지역(Region)으로 조사 분석을 진행했다. 조사 대상 영역별로는 마케팅 및 판매, 은행 및 금융과 보험, 북미 시장이 가장 큰 시장을 유지할 것으로 예상했다. 마캣앤마켓의 '2025년까지 하둡 빅데이터 분석 시장’ 보고서에 따르면, 20205년까지 하둡 빅데이터 분석 시장이 연평균 13%로 성장할 전망이다. (자료 : MarketandMarket) 코로나19(COVID-19) 확산으로 경제성장이 둔화하면서 하둡 빅데이터 분석 시장도 영향을 받고 있다. 코로나로 인해 전 세계적으로 제조, 소매 및 전자 상거래, 정부 및 공공부문, 공급망 및 물류 등이 타격을 받았다. 지역적 봉쇄조치가 해제되고 나서도 제조와 운송 인력의 부족으로 어려움을 겪고 있는 곳이 적지 않다. 보고서는 "이러한 어려움이 2021년 초까지 지속되면서 개인 및 자산의 원격 상태 모니터링, 판매 및 고객 관리, 재고 관리, 예측 자산 유지 관리, 에너지 수요 등이 급증하면서, 하둡 데이터 분석 솔루션 및 서비스에 대한 수요가 증가할 것이다”라고 밝혔다. 아울러 디지털 전환에 대한 관심 증가, 데이터 분석에 대한 투자 증가, 코로나19 지원을 위한 원격 모니터링에 대한 관심 증가, 스마트 결제 기술의 채택, 대규모 디지털 인프라 구축을 위한 비즈니스 요구와...

하둡 전망 마켓앤마켓

2020.09.15

하둡(Hadoop) 빅데이터 분석 시장 규모가 2025년까지 13%의 연평균복합성장률을 기록하며 성장할 것이라는 분석이 나왔다. 마켓앤마켓이 발표한 ‘2025년까지 하둡 빅데이터 분석 시장(Hadoop Big Data Analytics Market - Global Forecast to 2025)'에 따르면, 2020년 128억 달러이던 시장 규모는 2025년이 되면 235억 달러로 증가할 전망이다. 보고서는 하둡 빅 데이터 분석 시장을 구성 요소(Component), 배포 모드(Deployment Mode), 조직 규모(Organization Size), 비즈니스 기능(Business Function), 버티컬(Vertical), 지역(Region)으로 조사 분석을 진행했다. 조사 대상 영역별로는 마케팅 및 판매, 은행 및 금융과 보험, 북미 시장이 가장 큰 시장을 유지할 것으로 예상했다. 마캣앤마켓의 '2025년까지 하둡 빅데이터 분석 시장’ 보고서에 따르면, 20205년까지 하둡 빅데이터 분석 시장이 연평균 13%로 성장할 전망이다. (자료 : MarketandMarket) 코로나19(COVID-19) 확산으로 경제성장이 둔화하면서 하둡 빅데이터 분석 시장도 영향을 받고 있다. 코로나로 인해 전 세계적으로 제조, 소매 및 전자 상거래, 정부 및 공공부문, 공급망 및 물류 등이 타격을 받았다. 지역적 봉쇄조치가 해제되고 나서도 제조와 운송 인력의 부족으로 어려움을 겪고 있는 곳이 적지 않다. 보고서는 "이러한 어려움이 2021년 초까지 지속되면서 개인 및 자산의 원격 상태 모니터링, 판매 및 고객 관리, 재고 관리, 예측 자산 유지 관리, 에너지 수요 등이 급증하면서, 하둡 데이터 분석 솔루션 및 서비스에 대한 수요가 증가할 것이다”라고 밝혔다. 아울러 디지털 전환에 대한 관심 증가, 데이터 분석에 대한 투자 증가, 코로나19 지원을 위한 원격 모니터링에 대한 관심 증가, 스마트 결제 기술의 채택, 대규모 디지털 인프라 구축을 위한 비즈니스 요구와...

2020.09.15

‘데이터 엔지니어’, ‘데이터 아키텍트’ 역량을 입증 · · · 자격증 9종 리스트업

데이터 및 빅데이터 분석은 비즈니스를 성공시키는 동력이다. 기술을 올바르게 구현하는 것도 힘들지만, 빅데이터 이니셔티브를 이끌어갈 적합한 전문성을 가진 인재들로 구성된 적합한 팀을 구성하는 것은 이보다 더 힘들 수도 있다. 빅데이터 이니셔티브를 성공적으로 전개하려면 데이터 사이언티스트와 데이터 분석가만 필요한 것이 아니다. 엔터프라이즈 데이터 관리 프레임워크 ‘청사진’을 설계하는 데이터 아키텍트와 프레임워크 및 데이터 파이프라인, 프로세스를 만들고, 데이터에서 비즈니스 가치를 창출할 데이터 엔지니어가 필요하다. 통상 데이터 아키텍트는 데이터 설계, 데이터 관리, 데이터 스토리지에 대한 다년간의 경험을 보유한 이들이며, 데이터 엔지니어는 하둡과 스파크, 기타 오픈소스 빅데이터 생태계의 다른 도구들을 이용하고, 자바나 스칼라, 파이썬으로 프로그래밍 할 수 있는 전문성을 갖추고 있다. 경쟁력을 입증하려 한다면, 자격증이 좋은 선택지가 될 수 있다. 자격증은 업계나 벤더에 특정적인 기준을 바탕으로 지식과 스킬을 평가, 고용주에게 당신이 적합한 스킬 세트를 보유하고 있음을 증명해준다. 다음은 데이터 엔지니어와 데이터 아키텍트 분야의 경력을 개발하려는 이들이 검토해볼 만한 관련 자격증이다.    AWS CDA-S(Certified Data Analytics – Specialty) ‘AWS Certified Data Analytics – Specialty’는 AWS 데이터 레이크와 분석 서비스에 관한 기술 스킬과 경험을 증명해주는 자격증이다. AWS 데이터 분석 서비스를 정의하고, 서로 통합하는 방법을 이해하는 능력이 있음을 증명해준다. 자격증을 취득하려면 AWS 데이터 분석 서비스를 수집과 보관, 처리, 검증이라는 데이터 생애주기에 맞춰 구축하는 방법을 알아야 한다. 과거 ‘AWS Certified Big Data – Specialty’로 불렸던 자격증이다. 유효 기간은 취득한 날로부터 3년이다. 조직 : AWS 가격 : 시험 등록비 300...

데이터 엔지니어 데이터 자격증 애널리틱스 스파크 하둡

2020.09.08

데이터 및 빅데이터 분석은 비즈니스를 성공시키는 동력이다. 기술을 올바르게 구현하는 것도 힘들지만, 빅데이터 이니셔티브를 이끌어갈 적합한 전문성을 가진 인재들로 구성된 적합한 팀을 구성하는 것은 이보다 더 힘들 수도 있다. 빅데이터 이니셔티브를 성공적으로 전개하려면 데이터 사이언티스트와 데이터 분석가만 필요한 것이 아니다. 엔터프라이즈 데이터 관리 프레임워크 ‘청사진’을 설계하는 데이터 아키텍트와 프레임워크 및 데이터 파이프라인, 프로세스를 만들고, 데이터에서 비즈니스 가치를 창출할 데이터 엔지니어가 필요하다. 통상 데이터 아키텍트는 데이터 설계, 데이터 관리, 데이터 스토리지에 대한 다년간의 경험을 보유한 이들이며, 데이터 엔지니어는 하둡과 스파크, 기타 오픈소스 빅데이터 생태계의 다른 도구들을 이용하고, 자바나 스칼라, 파이썬으로 프로그래밍 할 수 있는 전문성을 갖추고 있다. 경쟁력을 입증하려 한다면, 자격증이 좋은 선택지가 될 수 있다. 자격증은 업계나 벤더에 특정적인 기준을 바탕으로 지식과 스킬을 평가, 고용주에게 당신이 적합한 스킬 세트를 보유하고 있음을 증명해준다. 다음은 데이터 엔지니어와 데이터 아키텍트 분야의 경력을 개발하려는 이들이 검토해볼 만한 관련 자격증이다.    AWS CDA-S(Certified Data Analytics – Specialty) ‘AWS Certified Data Analytics – Specialty’는 AWS 데이터 레이크와 분석 서비스에 관한 기술 스킬과 경험을 증명해주는 자격증이다. AWS 데이터 분석 서비스를 정의하고, 서로 통합하는 방법을 이해하는 능력이 있음을 증명해준다. 자격증을 취득하려면 AWS 데이터 분석 서비스를 수집과 보관, 처리, 검증이라는 데이터 생애주기에 맞춰 구축하는 방법을 알아야 한다. 과거 ‘AWS Certified Big Data – Specialty’로 불렸던 자격증이다. 유효 기간은 취득한 날로부터 3년이다. 조직 : AWS 가격 : 시험 등록비 300...

2020.09.08

굿바이 하둡! 라쿠텐, 클라우드 기반 스노우플레이크로 전환

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

전자상거래 빅데이터 하둡 스칼라 파이썬 스파크 SQL 라쿠텐 스노우플레이크 데이터 웨어하우스 DW 데이터 레이크 ETL 클라우데라 캐쉬백

2020.06.25

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

2020.06.25

'하둡을 제압한 빅데이터 플랫폼'··· 아파치 스파크란?

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토어를 탐색하면서 작업하기 위해 막대한 컴퓨팅 성능을 모아야 하는 빅데이터와 머신러닝 분야에서 이 2가지 특성은 문을 여는 열쇠라고 할 수 있다. 스파크는 또한 분산 컴퓨팅과 빅데이터 처리의 힘든 작업 대부분을 추상화하는, 사용하기 쉬운 API를 통해 개발자들이 짊어지는 부담을 일부 덜어주는 역할도 한다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 소소하게 시작됐으나 지금은 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나다. 스파크는 다양한 방식으로 배포가 가능하며 자바(Java), 스칼라(Scala), 파이썬(Python), R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하고 SQL, 스트리밍 데이터, 머신러닝, 그래프 프로세싱을 지원한다. 은행, 통신업체, 게임 회사, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 주요 기술 대기업도 모두 아파치 스파크를 사용한다. 아파치 스파크 아키텍처 아파치 스파크의 구성 요소는 크게 드라이버(driver)와 이그제큐터(executor) 2가지다. 드라이버는 사용자의 코드를 여러 작업자 노드로 배분할 수 있는 여러 작업으로 변환하고 이그제큐터는 이런 노드에서 실행되면서 할당된 작업을 실행한다. 그리고 이 둘을 중재하기 위한 클러스터 관리자가 필요하다. 스파크는 기본적으로 클러스터의 각 머신에 JVM과 아파치 스파크 프레임워크만 있으면 되는 독립형 클러스터 코드로 실행이 가능하다. 그러나 작업자를 자동으로 할당하기 위해 더 강력한 리소스 또는 클러스터 관리 시스템을 활용하고자 하는 경우가 많다. 엔터프라이즈에서는 이를 위해 보통 하둡 얀(Hadoop YARN)에서 실행하지만 아파치 메소스(Mesos), 쿠버네티...

아파치 하둡 스파크

2020.03.23

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토어를 탐색하면서 작업하기 위해 막대한 컴퓨팅 성능을 모아야 하는 빅데이터와 머신러닝 분야에서 이 2가지 특성은 문을 여는 열쇠라고 할 수 있다. 스파크는 또한 분산 컴퓨팅과 빅데이터 처리의 힘든 작업 대부분을 추상화하는, 사용하기 쉬운 API를 통해 개발자들이 짊어지는 부담을 일부 덜어주는 역할도 한다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 소소하게 시작됐으나 지금은 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나다. 스파크는 다양한 방식으로 배포가 가능하며 자바(Java), 스칼라(Scala), 파이썬(Python), R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하고 SQL, 스트리밍 데이터, 머신러닝, 그래프 프로세싱을 지원한다. 은행, 통신업체, 게임 회사, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 주요 기술 대기업도 모두 아파치 스파크를 사용한다. 아파치 스파크 아키텍처 아파치 스파크의 구성 요소는 크게 드라이버(driver)와 이그제큐터(executor) 2가지다. 드라이버는 사용자의 코드를 여러 작업자 노드로 배분할 수 있는 여러 작업으로 변환하고 이그제큐터는 이런 노드에서 실행되면서 할당된 작업을 실행한다. 그리고 이 둘을 중재하기 위한 클러스터 관리자가 필요하다. 스파크는 기본적으로 클러스터의 각 머신에 JVM과 아파치 스파크 프레임워크만 있으면 되는 독립형 클러스터 코드로 실행이 가능하다. 그러나 작업자를 자동으로 할당하기 위해 더 강력한 리소스 또는 클러스터 관리 시스템을 활용하고자 하는 경우가 많다. 엔터프라이즈에서는 이를 위해 보통 하둡 얀(Hadoop YARN)에서 실행하지만 아파치 메소스(Mesos), 쿠버네티...

2020.03.23

김진철의 How-to-Big Data | 빅데이터의 미래 (3)

사이버 물리 시스템과 클라우드 컴퓨팅의 관계 지난 서른여섯 번째 글에서 빅데이터를 포함하여 최근 주요 IT 기술 트렌드로 떠오르고 있는 5G, 클라우드 컴퓨팅, 인공지능, IoT, 엣지 컴퓨팅이 발전해 나가는 공통의 지향점으로서 “사이버 물리 시스템(Cyber-Physical System)”이라는 개념을 소개하였다. 이 사이버 물리 시스템의 정의와 특성, 그리고 사이버 물리 시스템에서 빅데이터를 다루는 문제가 왜 부각되어 나오게 되었는지 간단하게 그 배경을 소개하였고, 사이버 물리 시스템이 앞으로 발전해가는 방향을 잘 표현하는 말로서 “인지 사이버 물리 시스템(Cognitive Cyber-Physical System)”의 개념을 같이 살펴보았다. 이번 글에서는 최근 다시 중요한 기술로 부각되고 있는 클라우드 컴퓨팅이 사이버 물리 시스템에서 왜 중요한 기술이 되는지 같이 생각해보려고 한다. 서버리스 컴퓨팅과 클라우드 네이티브 프로그래밍이 최근 유행하면서 빅데이터 응용 소프트웨어 개발과 분석도 클라우드 컴퓨팅으로 많이 옮겨가는 추세지만, 클라우드 컴퓨팅 발전 초기에는 빅데이터 처리용 고성능 컴퓨팅 시스템에 베어메탈 하둡이나 스파크를 구축해서 빅데이터 처리를 하는 기업이나 조직이 많았지 클라우드 컴퓨팅을 빅데이터에 활용하는 기업이 생각보다 많지 않았다. 클라우드 컴퓨팅의 개념이 정립되어가던 2000년대 말부터 2010년대 중반까지 클라우드 컴퓨팅 발전 초반에는 컴퓨팅 자원 사용의 주문형 서비스화, 투자비(CapEx)가 아닌 운영비(OpEx)로의 IT 비용 전환을 통한 비용 절감의 측면에서 클라우드 컴퓨팅을 강조하는 경향이 많았다. 심지어 클라우드 컴퓨팅의 초창기에는, 현재는 대표적인 빅데이터 기술로 불리는 구글의 맵리듀스 기술을 클라우드 컴퓨팅의 대표적인 기술로 꼽는 사람들도 있었다. 클라우드 컴퓨팅 발전 초반에는 자원 활용의 탄력성(elasticity)이 크게 강조되지 않거나 서비스 지향(service-oriented) 유틸리티 컴퓨팅(Utility compu...

CIO NFV 스파크 네트워크 기능 가상화 김진철 엣지 컴퓨팅 OI Autonomic Computing extended perception Network Function Virtualization Operation Intelligence 사이버 물리 시스템 운영 지능 자율 컴퓨팅 사물인터넷 정부통합전산센터 빅데이터 아마존 IBM 마이크로소프트 AWS 애저 오픈스택 데이터 과학자 하둡 인공지능 5G 아마존 웹 서비스 베어메탈 확장된 인지

2020.01.28

사이버 물리 시스템과 클라우드 컴퓨팅의 관계 지난 서른여섯 번째 글에서 빅데이터를 포함하여 최근 주요 IT 기술 트렌드로 떠오르고 있는 5G, 클라우드 컴퓨팅, 인공지능, IoT, 엣지 컴퓨팅이 발전해 나가는 공통의 지향점으로서 “사이버 물리 시스템(Cyber-Physical System)”이라는 개념을 소개하였다. 이 사이버 물리 시스템의 정의와 특성, 그리고 사이버 물리 시스템에서 빅데이터를 다루는 문제가 왜 부각되어 나오게 되었는지 간단하게 그 배경을 소개하였고, 사이버 물리 시스템이 앞으로 발전해가는 방향을 잘 표현하는 말로서 “인지 사이버 물리 시스템(Cognitive Cyber-Physical System)”의 개념을 같이 살펴보았다. 이번 글에서는 최근 다시 중요한 기술로 부각되고 있는 클라우드 컴퓨팅이 사이버 물리 시스템에서 왜 중요한 기술이 되는지 같이 생각해보려고 한다. 서버리스 컴퓨팅과 클라우드 네이티브 프로그래밍이 최근 유행하면서 빅데이터 응용 소프트웨어 개발과 분석도 클라우드 컴퓨팅으로 많이 옮겨가는 추세지만, 클라우드 컴퓨팅 발전 초기에는 빅데이터 처리용 고성능 컴퓨팅 시스템에 베어메탈 하둡이나 스파크를 구축해서 빅데이터 처리를 하는 기업이나 조직이 많았지 클라우드 컴퓨팅을 빅데이터에 활용하는 기업이 생각보다 많지 않았다. 클라우드 컴퓨팅의 개념이 정립되어가던 2000년대 말부터 2010년대 중반까지 클라우드 컴퓨팅 발전 초반에는 컴퓨팅 자원 사용의 주문형 서비스화, 투자비(CapEx)가 아닌 운영비(OpEx)로의 IT 비용 전환을 통한 비용 절감의 측면에서 클라우드 컴퓨팅을 강조하는 경향이 많았다. 심지어 클라우드 컴퓨팅의 초창기에는, 현재는 대표적인 빅데이터 기술로 불리는 구글의 맵리듀스 기술을 클라우드 컴퓨팅의 대표적인 기술로 꼽는 사람들도 있었다. 클라우드 컴퓨팅 발전 초반에는 자원 활용의 탄력성(elasticity)이 크게 강조되지 않거나 서비스 지향(service-oriented) 유틸리티 컴퓨팅(Utility compu...

2020.01.28

테라데이타 밴티지, 2020년부터 구글 클라우드에서 구동

테라데이타의 데이터 분석 플랫폼 밴티지가 2020년부터는 구글 클라우드에서 구동될 예정이다.   내년부터 구글 클라우드 플랫폼에서 테라데이타 밴티지 클라우드 분석 플랫폼을 제공하도록 구글과 테라데이타가 손잡았다.  밴티지는 퍼블릭 클라우드, 하이브리드 또는 멀티 클라우드 환경을 포함한 모든 유형의 클라우드에서 분석을 실행하도록 설계된 클라우드 우선 분석 플랫폼이다. 구글 클라우드의 글로벌 에코시스템 및 사업 기획 부사장인 케빈 이치푸라니는 블로그 게시물에서 "테라데이타를 구글 클라우드로 가져오면 테라데이타의 소프트웨어를 이미 사용하고 있는 고객은 구글 클라우드에서 실행 경로를 간소화하고 구글 클라우드의 글로벌 인프라, 보안, 확장성, 컴퓨팅 기능을 활용할 수 있다"라고 말했다. 이어서 “또한 밴티지 소프트웨어가 어디서나 일관성 있게 유지되면서 프로세스가 크게 간소화되기 때문에 온-프레미스 분석 시스템에서 GCP의 밴티지로 마이그레이션하면 속도는 빨라지고 위험은 줄어들 것이다”라고 덧붙였다.  테라데이타가 퍼블릭 클라우드 서비스를 구글 클라우드 플랫폼으로 확장한 후 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 같은 글로벌 퍼블릭 클라우드 제공 업체 3곳에서 서비스 기능을 사용할 수 있게 되었다. 테라데이타의 제품 관리 부사장인 아시쉬 야즈니크는 “테라데이타가 이미 글로벌 시장에서 다진 입지에 구글 클라우드 플랫폼이라는 신무기를 추가해 테라데이타 밴티지를 사용하는 방법과 장소에 관한 선택과 유연성을 고객에게 제공할 것이다”라고 밝혔다.  구글 클라우드 플랫폼에서 구동되는 테라데이타 밴티지는 2020년에 출시되며 내년 상반기에 비공개 프리뷰가 시작될 예정이다. 한편 테라데이타는 객체 저장소 아마존 S3, 애저 블롭(Azure Blob) 및 궁극적으로 구글 클라우드 스토리지를 통해 저비용 스토리지에 대한 기본 지원을 추가하고 있다. 저비용 객체 저장소에 대한 기본 접근은 현재 비공개 프리뷰로 제공...

DW 구글 클라우드 플랫폼 GCP 구글 클라우드 에코시스템 데이터 분석 데이터 웨어하우스 생태계 하둡 테라데이타 밴티지

2019.10.25

테라데이타의 데이터 분석 플랫폼 밴티지가 2020년부터는 구글 클라우드에서 구동될 예정이다.   내년부터 구글 클라우드 플랫폼에서 테라데이타 밴티지 클라우드 분석 플랫폼을 제공하도록 구글과 테라데이타가 손잡았다.  밴티지는 퍼블릭 클라우드, 하이브리드 또는 멀티 클라우드 환경을 포함한 모든 유형의 클라우드에서 분석을 실행하도록 설계된 클라우드 우선 분석 플랫폼이다. 구글 클라우드의 글로벌 에코시스템 및 사업 기획 부사장인 케빈 이치푸라니는 블로그 게시물에서 "테라데이타를 구글 클라우드로 가져오면 테라데이타의 소프트웨어를 이미 사용하고 있는 고객은 구글 클라우드에서 실행 경로를 간소화하고 구글 클라우드의 글로벌 인프라, 보안, 확장성, 컴퓨팅 기능을 활용할 수 있다"라고 말했다. 이어서 “또한 밴티지 소프트웨어가 어디서나 일관성 있게 유지되면서 프로세스가 크게 간소화되기 때문에 온-프레미스 분석 시스템에서 GCP의 밴티지로 마이그레이션하면 속도는 빨라지고 위험은 줄어들 것이다”라고 덧붙였다.  테라데이타가 퍼블릭 클라우드 서비스를 구글 클라우드 플랫폼으로 확장한 후 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 같은 글로벌 퍼블릭 클라우드 제공 업체 3곳에서 서비스 기능을 사용할 수 있게 되었다. 테라데이타의 제품 관리 부사장인 아시쉬 야즈니크는 “테라데이타가 이미 글로벌 시장에서 다진 입지에 구글 클라우드 플랫폼이라는 신무기를 추가해 테라데이타 밴티지를 사용하는 방법과 장소에 관한 선택과 유연성을 고객에게 제공할 것이다”라고 밝혔다.  구글 클라우드 플랫폼에서 구동되는 테라데이타 밴티지는 2020년에 출시되며 내년 상반기에 비공개 프리뷰가 시작될 예정이다. 한편 테라데이타는 객체 저장소 아마존 S3, 애저 블롭(Azure Blob) 및 궁극적으로 구글 클라우드 스토리지를 통해 저비용 스토리지에 대한 기본 지원을 추가하고 있다. 저비용 객체 저장소에 대한 기본 접근은 현재 비공개 프리뷰로 제공...

2019.10.25

칼럼 | '복잡성의 지옥' 쿠버네티스도 하둡처럼 사라질까

현재 오픈 소스 사용자의 총애를 받는 것은 단연 쿠버네티스지만 앞서 나왔던 하둡의 인기도 그에 못지않았다. 그러나 사용하기가 무척 어려웠기 때문에 결국 성장의 동력을 잃었다. 쿠버네티스는 여전히 발전 중이지만 캐피털 원의 버나드 골든의 지적처럼 “운영하기가 장난이 아니다”. 쿠버네티스 “경험은 골칫거리(일 수 있다)”는 말의 매우 점잖은 표현이다. 쿠버네티스는 하둡의 전철을 밟게 될까? 아마도 그렇지는 않을 것이다. 하둡은 시간이 갈수록 더 복잡해진 반면 쿠버네티스는 계속 쉬워지고 있기 때문이다. 물론 말 그대로 '쉬워'질 일은 없겠지만 쿠버네티스의 복잡성은 하둡의 복잡성과는 결정적으로 다르다. 따라서 쿠버네티스가 향후 오랜 기간 동안 여전히 업계 표준으로 자리 잡을 가능성은 충분하다. 하둡: 계속해서 받기만 한 복잡한 선물 먼저 하둡에 대해서 명확히 하자. 아파치 하둡이 “맵리듀스”로 전환될 당시는 복잡했지만 시간이 지나면서 진화를 거듭했다. 더 강력한 옵션이 생겨났고 신기능이 급증했다. 그러나 이를 함께 사용하기는 쉽지 않았다. 이에 대해 톰 바버는 “하둡은 실제로 어떤 일을 하는가? 맵리듀스는 스파크로 대체됐고 이것 역시 다른 것으로 계속 대체되고 있다. 물론 많은 작업을 할 수 있지만 여전히 투박하다”라고 말했다. 왜 투박할까? 그 해답은 VM웨어의 제러드 로소프가 내놨다. 그는 “하둡이 복잡한 것은 일반적인 하둡 설정이 구성이, 생애주기와 관리 모델이 각기 다른 수십 개의 복잡한 독립적 시스템으로 되어 있기 때문이다”라고 말했다. 그 결과 플룸(Flume), 추콰(Chukwa), 하이브(Hive), 피그(Pig), 주키퍼(ZooKeeper) 등 멋진 이름의 이들을 함께 사용하는 것은 끔찍한 일이 됐다. 호스트 애널리틱스 CEO 데이브 켈로그의 주장대로 하둡은 “복잡한 솔루션 스택”이며 그 모든 복잡함은 온전히 사용자가 감당해야 한다. 쿠버네티스와 하둡의 가장 큰 차이는 하둡을 확장하기 위해 사용하는 모델이다. 이에 대해 로소프는 “하둡은 사...

하둡 쿠버네티스

2019.07.24

현재 오픈 소스 사용자의 총애를 받는 것은 단연 쿠버네티스지만 앞서 나왔던 하둡의 인기도 그에 못지않았다. 그러나 사용하기가 무척 어려웠기 때문에 결국 성장의 동력을 잃었다. 쿠버네티스는 여전히 발전 중이지만 캐피털 원의 버나드 골든의 지적처럼 “운영하기가 장난이 아니다”. 쿠버네티스 “경험은 골칫거리(일 수 있다)”는 말의 매우 점잖은 표현이다. 쿠버네티스는 하둡의 전철을 밟게 될까? 아마도 그렇지는 않을 것이다. 하둡은 시간이 갈수록 더 복잡해진 반면 쿠버네티스는 계속 쉬워지고 있기 때문이다. 물론 말 그대로 '쉬워'질 일은 없겠지만 쿠버네티스의 복잡성은 하둡의 복잡성과는 결정적으로 다르다. 따라서 쿠버네티스가 향후 오랜 기간 동안 여전히 업계 표준으로 자리 잡을 가능성은 충분하다. 하둡: 계속해서 받기만 한 복잡한 선물 먼저 하둡에 대해서 명확히 하자. 아파치 하둡이 “맵리듀스”로 전환될 당시는 복잡했지만 시간이 지나면서 진화를 거듭했다. 더 강력한 옵션이 생겨났고 신기능이 급증했다. 그러나 이를 함께 사용하기는 쉽지 않았다. 이에 대해 톰 바버는 “하둡은 실제로 어떤 일을 하는가? 맵리듀스는 스파크로 대체됐고 이것 역시 다른 것으로 계속 대체되고 있다. 물론 많은 작업을 할 수 있지만 여전히 투박하다”라고 말했다. 왜 투박할까? 그 해답은 VM웨어의 제러드 로소프가 내놨다. 그는 “하둡이 복잡한 것은 일반적인 하둡 설정이 구성이, 생애주기와 관리 모델이 각기 다른 수십 개의 복잡한 독립적 시스템으로 되어 있기 때문이다”라고 말했다. 그 결과 플룸(Flume), 추콰(Chukwa), 하이브(Hive), 피그(Pig), 주키퍼(ZooKeeper) 등 멋진 이름의 이들을 함께 사용하는 것은 끔찍한 일이 됐다. 호스트 애널리틱스 CEO 데이브 켈로그의 주장대로 하둡은 “복잡한 솔루션 스택”이며 그 모든 복잡함은 온전히 사용자가 감당해야 한다. 쿠버네티스와 하둡의 가장 큰 차이는 하둡을 확장하기 위해 사용하는 모델이다. 이에 대해 로소프는 “하둡은 사...

2019.07.24

기업이 오픈소스를 좋아하는 10가지 이유

오픈소스 소프트웨어는 느리긴 하지만 기업 영역에 확실히 침투했고 많은 대형 IT 조직들이 리눅스, 하둡, 쿠버네티스, 텐서플로 등에 의존하는 수준까지 기술에 익숙해졌다.   2019년 4월에 공개된 레드햇의 기업 오픈소스 실태 조사에 따르면 IT 리더 중 99%가 오픈소스 소프트웨어가 최소한 자신의 기업 IT 전략에서 "상당히 중요"하게 여기는 것으로 나타났다. 심지어 2016년의 오픈소스 소프트웨어 광고 사이클(Hype Cycle for Open-Source Software)에서도 가트너는 "주류 IT 조직의 95%가 인지하는지 그렇지 않은지 상관없이 업무에 필수적인 IT 포트폴리오 내에서 적지 않은 오픈소스 소프트웨어 자산을 활용하고 있음"을 발견했다. 오랫동안 오픈소스와의 전쟁을 선포했으며 전 CEO 스티브 발머는 리눅스를 ‘암’이라고까지 지칭했던 마이크로소프트를 포함한 기존 기업용 소프트웨어 업체들의 오픈소스 도입으로 이것이 입증되고 있다. 마이크로소프트는 현재 자사를 세계 최대 규모의 오픈소스 기여 기업으로 믿고 있으며 IBM과 SAP 또한 상위 10위권을 유지하고 있고 2018년에는 75억 달러를 들여 오픈소스 소프트웨어의 초기 주창 기업 중 하나인 깃허브와 그 방대한 코드 저장소를 인수했다. 포레스터의 부사장 겸 수석 애널리스트 디에고 로 주디체는 오픈소스에 대한 세계적인 기업들의 태도가 "임원 수준에서도 완전히 바뀌어 내부 IT에서 오픈소스를 사용하고 소비하는 것이 더 이상 CIO와 임원에게 위협이 되지 않는 수준에 이르렀다"라고 말했다. 왜 오픈소스인가(Why Open Source, 데이비드 휠러의 세미나 논문 왜 오픈소스 소프트웨어인가(Why Open Source Software)에서 파생)라는 주제에 대한 자신의 영향력 있는 에세이에서 벤 발터는 이렇게 밝혔다. "오픈소스는 유행이나 불법 물질처럼 홀치기 염색한 노트북을 지나치는 캘리포니아의 히피들과는 다르다. 오픈소스는 현대 조직들 그리고 점차 더욱 전통적인 조직들이 ...

협업 텐서플로 OSS 리눅스 오픈소스 소프트웨어 깃허브 하둡 감사 레드햇 포레스터 마이크로소프트 IBM 가트너 SAP 쿠버네티스

2019.07.09

오픈소스 소프트웨어는 느리긴 하지만 기업 영역에 확실히 침투했고 많은 대형 IT 조직들이 리눅스, 하둡, 쿠버네티스, 텐서플로 등에 의존하는 수준까지 기술에 익숙해졌다.   2019년 4월에 공개된 레드햇의 기업 오픈소스 실태 조사에 따르면 IT 리더 중 99%가 오픈소스 소프트웨어가 최소한 자신의 기업 IT 전략에서 "상당히 중요"하게 여기는 것으로 나타났다. 심지어 2016년의 오픈소스 소프트웨어 광고 사이클(Hype Cycle for Open-Source Software)에서도 가트너는 "주류 IT 조직의 95%가 인지하는지 그렇지 않은지 상관없이 업무에 필수적인 IT 포트폴리오 내에서 적지 않은 오픈소스 소프트웨어 자산을 활용하고 있음"을 발견했다. 오랫동안 오픈소스와의 전쟁을 선포했으며 전 CEO 스티브 발머는 리눅스를 ‘암’이라고까지 지칭했던 마이크로소프트를 포함한 기존 기업용 소프트웨어 업체들의 오픈소스 도입으로 이것이 입증되고 있다. 마이크로소프트는 현재 자사를 세계 최대 규모의 오픈소스 기여 기업으로 믿고 있으며 IBM과 SAP 또한 상위 10위권을 유지하고 있고 2018년에는 75억 달러를 들여 오픈소스 소프트웨어의 초기 주창 기업 중 하나인 깃허브와 그 방대한 코드 저장소를 인수했다. 포레스터의 부사장 겸 수석 애널리스트 디에고 로 주디체는 오픈소스에 대한 세계적인 기업들의 태도가 "임원 수준에서도 완전히 바뀌어 내부 IT에서 오픈소스를 사용하고 소비하는 것이 더 이상 CIO와 임원에게 위협이 되지 않는 수준에 이르렀다"라고 말했다. 왜 오픈소스인가(Why Open Source, 데이비드 휠러의 세미나 논문 왜 오픈소스 소프트웨어인가(Why Open Source Software)에서 파생)라는 주제에 대한 자신의 영향력 있는 에세이에서 벤 발터는 이렇게 밝혔다. "오픈소스는 유행이나 불법 물질처럼 홀치기 염색한 노트북을 지나치는 캘리포니아의 히피들과는 다르다. 오픈소스는 현대 조직들 그리고 점차 더욱 전통적인 조직들이 ...

2019.07.09

칼럼 | 하둡, 위기에 직면하다

빅데이터는 여전히 유망하다. 그러나 클라우데라(Cloudera), 호톤웍스(Hortonworks), 맵알(MapR) 같은 하둡 회사가 휘청거리면서 다소 빛이 바랜 조짐이 나타나고 있다. 한 때 막대한 현금을 조달할 수 있는 선망 받는 데이터 회사들이었지만, (인텔은 단 1차례 투자에서 클라우데라에 7억 6,600만 달러를 투입했다) 현재는 중량급 선수들이 합병(클라우데라와 호톤웍스)이나, 경영자 사임(맵알) 등 구조조정에 내몰리고 있다. 한편, 다른 오픈소스 빅데이터 사업자들, 예컨대 엘라스틱(Elastic), 몽고DB 등은 한창 잘나가고 있다. 이유가 무엇일까? 물론 수많은 이유가 있다. 그 가운데 하나는 왕년의 하둡 사업자들이 잘못된 표적, 즉 데이터센터에 묶인 설계자에게 집중했다는 점이다. 반면 시장의 중심은 클라우드에서 자유를 추구하는 개발자로 이동했다.    크기는 상대적이다  맵알은 하둡에 쏠린 자금에 편승해 비대해졌던 전력을 가진 존재다. 한때 10억 달러를 상회하는 가치가 있었지만, 최근에는 CEO인 존 스크로더, 여타 상임 임원들, 그리고 많은 수의 엔지니어를 포함해 122 명의 직원을 해고해야 하는 것으로 드러났다 (전체 종업원의 약 22%). 아울러 투자자를 찾을 수 없다면 본사도 문을 닫아야 할 처지이다. 투자자가 6월 14일까지 참여하지 않는다면 맵알의 미래는 암울해 보인다.  그러나 가까운 과거에도 마찬가지였다. 링크드인 데이터를 보면 지난 2년 동안 맵알은 29%가 축소됐다. 문제는 맵알에 그치지 않는다. 호톤웍스를 합병한 클라우데라는 이제 막 참담한 실적 자료를 발표하면서 애널리스트의 전망보다 6,900만 달러에서 8,900만 달러가 더 적은 매출을 전망했다. 동시에 CEO인 탐 레일리와 CSO이자 공동설립자인 마이크 올슨은 둘 다 사임할 것이라고 발표했다.  주가는 신속히 40% 급락했다.  이러한 결과는 빅데이터의 거품이 꺼진 것이라고 예단하기 쉽지만, 하둡의 주...

하둡 클라우데라 몽고DB 맵알 호톤웍스

2019.06.12

빅데이터는 여전히 유망하다. 그러나 클라우데라(Cloudera), 호톤웍스(Hortonworks), 맵알(MapR) 같은 하둡 회사가 휘청거리면서 다소 빛이 바랜 조짐이 나타나고 있다. 한 때 막대한 현금을 조달할 수 있는 선망 받는 데이터 회사들이었지만, (인텔은 단 1차례 투자에서 클라우데라에 7억 6,600만 달러를 투입했다) 현재는 중량급 선수들이 합병(클라우데라와 호톤웍스)이나, 경영자 사임(맵알) 등 구조조정에 내몰리고 있다. 한편, 다른 오픈소스 빅데이터 사업자들, 예컨대 엘라스틱(Elastic), 몽고DB 등은 한창 잘나가고 있다. 이유가 무엇일까? 물론 수많은 이유가 있다. 그 가운데 하나는 왕년의 하둡 사업자들이 잘못된 표적, 즉 데이터센터에 묶인 설계자에게 집중했다는 점이다. 반면 시장의 중심은 클라우드에서 자유를 추구하는 개발자로 이동했다.    크기는 상대적이다  맵알은 하둡에 쏠린 자금에 편승해 비대해졌던 전력을 가진 존재다. 한때 10억 달러를 상회하는 가치가 있었지만, 최근에는 CEO인 존 스크로더, 여타 상임 임원들, 그리고 많은 수의 엔지니어를 포함해 122 명의 직원을 해고해야 하는 것으로 드러났다 (전체 종업원의 약 22%). 아울러 투자자를 찾을 수 없다면 본사도 문을 닫아야 할 처지이다. 투자자가 6월 14일까지 참여하지 않는다면 맵알의 미래는 암울해 보인다.  그러나 가까운 과거에도 마찬가지였다. 링크드인 데이터를 보면 지난 2년 동안 맵알은 29%가 축소됐다. 문제는 맵알에 그치지 않는다. 호톤웍스를 합병한 클라우데라는 이제 막 참담한 실적 자료를 발표하면서 애널리스트의 전망보다 6,900만 달러에서 8,900만 달러가 더 적은 매출을 전망했다. 동시에 CEO인 탐 레일리와 CSO이자 공동설립자인 마이크 올슨은 둘 다 사임할 것이라고 발표했다.  주가는 신속히 40% 급락했다.  이러한 결과는 빅데이터의 거품이 꺼진 것이라고 예단하기 쉽지만, 하둡의 주...

2019.06.12

데이터 전문가 수요 고공행진··· 호주서 연봉 6자릿수 돌파

4차 산업혁명 시대에 데이터 과학 및 분석 역할은 조직이 경쟁우위를 확보하고자 데이터를 사용할 때 중추적인 역할을 한다.    데이터 전문가의 평균 급여가 호주 달러 기준 6자리 숫자로 상승했으며 광범위한 취업 시장에서 최저 임금 상승률을 배경으로 빠르게 증가하고 있다. 딜로이트가 작성한 ‘업의 미래 : 호주의 데이터 과학 분야의 직업 및 교육 동향’ 보고서에 따르면, 대학원 과정 IT 연구를 마친 과학자는 2016~2017년 평균 연봉이 11만 1,634달러에서 2021~2022년 13만 176달러에 상승할 전망이다.  IAPA(Institute of Analytics Professionals of Australia)의 2017 기술 연봉 조사(Skills Salary Survey)는 모든 데이터 분석 전문가의 소득자 중 상위 10%가 평균 7%의 급여를 2017년에 23만 5,000달러의 평균 급여로 보고했다. 팀장급과 기술 전문가의 평균 급여는 16만 3,000달러였으며 분석 전문가의 평균 급여는 13만 달러였다. 이는 2018년 5월 전문가 평균 급여인 9만 1,000달러를 크게 웃도는 수치였다. 헤이스(Hays)의 기술 수요 핫스팟 : 2019년 1~6월 블로그에서 비즈니스 인텔리전스 분석 및 데이터 분석 전문가, 특히 SQL, R이나 파이썬, 데이터 시각화 툴 사용 경험이 풍부한 데이터 과학자, 데이터 엔지니어, 데이터 분석가가 조직의 데이터 활용에 도움을 준다. 하둡에서 빅데이터 경험을 갖춘 데이터 과학자 수요도 많다. 특정 데이터 과학 및 분석 기술의 필요성으로 일자리가 생겨나기도 했다. 지난해 <컴퓨터월드>는 인공지능, 데이터 과학, 빅데이터 분석의 성장으로 2020년까지 전세계적으로 270만 개의 새로운 일자리가 창출될 것으로 전망했다. 뉴사우스웨일즈대학(UNSW) 경영대학원의 대학원 프로그램 담당 트레이시 윌콕스 박사는 이 엄청난 성장의 결과로 데이터 과학자와 데이터 ...

CIO 데이터 분석가 R 데이터 과학 파이썬 급여 인공지능 SQL 하둡 연봉 데이터 과학자 딜로이트 빅데이터 IAPA

2019.05.07

4차 산업혁명 시대에 데이터 과학 및 분석 역할은 조직이 경쟁우위를 확보하고자 데이터를 사용할 때 중추적인 역할을 한다.    데이터 전문가의 평균 급여가 호주 달러 기준 6자리 숫자로 상승했으며 광범위한 취업 시장에서 최저 임금 상승률을 배경으로 빠르게 증가하고 있다. 딜로이트가 작성한 ‘업의 미래 : 호주의 데이터 과학 분야의 직업 및 교육 동향’ 보고서에 따르면, 대학원 과정 IT 연구를 마친 과학자는 2016~2017년 평균 연봉이 11만 1,634달러에서 2021~2022년 13만 176달러에 상승할 전망이다.  IAPA(Institute of Analytics Professionals of Australia)의 2017 기술 연봉 조사(Skills Salary Survey)는 모든 데이터 분석 전문가의 소득자 중 상위 10%가 평균 7%의 급여를 2017년에 23만 5,000달러의 평균 급여로 보고했다. 팀장급과 기술 전문가의 평균 급여는 16만 3,000달러였으며 분석 전문가의 평균 급여는 13만 달러였다. 이는 2018년 5월 전문가 평균 급여인 9만 1,000달러를 크게 웃도는 수치였다. 헤이스(Hays)의 기술 수요 핫스팟 : 2019년 1~6월 블로그에서 비즈니스 인텔리전스 분석 및 데이터 분석 전문가, 특히 SQL, R이나 파이썬, 데이터 시각화 툴 사용 경험이 풍부한 데이터 과학자, 데이터 엔지니어, 데이터 분석가가 조직의 데이터 활용에 도움을 준다. 하둡에서 빅데이터 경험을 갖춘 데이터 과학자 수요도 많다. 특정 데이터 과학 및 분석 기술의 필요성으로 일자리가 생겨나기도 했다. 지난해 <컴퓨터월드>는 인공지능, 데이터 과학, 빅데이터 분석의 성장으로 2020년까지 전세계적으로 270만 개의 새로운 일자리가 창출될 것으로 전망했다. 뉴사우스웨일즈대학(UNSW) 경영대학원의 대학원 프로그램 담당 트레이시 윌콕스 박사는 이 엄청난 성장의 결과로 데이터 과학자와 데이터 ...

2019.05.07

최고의 데이터 관리 숙제는 '보안' <451 리서치>

451 리서치가 데이터 관리 전문가를 대상으로 한 조사에 따르면, 데이터양이 늘어나면서 보안이 가장 큰 골칫거리가 됐다.    기업들은 점점 더 많은 양의 데이터를 수집하고 분석해 서비스와 의사 결정을 개선하고 있다. 그러나 새로운 조사에 따르면 조직 내부의 데이터 관리 자동화에는 여러 가지 문제가 있으며 그 가운데 보안은 가장 중요한 문제로 간주됐다. 데이터옵스(DataOps)라고도 하는 데이터 관리 자동화는 데이터의 수집, 저장, 접근, 분석을 단순화하여 민첩하고 데이터 중심의 비즈니스 의사 결정과 제품 개발을 가능하게 하는 여러 기술과 프로세스의 사용을 뜻한다. 문제는 보안을 고려한 전략을 수립하지 않으면 재무적 손실을 초래하고 명성에 부정적인 영향을 줄 수 있는 심각한 데이터 유출 사고가 발생할 위험이 있다는 데 있다. 지난 수년 동안 많은 대기업은 해킹이 아니라 아마존 S3 버킷, 엘라스틱서치 노드, 몽고DB 데이터베이스, 하둡 배포 등 다양한 데이터 관련 기술을 보호하지 못한 탓에 데이터 유출을 경험했다. 최근 발표된 451 리서치 조사에 따르면 응답자의 2/3는 데이터 관리와 관련하여 보안과 규정 준수를 가장 큰 과제로 꼽았다. 그다음은 데이터 품질, 분산 데이터 관리, 내부 데이터 접근, 데이터 파이프라인 신뢰성과 관련된 문제가 지목됐다. 데이터 프라이버시 관련 컴플라이언스 요건 이해도 응답자의 40%가 지목한 해결 과제였다. 이 설문조사에는 임직원 수 1,000명 이상으로 최소 2페타바이트의 관리 데이터를 보유하고 있으며 조직의 데이터 관리 전략을 잘 이해하고 있는 미국 기반 조직에 속한 150명이 참여했다. 또한 이들은 은행, 의료, 기술, 제조, 소매업, 정부, 보험, 통신 등 다양한 산업에 속해 있다. 응답자의 약 1/5은 데이터옵스가 이미 기업 문화로 자리잡았다고 생각했고, 37%는 다양한 부서에서 데이터옵스를 수용하는 과정에 있으며, 34%는 데이터옵스 전략을 정립하고 있다고 밝혔다.  데이터가 ...

CSO DataOps 데이터옵스 451 리서치 스파크 몽고DB 하둡 아파치 데이터베이스 설문조사 데이터 관리 자동화

2019.02.08

451 리서치가 데이터 관리 전문가를 대상으로 한 조사에 따르면, 데이터양이 늘어나면서 보안이 가장 큰 골칫거리가 됐다.    기업들은 점점 더 많은 양의 데이터를 수집하고 분석해 서비스와 의사 결정을 개선하고 있다. 그러나 새로운 조사에 따르면 조직 내부의 데이터 관리 자동화에는 여러 가지 문제가 있으며 그 가운데 보안은 가장 중요한 문제로 간주됐다. 데이터옵스(DataOps)라고도 하는 데이터 관리 자동화는 데이터의 수집, 저장, 접근, 분석을 단순화하여 민첩하고 데이터 중심의 비즈니스 의사 결정과 제품 개발을 가능하게 하는 여러 기술과 프로세스의 사용을 뜻한다. 문제는 보안을 고려한 전략을 수립하지 않으면 재무적 손실을 초래하고 명성에 부정적인 영향을 줄 수 있는 심각한 데이터 유출 사고가 발생할 위험이 있다는 데 있다. 지난 수년 동안 많은 대기업은 해킹이 아니라 아마존 S3 버킷, 엘라스틱서치 노드, 몽고DB 데이터베이스, 하둡 배포 등 다양한 데이터 관련 기술을 보호하지 못한 탓에 데이터 유출을 경험했다. 최근 발표된 451 리서치 조사에 따르면 응답자의 2/3는 데이터 관리와 관련하여 보안과 규정 준수를 가장 큰 과제로 꼽았다. 그다음은 데이터 품질, 분산 데이터 관리, 내부 데이터 접근, 데이터 파이프라인 신뢰성과 관련된 문제가 지목됐다. 데이터 프라이버시 관련 컴플라이언스 요건 이해도 응답자의 40%가 지목한 해결 과제였다. 이 설문조사에는 임직원 수 1,000명 이상으로 최소 2페타바이트의 관리 데이터를 보유하고 있으며 조직의 데이터 관리 전략을 잘 이해하고 있는 미국 기반 조직에 속한 150명이 참여했다. 또한 이들은 은행, 의료, 기술, 제조, 소매업, 정부, 보험, 통신 등 다양한 산업에 속해 있다. 응답자의 약 1/5은 데이터옵스가 이미 기업 문화로 자리잡았다고 생각했고, 37%는 다양한 부서에서 데이터옵스를 수용하는 과정에 있으며, 34%는 데이터옵스 전략을 정립하고 있다고 밝혔다.  데이터가 ...

2019.02.08

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31