Offcanvas

��������� ������

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

김진철 빅데이터 데이터 과학 데이터 과학자 빅데이터 비즈니스 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.05.31

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

2021.05.31

김진철의 How-to-Big Data | How-to-Big Data 핵심 정리(Key Takeaways) (1)

이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.   --> 1회: 연재를 시작하며 (2017년 1월 23일 게재) 필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다.  많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다. 빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다. --> 2회: 빅데이터 활용의 근본적인 ...

김진철 빅 데이터 데이터 과학 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.04.27

이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.   --> 1회: 연재를 시작하며 (2017년 1월 23일 게재) 필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다.  많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다. 빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다. --> 2회: 빅데이터 활용의 근본적인 ...

2021.04.27

선택 아닌 필수··· ‘통합 데이터 생명주기 솔루션’이 필요한 이유 

데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다.  디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다.  ‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다.    많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다.  따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다.  이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다.  특히 비용 측면에서...

데이터 데이터 생명주기 빅 데이터 디지털 트랜스포메이션 데이터 엔지니어링 데이터세트 데이터 보안 데이터베이스 오픈소스 아파치 하둡 탈렌드 인포메티카 아마존 레드시프트 IBM SAP 오라클 클라우데라 머신러닝 금융사기 원격진료

2020.11.27

데이터가 21세기의 원유(原油)라고 할지라도 이를 시추하는 방법을 모른다면 말짱 도루묵이다. ‘데이터 생명주기(Data Lifecycle)’에는 여러 단계가 있다. 이 때문에 시추부터 생산까지 전체 생명주기를 다룰 수 있는 방법이 필요하다.  디지털 트랜스포메이션을 경험한 거의 모든 기업이 수집된 방대한 양의 데이터를 최대한 활용하고자 고군분투한다. 실제로, 대부분의 기업에서 무려 85~95%의 데이터가 충분히 활용되지 않고 낭비되는 것으로 추정된다.  ‘데이터 생명주기’에는 여러 단계가 있다. ▲데이터 수집, ▲데이터 엔지니어링 및 데이터세트 생성, ▲추가적인 사용 및 애널리틱스를 위한 데이터 대량 저장, ▲데이터 탐색을 위한 데이터베이스 생성, ▲데이터 보안 및 규제를 준수하면서 고급 애널리틱스 또는 머신러닝을 통한 인사이트 도출이다.    많은 기업이 어려움을 겪는 부분은 비용은 합리적으로 그리고 구축 및 운영 시간은 최소한으로 유지하면서 이러한 시스템을 최적으로 통합하는 것이다. 또한 데이터로부터 실질적인 인사이트를 얻을 수 있도록 이를 유의미한 방식으로 제시하는 데 따르는 어려움도 있다.  따라서 데이터 수집부터 인사이트 도출을 위한 분석까지 데이터 생명주기를 전체적으로 관리하는 방법이 필요하다. 오픈소스의 이점은 물론이고 온프레미스, 하이브리드, 클라우드 네이티브 컴퓨팅을 활용할 수 있는 역량을 유지하면서 말이다.  이에 대한 해결책으로 한동안 데이터 웨어하우스가 스토리지 및 전송을 처리하는 데 사용됐지만 완전한 해답은 아니었다. 또 많은 기업이 순수 오픈소스(예: 아파치 하둡) 또는 상용 제품(예: 탈렌드, 인포메티카, 아마존 레드시프트, IBM, SAP, 오라클 등)을 통해 데이터 클라우드를 구축하기도 했지만 이 역시 전체 데이터 생명주기 문제를 해결하진 못했다. 오히려 통합하기 쉽지 않은 이질적인 추가 제품을 다수 사용해야 하는 결과를 낳기도 했다.  특히 비용 측면에서...

2020.11.27

김진철의 How-to-Big Data | 빅데이터의 미래 (13)

지난 서른다섯 번째 글에서 빅데이터 현상이 왜 일어나는지 같이 생각해본 바 있다. 빅데이터 현상은 사실 컴퓨터의 컴퓨팅 능력의 한계가 데이터 처리의 수요와 요구사항을 따라잡지 못하기 때문에 나타나는 현상이며, 결국 컴퓨터 기술 발전의 역사는 빅데이터 문제를 극복하는 과정의 역사라고 볼 수 있다고 설명하였다. 최근의 빅데이터 붐을 일으킨 것은 아파치 하둡(Apache Hadoop)으로 대표되는 빅데이터 병렬 처리 소프트웨어 기술들이 중심이기는 했지만, 사실 빅데이터 비즈니스에 관련된 기술과 비즈니스 요소들은 생각보다 광범위하고 다양하다는 것도 지금까지 How-to-Big Data 시리즈를 통해서 설명해왔다. 지난 서른여섯 번째 글에서 빅데이터 트렌드의 미래로서 사이버 물리 시스템(Cyber-Physical System)으로 표현할 수 있는 지능형 인프라와 서비스를 제시하였고, 이 사이버 물리 시스템을 구성하는 다양한 기술들의 역할과 미래의 가능성에 대해 지금까지 열두 편의 글을 통해 소개하였다.    그렇지만 지금까지 사이버 물리 시스템과 클라우드 컴퓨팅, 5G를 비롯한 미래 통신 기술과 사물인터넷(IoT), 인공지능 기술과의 관계를 살펴보는 과정에서 정작 좁은 의미의 빅데이터 기술과 사이버 물리 시스템의 관계에 대해서는 깊게 언급하지 않았다. 이번 글에서는 사이버 물리 시스템을 위한 빅데이터 소프트웨어 기술이 어떻게 발전하게 될지 같이 생각해보았으면 한다. 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 기술로 어떤 기술이 나타날 것인지 예측하지는 못하겠지만 이들 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 빅데이터 기술이 어떤 기술과 트렌드의 영향을 받아 변화할 수 있을 것인지는 간단하게 살펴볼 수 있다. 이런 관점에서 빅데이터 소프트웨어 기술의 발전에 직접적인 영향을 줄 수 있는 주요 트렌드가 빅데이터 소프트웨어 기술에 어떤 변화를 줄...

김진철 빅데이터 아파치 하둡 사이버 물리 시스템 지능형 인프라 사물인터넷 인공지능 아파치 스파크 메모리 클라우드 네이티브 프로그래밍 양자 컴퓨팅 데이터 과학 함수형 프로그래밍

2020.11.27

지난 서른다섯 번째 글에서 빅데이터 현상이 왜 일어나는지 같이 생각해본 바 있다. 빅데이터 현상은 사실 컴퓨터의 컴퓨팅 능력의 한계가 데이터 처리의 수요와 요구사항을 따라잡지 못하기 때문에 나타나는 현상이며, 결국 컴퓨터 기술 발전의 역사는 빅데이터 문제를 극복하는 과정의 역사라고 볼 수 있다고 설명하였다. 최근의 빅데이터 붐을 일으킨 것은 아파치 하둡(Apache Hadoop)으로 대표되는 빅데이터 병렬 처리 소프트웨어 기술들이 중심이기는 했지만, 사실 빅데이터 비즈니스에 관련된 기술과 비즈니스 요소들은 생각보다 광범위하고 다양하다는 것도 지금까지 How-to-Big Data 시리즈를 통해서 설명해왔다. 지난 서른여섯 번째 글에서 빅데이터 트렌드의 미래로서 사이버 물리 시스템(Cyber-Physical System)으로 표현할 수 있는 지능형 인프라와 서비스를 제시하였고, 이 사이버 물리 시스템을 구성하는 다양한 기술들의 역할과 미래의 가능성에 대해 지금까지 열두 편의 글을 통해 소개하였다.    그렇지만 지금까지 사이버 물리 시스템과 클라우드 컴퓨팅, 5G를 비롯한 미래 통신 기술과 사물인터넷(IoT), 인공지능 기술과의 관계를 살펴보는 과정에서 정작 좁은 의미의 빅데이터 기술과 사이버 물리 시스템의 관계에 대해서는 깊게 언급하지 않았다. 이번 글에서는 사이버 물리 시스템을 위한 빅데이터 소프트웨어 기술이 어떻게 발전하게 될지 같이 생각해보았으면 한다. 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 기술로 어떤 기술이 나타날 것인지 예측하지는 못하겠지만 이들 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 빅데이터 기술이 어떤 기술과 트렌드의 영향을 받아 변화할 수 있을 것인지는 간단하게 살펴볼 수 있다. 이런 관점에서 빅데이터 소프트웨어 기술의 발전에 직접적인 영향을 줄 수 있는 주요 트렌드가 빅데이터 소프트웨어 기술에 어떤 변화를 줄...

2020.11.27

'오해 풀고 협력키로' 아파치 하둡 관련 두 단체

ODPi가 아파치 하둡 생태계 프로젝트에 부당한 영향력을 행사하도록 고안된 벤더 조직이라는 오해를 풀기 위한 노력으로 리눅스재단이 ASF의 골프 스폰서가 되겠다고 발표했다. 지난해 하둡 생태계의 복잡성을 줄이고자 만들어진 리눅스 재단의 협업 프로젝트인 ODPi(Open Data Platform initiative)는, 아파치 프로젝트에 영향력을 행사할 수 있는 외부 조직으로 ASF(Apache Software Foundation)에 파문을 일으켰다. 지난주 캐나다 밴쿠버에서 열린 ‘아파치: 빅데이터 북미 컨퍼런스’에서 ODPi는 ASF의 후원과 대화를 통해 이러한 우려를 줄이고자 했다. ODPi의 창설 배경에는 빅데이터 커널을 아파치 하둡, 아파치 암바리, 관련 아파치 소스들의 검증된 레퍼런스 코어 형태로 제공하려는 목적이 있었다. ODPi는 올해 초 런타임 스펙과 테스트 스위트를 배포했다. 유명 빅데이터 회원들 이 조직의 회원사는 10개다. 그들 대부분은 호튼웍스, 피보탈, EMC, IBM, SAS 등 빅데이터 솔루션 제공업체다. 몇몇 최종사용자들 역시 섞여 있고 조직도 더 많은 최종사용자들을 포함한 신규 멤버 참여를 권하고 있는데, ASF내 한가지 우려는 ODPi가 현재 하둡 생태계 프로젝트에 위임자 대다수를 채용하고 있다는 점이다. 캐피털 원(Capital One)의 테크 펠로우(Tech Fellows) 프로그램 선임 디렉터이자 ASF의 개발자이자 창립자중 한 명인 짐 자기엘스키는 현지시각 11일 이 문제에 대해 패널에서 “현재 ODPi는 하둡 업체들의 거대한 조직 같은 존재다”며 “최악에는 기본적으로 ODPi가 원하지만 전체 커뮤니티는 원하지 않는 하둡 생태계를 만들어내는 단일 독립체의 합치된 노력이 나올 수 있다”고 이야기했다. “이는 우리가 지켜봐야 할 부분이다”고 그는 덧붙였다. 또 자기엘스키는 “ASF 모델을 다른 수...

CIO 빅데이터 리눅스재단 아파치 하둡 ODPi 오픈 데이터 플랫폼 이니셔티브 오픈 데이터 플랫폼 ASF

2016.05.16

ODPi가 아파치 하둡 생태계 프로젝트에 부당한 영향력을 행사하도록 고안된 벤더 조직이라는 오해를 풀기 위한 노력으로 리눅스재단이 ASF의 골프 스폰서가 되겠다고 발표했다. 지난해 하둡 생태계의 복잡성을 줄이고자 만들어진 리눅스 재단의 협업 프로젝트인 ODPi(Open Data Platform initiative)는, 아파치 프로젝트에 영향력을 행사할 수 있는 외부 조직으로 ASF(Apache Software Foundation)에 파문을 일으켰다. 지난주 캐나다 밴쿠버에서 열린 ‘아파치: 빅데이터 북미 컨퍼런스’에서 ODPi는 ASF의 후원과 대화를 통해 이러한 우려를 줄이고자 했다. ODPi의 창설 배경에는 빅데이터 커널을 아파치 하둡, 아파치 암바리, 관련 아파치 소스들의 검증된 레퍼런스 코어 형태로 제공하려는 목적이 있었다. ODPi는 올해 초 런타임 스펙과 테스트 스위트를 배포했다. 유명 빅데이터 회원들 이 조직의 회원사는 10개다. 그들 대부분은 호튼웍스, 피보탈, EMC, IBM, SAS 등 빅데이터 솔루션 제공업체다. 몇몇 최종사용자들 역시 섞여 있고 조직도 더 많은 최종사용자들을 포함한 신규 멤버 참여를 권하고 있는데, ASF내 한가지 우려는 ODPi가 현재 하둡 생태계 프로젝트에 위임자 대다수를 채용하고 있다는 점이다. 캐피털 원(Capital One)의 테크 펠로우(Tech Fellows) 프로그램 선임 디렉터이자 ASF의 개발자이자 창립자중 한 명인 짐 자기엘스키는 현지시각 11일 이 문제에 대해 패널에서 “현재 ODPi는 하둡 업체들의 거대한 조직 같은 존재다”며 “최악에는 기본적으로 ODPi가 원하지만 전체 커뮤니티는 원하지 않는 하둡 생태계를 만들어내는 단일 독립체의 합치된 노력이 나올 수 있다”고 이야기했다. “이는 우리가 지켜봐야 할 부분이다”고 그는 덧붙였다. 또 자기엘스키는 “ASF 모델을 다른 수...

2016.05.16

MRCDP 출시한 맵알, 컨테이너·보안 지원

맵알테크놀로지스가 차세대 빅데이터 애플리케이션을 지원하도록 개발한 통합 클러스터에서 스파크, 웹-스케일 스토리지, NoSQL, 스트리밍 기능과 함께 하둡을 사용할 수 있는 CDP(Converged Data Platform)를 출시했다. 맵알테크놀로지스(MapR Technologies)가 8일 실시간 글로벌 데이터 애플리케이션을 배치하는 고객을 지원하기 위해 하둡과 스파크, 웹 스케일 스토리지, NoSQL, 스트리밍 기능을 하나의 클러스터로 통합하여 개발한 MRCDP(MapR Converged Data Platform)을 일반 출시한다고 발표했다. CDP(Converged Data Platform)는 기업 요건을 충족하기 위해 보안, 데이터 관리, 성능 기능 등이 개선됐으며 일관된 저장소 및 통합된 자원 관리를 포함하여 컨테이너 지원도 추가됐다. 맵알테크놀로지스의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "이러한 모든 변화는 단순한 편의가 아닌 융합을 목적으로 한다"고 말했다. 또 데이터 지연과 처리에 사용하는 개별적인 클러스터와 사일로(Silo)를 없앤다고 밝혔다. CDP는 아파치 하둡(Apache Hadoop)을 포함하는 맵알 디스트리뷰션(MapR Distribution)을 맵알-FS(MapR File System), 맵알-DB NoSQL 데이터베이스, 맵알 스트림(MapR Streams) 글로벌 이벤트 스트림 시스템과 통합한다. ‘매우 빈번하게 의사 결정’을 내린다 노리스는 아파치 하둡, 아파치 스파크, NoSQL 데이터베이스, 신뢰할 수 있는 스트리밍을 국제적인 수준으로 계속해서 통합함으로써 CDP가 맵알이 말하는 ‘매우 빈번한 의사 결정’을 지원한다고 전했다. 다시 말해, 분석하고 운영에 통합하며 상황에 따라 수정할 수 있기 때문에 변화하는 비즈니스 환경에 영향을 끼칠 수 있다. 예를 들어, 광고주가 실시간으로 요구사항을 전달하고, 의료 서비스 제공자...

CIO 아파치 미리어드 MapR Converged Data Platform MRCDP 맵알테크놀로지스 아파치 스파크 451 리서치 스파크 도커 아파치 하둡 NoSQL 하둡 빅데이터 Docker

2016.03.10

맵알테크놀로지스가 차세대 빅데이터 애플리케이션을 지원하도록 개발한 통합 클러스터에서 스파크, 웹-스케일 스토리지, NoSQL, 스트리밍 기능과 함께 하둡을 사용할 수 있는 CDP(Converged Data Platform)를 출시했다. 맵알테크놀로지스(MapR Technologies)가 8일 실시간 글로벌 데이터 애플리케이션을 배치하는 고객을 지원하기 위해 하둡과 스파크, 웹 스케일 스토리지, NoSQL, 스트리밍 기능을 하나의 클러스터로 통합하여 개발한 MRCDP(MapR Converged Data Platform)을 일반 출시한다고 발표했다. CDP(Converged Data Platform)는 기업 요건을 충족하기 위해 보안, 데이터 관리, 성능 기능 등이 개선됐으며 일관된 저장소 및 통합된 자원 관리를 포함하여 컨테이너 지원도 추가됐다. 맵알테크놀로지스의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "이러한 모든 변화는 단순한 편의가 아닌 융합을 목적으로 한다"고 말했다. 또 데이터 지연과 처리에 사용하는 개별적인 클러스터와 사일로(Silo)를 없앤다고 밝혔다. CDP는 아파치 하둡(Apache Hadoop)을 포함하는 맵알 디스트리뷰션(MapR Distribution)을 맵알-FS(MapR File System), 맵알-DB NoSQL 데이터베이스, 맵알 스트림(MapR Streams) 글로벌 이벤트 스트림 시스템과 통합한다. ‘매우 빈번하게 의사 결정’을 내린다 노리스는 아파치 하둡, 아파치 스파크, NoSQL 데이터베이스, 신뢰할 수 있는 스트리밍을 국제적인 수준으로 계속해서 통합함으로써 CDP가 맵알이 말하는 ‘매우 빈번한 의사 결정’을 지원한다고 전했다. 다시 말해, 분석하고 운영에 통합하며 상황에 따라 수정할 수 있기 때문에 변화하는 비즈니스 환경에 영향을 끼칠 수 있다. 예를 들어, 광고주가 실시간으로 요구사항을 전달하고, 의료 서비스 제공자...

2016.03.10

'코끼리처럼, 카멜레온처럼'··· 진단! 하둡의 오늘

오늘날 가장 찾기 어려운 인재군 중 하나가 아파치 하둡(Apach Hadoop)에 능숙한 IT 전문가다. 노동 시장 전문 조사 기관인 원티드 애널리틱스(Wanted Analytics)에 따르면, 하둡 전문가에 대한 수요는 지난 해 이후 34%가 급증했다. 그러나 이렇게 인재 유치 경쟁이 치열함에도 불구하고, 데이터 과학 분야 인재들이 많은 연봉을 챙기던 시대는 이미 저물어가고 있을지도 모른다. 왜일까? 하둡은 우수한 데이터 처리 능력과 저장력으로 유명하다. 물론 복잡하다는 특성도 갖고 있다. 하지만 이런 역량이 필요한 기업들이 더 이상 하둡 기술을 가진 IT 전문가를 찾기 위해 애를 쓸 필요가 줄어들고 있다. 벤더들이 이용하기 쉬운 하둡 시스템을 개발하고 있기 때문이다. 대용량의 데이터 세트를 처리하는 비즈니스 친화적 하둡 애플리케이션을 개발하는 벤더들로는 피보탈 소프트웨어(Pivotal Software), 싱크소프트(Syncsoft), 맵알 테크놀로지(MapR Technologies), 제타세트(Zettaset) 등을 예로 들 수 있다. 그 결과 비싼 인재들에 대한 의존도를 낮추고, 보안 수준을 높이며, 비용을 절감하는 한편, 비즈니스 목표에 맞도록 비즈니스 데이터를 활용할 수 있다고 주장하는 제품 생태계가 출현하고 있다. 그러나 이런 시스템이 증가 및 발전함에도 불구하고, 하둡이 본질적인 보안 취약점을 극복하고, 마이크로소프트 윈도우와 관련 비즈니스 애플리케이션과는 다른 완전한 운영 시스템으로 부상할 수 있을지에 의구심을 갖는 IT 전문가들이 많다. 버지니아 레스톤 소재 컴스코어(ComScore)의 마이클 브라운은 하둡 시스템에 만족하고 있는 사용자 중 한 명이다. 컴스코어는 200여 만 명의 온라인 쇼핑 행동양태를 모니터링하고, 광고주들이 타깃화된 마케팅 캠페인을 추진할 수 있도록 지원하는 웹 인텔리전스(정보) 회사로 매일 600억 개의 데이터를 '소화'한다. 이 회사는 데이터를 ...

아파치 하둡 피보탈 맵알 싱크소프트 제타세트

2014.08.20

오늘날 가장 찾기 어려운 인재군 중 하나가 아파치 하둡(Apach Hadoop)에 능숙한 IT 전문가다. 노동 시장 전문 조사 기관인 원티드 애널리틱스(Wanted Analytics)에 따르면, 하둡 전문가에 대한 수요는 지난 해 이후 34%가 급증했다. 그러나 이렇게 인재 유치 경쟁이 치열함에도 불구하고, 데이터 과학 분야 인재들이 많은 연봉을 챙기던 시대는 이미 저물어가고 있을지도 모른다. 왜일까? 하둡은 우수한 데이터 처리 능력과 저장력으로 유명하다. 물론 복잡하다는 특성도 갖고 있다. 하지만 이런 역량이 필요한 기업들이 더 이상 하둡 기술을 가진 IT 전문가를 찾기 위해 애를 쓸 필요가 줄어들고 있다. 벤더들이 이용하기 쉬운 하둡 시스템을 개발하고 있기 때문이다. 대용량의 데이터 세트를 처리하는 비즈니스 친화적 하둡 애플리케이션을 개발하는 벤더들로는 피보탈 소프트웨어(Pivotal Software), 싱크소프트(Syncsoft), 맵알 테크놀로지(MapR Technologies), 제타세트(Zettaset) 등을 예로 들 수 있다. 그 결과 비싼 인재들에 대한 의존도를 낮추고, 보안 수준을 높이며, 비용을 절감하는 한편, 비즈니스 목표에 맞도록 비즈니스 데이터를 활용할 수 있다고 주장하는 제품 생태계가 출현하고 있다. 그러나 이런 시스템이 증가 및 발전함에도 불구하고, 하둡이 본질적인 보안 취약점을 극복하고, 마이크로소프트 윈도우와 관련 비즈니스 애플리케이션과는 다른 완전한 운영 시스템으로 부상할 수 있을지에 의구심을 갖는 IT 전문가들이 많다. 버지니아 레스톤 소재 컴스코어(ComScore)의 마이클 브라운은 하둡 시스템에 만족하고 있는 사용자 중 한 명이다. 컴스코어는 200여 만 명의 온라인 쇼핑 행동양태를 모니터링하고, 광고주들이 타깃화된 마케팅 캠페인을 추진할 수 있도록 지원하는 웹 인텔리전스(정보) 회사로 매일 600억 개의 데이터를 '소화'한다. 이 회사는 데이터를 ...

2014.08.20

인포월드 선정 10대 기업용 신기술 ③

인포월드 선정 10대 기업용 신기술 ①과 인포월드 선정 10대 기업용 신기술 ②에 이어 아파치 하둡, 고도의 동기화, 소프트웨어로 정의된 네트워크, 프라이빗 클라우드 통합에 대해 소개하고자 한다. 10. HTML5 9. 클라이언트 단의 하이퍼바이저 8. 지속적인 개발 툴 구축 7. 칩에 대한 신뢰 6. 자바스크립트의 대체 5. 분산된 스토리지 계층 4. 아파치 하둡 3. 고도의 동기화 2. 소프트웨어로 정의된 네트워크 1. 프라이빗 클라우드 통합 >인포월드 선정 10대 기업용 신기술 ① >인포월드 선정 10대 기업용 신기술 ② 4. 아파치 하둡 2년 전, 우리는 완전히 새로운 전망(범용 하드웨어 그리고/또는 공공 클라우드 서비스를 이용한 로그 파일이나 웹 클릭스트림(Clickstream) 등의 비정형(또는 부분적으로 정형화된) 데이터의 엄청난 용량을 분석한 맵리듀스(MapReduce)를 최고의 신흥 산업기술로 선정한 바 있다. 지난 2년간, 맵리듀스의 뛰어난 오픈소스 구축인 아파치 하둡은 아마존, EMC, IBM, 인포매티카, 마이크로소프트, 넷앱, 오라클, SAP 뿐만 아니라 수 많은 신생 기업들이 제공하는 제품과 서비스에서 그 기반을 다졌다. 하둡은 기업들이 형식적인 BI 목표로 시작하기 보다는 단순하게 분석하고자 하는 흥미로운 패턴을 발견하기 위해서 범용 서버의 클러스터를 배치하여 고속으로 수 TB의 구조화되지 않은 데이터를 처리할 수 있도록 함으로써 새로운 지평을 열었다. 하지만 하둡은 기본적으로 분산된 파일 시스템 최상위에 위치한 소프트웨어 프레임워크라는 사실을 반드시 기억해야 한다. 프로그램들은 하둡 작업을 처리하기 위해서 작성돼야 하며 개발자들은 하둡의 구조를 이해해야 하고 데이터 분석가들은 하둡을 효과적으로 사용하는 방법을 결정하는데 있어서 학습 곡선에 직면하게 된다. 초기에는 개발자들이 하둡을 더욱 쉽게 활용할 수 있도록 하기 위한 툴들이 개발되기도 했다. 아파치 하이브(Apache Hi...

클라우드 동기화 10대 기술 아파치 하둡

2011.11.27

인포월드 선정 10대 기업용 신기술 ①과 인포월드 선정 10대 기업용 신기술 ②에 이어 아파치 하둡, 고도의 동기화, 소프트웨어로 정의된 네트워크, 프라이빗 클라우드 통합에 대해 소개하고자 한다. 10. HTML5 9. 클라이언트 단의 하이퍼바이저 8. 지속적인 개발 툴 구축 7. 칩에 대한 신뢰 6. 자바스크립트의 대체 5. 분산된 스토리지 계층 4. 아파치 하둡 3. 고도의 동기화 2. 소프트웨어로 정의된 네트워크 1. 프라이빗 클라우드 통합 >인포월드 선정 10대 기업용 신기술 ① >인포월드 선정 10대 기업용 신기술 ② 4. 아파치 하둡 2년 전, 우리는 완전히 새로운 전망(범용 하드웨어 그리고/또는 공공 클라우드 서비스를 이용한 로그 파일이나 웹 클릭스트림(Clickstream) 등의 비정형(또는 부분적으로 정형화된) 데이터의 엄청난 용량을 분석한 맵리듀스(MapReduce)를 최고의 신흥 산업기술로 선정한 바 있다. 지난 2년간, 맵리듀스의 뛰어난 오픈소스 구축인 아파치 하둡은 아마존, EMC, IBM, 인포매티카, 마이크로소프트, 넷앱, 오라클, SAP 뿐만 아니라 수 많은 신생 기업들이 제공하는 제품과 서비스에서 그 기반을 다졌다. 하둡은 기업들이 형식적인 BI 목표로 시작하기 보다는 단순하게 분석하고자 하는 흥미로운 패턴을 발견하기 위해서 범용 서버의 클러스터를 배치하여 고속으로 수 TB의 구조화되지 않은 데이터를 처리할 수 있도록 함으로써 새로운 지평을 열었다. 하지만 하둡은 기본적으로 분산된 파일 시스템 최상위에 위치한 소프트웨어 프레임워크라는 사실을 반드시 기억해야 한다. 프로그램들은 하둡 작업을 처리하기 위해서 작성돼야 하며 개발자들은 하둡의 구조를 이해해야 하고 데이터 분석가들은 하둡을 효과적으로 사용하는 방법을 결정하는데 있어서 학습 곡선에 직면하게 된다. 초기에는 개발자들이 하둡을 더욱 쉽게 활용할 수 있도록 하기 위한 툴들이 개발되기도 했다. 아파치 하이브(Apache Hi...

2011.11.27

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.13