Offcanvas

���������

'스트리밍 데이터' 플랫폼 선택법

스트리밍 데이터는 보통 센서, 서버 로그와 같은 수많은 데이터 소스에 의해 지속적으로 생성된다. 스트리밍 데이터 레코드는 대체로 작아서 각각 몇 킬로바이트에 불과하지만 수가 많고 끊임없이 이어진다. 여기서는 스트리밍 데이터에 대한 기본 정보와 함께 스트리밍 데이터 플랫폼을 선택하는 방법을 알아본다.       스트리밍 데이터 플랫폼은 어떤 식으로 움직이는가?  흡수(Ingesttion) 및 데이터 내보내기(Export). 일반적으로 데이터 흡수와 데이터 내보내기는 모두 외부 시스템에 특화된 데이터 커넥터에 의해 처리된다. 경우에 따라서는 목적지에 맞게 데이터를 재정렬, 정제, 조절하기 위해 ETL(extract, transform, load 추출, 변환, 로드) 또는 ELT(extract, load, transform, 추출, 로드 및 변환) 프로세스가 사용되기도 한다.  스트리밍 데이터 흡수에서는 보통 여러 소스, 경우에 따라 수천 개의 소스에 의해 생성되는 데이터를 읽어 들인다. 예를 들어 IoT 디바이스가 여기에 해당된다. 데이터 내보내기는 심층 분석과 머신러닝을 위해 데이터 웨어하우스 또는 데이터 레이크를 대상으로 하기도 한다.  게시/구독과 주제. 아파치 카프카(Kafka), 아파치 펄사(Pulsar)를 포함한 많은 스트리밍 데이터 플랫폼은 데이터가 주제별로 구성되는 게시 및 구독 모델을 사용한다. 흡수된 데이터에는 하나 이상의 주제가 태깅되어 해당 주제를 구독하는 클라이언트가 데이터를 받을 수 있다. 온라인 뉴스 게시를 예로 들면, 정치인의 연설에 대한 기사라면 속보, 미국 뉴스, 정치 태그가 달릴 수 있고, 그러면 페이지 레이아웃 소프트웨어는 섹션 편집자(사람)의 감독 하에 각 해당 섹션에 이 기사를 포함한다.  데이터 분석. 데이터 스트리밍 플랫폼에서 분석을 수행할 수 있는 기회는 일반적으로 파이프라인의 두 지점에 있다. 첫 번째 지점은 실시간 스트림 부분, 두 번째 ...

스트리밍데이터 카프카 ETL 스파크

2022.03.02

스트리밍 데이터는 보통 센서, 서버 로그와 같은 수많은 데이터 소스에 의해 지속적으로 생성된다. 스트리밍 데이터 레코드는 대체로 작아서 각각 몇 킬로바이트에 불과하지만 수가 많고 끊임없이 이어진다. 여기서는 스트리밍 데이터에 대한 기본 정보와 함께 스트리밍 데이터 플랫폼을 선택하는 방법을 알아본다.       스트리밍 데이터 플랫폼은 어떤 식으로 움직이는가?  흡수(Ingesttion) 및 데이터 내보내기(Export). 일반적으로 데이터 흡수와 데이터 내보내기는 모두 외부 시스템에 특화된 데이터 커넥터에 의해 처리된다. 경우에 따라서는 목적지에 맞게 데이터를 재정렬, 정제, 조절하기 위해 ETL(extract, transform, load 추출, 변환, 로드) 또는 ELT(extract, load, transform, 추출, 로드 및 변환) 프로세스가 사용되기도 한다.  스트리밍 데이터 흡수에서는 보통 여러 소스, 경우에 따라 수천 개의 소스에 의해 생성되는 데이터를 읽어 들인다. 예를 들어 IoT 디바이스가 여기에 해당된다. 데이터 내보내기는 심층 분석과 머신러닝을 위해 데이터 웨어하우스 또는 데이터 레이크를 대상으로 하기도 한다.  게시/구독과 주제. 아파치 카프카(Kafka), 아파치 펄사(Pulsar)를 포함한 많은 스트리밍 데이터 플랫폼은 데이터가 주제별로 구성되는 게시 및 구독 모델을 사용한다. 흡수된 데이터에는 하나 이상의 주제가 태깅되어 해당 주제를 구독하는 클라이언트가 데이터를 받을 수 있다. 온라인 뉴스 게시를 예로 들면, 정치인의 연설에 대한 기사라면 속보, 미국 뉴스, 정치 태그가 달릴 수 있고, 그러면 페이지 레이아웃 소프트웨어는 섹션 편집자(사람)의 감독 하에 각 해당 섹션에 이 기사를 포함한다.  데이터 분석. 데이터 스트리밍 플랫폼에서 분석을 수행할 수 있는 기회는 일반적으로 파이프라인의 두 지점에 있다. 첫 번째 지점은 실시간 스트림 부분, 두 번째 ...

2022.03.02

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

김진철 빅데이터 데이터 과학 데이터 과학자 빅데이터 비즈니스 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.05.31

이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.   22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재)  빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다. CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다. LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트...

2021.05.31

김진철의 How-to-Big Data | How-to-Big Data 핵심 정리(Key Takeaways) (1)

이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.   --> 1회: 연재를 시작하며 (2017년 1월 23일 게재) 필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다.  많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다. 빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다. --> 2회: 빅데이터 활용의 근본적인 ...

김진철 빅 데이터 데이터 과학 아파치 하둡 스파크 데이터 레이크 인공지능 딥러닝 해석가능성 클라우드 운영 지능화

2021.04.27

이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.   --> 1회: 연재를 시작하며 (2017년 1월 23일 게재) 필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다.  많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다. 빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다. --> 2회: 빅데이터 활용의 근본적인 ...

2021.04.27

김진철의 How-to-Big Data | 빅데이터 괴담

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

김진철 빅데이터 데이터 과학 데이터 과학자 시행착오 데이터 레이크 하둡 스타트업 스파크 플링크 에어플로우 데이터웨어하우스 도커 서비스메시 쿠버네티스

2021.03.29

이번 글은 필자가 지금까지 데이터 과학자로 경력을 쌓아오면서 경험했거나 듣고 읽었던 빅데이터 활용 사례들을 중심으로 빅데이터를 활용하는 과정에서 많은 조직이 흔히 저지르는 실수와 오해, 시행착오에 대해서 살펴보고, 이를 어떻게 개선할 수 있을지 같이 생각해보기로 한다. 소개하는 사례들은 실제 사례들이 아니라 필자가 경험했거나 들은 사례들을 각색하여 만든 가상의 사례들이며, 필자가 전달하고자 하는 메시지를 부각하기 위해 조금 과장했음을 미리 알려 둔다. 지금까지 같이 생각해봤던 빅데이터 활용의 교훈을 되새기고 독자들의 시행착오를 줄이는 것을 돕기 위해 만들 사례들이니 사실이 아닌 것을 염두에 주고 가볍고 즐겁게 읽었으면 좋겠다.   사례 1: 데이터 호수가 너무 넓어서 ROI가 나지 않아 곤란한 A 기업의 CIO 이야기 많은 사람에게 널리 알려진 A 회사에서 빅데이터를 앞세워 승승장구한 C는 요즘 고민이 많다. 문제는 바로 그에게 회사에서 승승장구한 경력을 만들어준 데이터 레이크 시스템 때문이다. C는 2011년도 빅데이터 붐이 일기 시작할 즈음 승진을 위한 기획 아이템으로 뭘 앞세울까 고민하다가 그 당시 막 떠오르고 있던 빅데이터를 앞세워서 A 회사에 하둡 기반의 빅데이터 시스템을 구축하는 기획안을 만들어 임원의 승인을 받는 데 성공했다.  당시 NexR과 같이 오픈소스 하둡을 기반으로 빅데이터 솔루션을 상용화하는 스타트업이 막 등장하고 있었다. 이런 스타트업 중에서 괜찮은 회사 하나를 잘 골라서 같이 일하면서 키우면 자신의 승진에 많이 도움이 될 것 같았다. 운이 좋다면 자신의 직속 임원이 이 스타트업을 인수, 합병하여 사업 성과를 낼 수 있도록 하면서 그 회사의 고급 소프트웨어 엔지니어들을 자연스럽게 회사로 영입하여 자신의 세력으로 키울 수 있을 것 같았다. C는 당시 하둡 기반 빅데이터 스타트업으로서 같이 하둡 시스템 구축 사업을 수행한 D사를 잘 활용하여 예상보다 빠르게 하둡 시스템을 안정적으로 구축할 수 있었다. 이후 프...

2021.03.29

스프링·쿼커스 겨냥하는 ‘액티브J 자바’ 플랫폼

애드테크(Ad-tech)로부터 탄생한 ‘고성능 자바 플랫폼’은 고부하 웹, 클라우드, 네트워킹, 마이크로서비스 애플리케이션에 적합하도록 개발됐다.  여러 자바 기술을 대체하는 ‘액티브J(ActiveJ)’ 플랫폼이 웹, 클라우드, 마이크로서비스, 고부하 애플리케이션을 위한 빠르고 간결하며 상용구 없는 기술 인프라로 발전하고 있다.    비동기 처리, I/O 처리, 고성능 웹 서비스, 고성능 네트워킹을 지원하고자 느슨하게 결합된 구성요소로 이뤄진 ‘액티브J’는 스프링(Spring), 스파크(Spark), 레드햇 쿼커스(Red Hat Quarkus), 마이크로넛(Micronaut), 버텍스(Vert.x) 및 기타 자바 프레임워크를 대체하고자 개발됐다.  ‘액티브J’ 플랫폼의 접근방식은 프레임워크 사양 대신 비즈니스 로직에 우선순위를 부여한다. 오픈소스 액티브J는 기존 자바 플랫폼과 프레임워크로는 부족하다고 본 개발자들에 의해 애드커널(AdKernel) 실시간 광고 입찰 및 광고 서비스 플랫폼을 위한 고부하 생태계로 구축됐다.  가장 최신 버전인 액티브J 3.0.1은 지난 11월 30일 출시됐다. 메이븐(Maven)을 통해 액세스할 수 있다. 이는 애드커널의 사내 프로젝트에서 수십억 건의 일일 요청을 처리하는 데 사용되고 있다.  또한 액티브J는 타사 종속성이 거의 없으며 독립적으로 사용할 수 있는 구성요소 집합으로 이뤄져 있다고 회사 측은 전했다. 이러한 구성요소는 다음과 같다.  • 액티브인젝트(ActiveInject)는 가벼운 종속성 주입을 위한 라이브러리다. • 액티브시리얼라이저(ActiveSerializer)는 바이트코드 엔지니어링으로 개발된 공간 효율적인 시리얼라이저를 제공한다. 성능을 향상시키기 위해 스키마 없는 접근법을 사용한다.  • 액티브코드젠(ActiveCodeGen)은 오브젝티브웹 ASM(ObjectWeb ASM) 라이브러리 위에 있는 동적 클래스 및 바이트코...

애드테크 자바 액티브J 고부하 웹 클라우드 네트워킹 마이크로서비스 스프링 스파크 레드햇 쿼커스 마이크로넛 버텍스 자바 프레임워크 애드커널

2020.12.11

애드테크(Ad-tech)로부터 탄생한 ‘고성능 자바 플랫폼’은 고부하 웹, 클라우드, 네트워킹, 마이크로서비스 애플리케이션에 적합하도록 개발됐다.  여러 자바 기술을 대체하는 ‘액티브J(ActiveJ)’ 플랫폼이 웹, 클라우드, 마이크로서비스, 고부하 애플리케이션을 위한 빠르고 간결하며 상용구 없는 기술 인프라로 발전하고 있다.    비동기 처리, I/O 처리, 고성능 웹 서비스, 고성능 네트워킹을 지원하고자 느슨하게 결합된 구성요소로 이뤄진 ‘액티브J’는 스프링(Spring), 스파크(Spark), 레드햇 쿼커스(Red Hat Quarkus), 마이크로넛(Micronaut), 버텍스(Vert.x) 및 기타 자바 프레임워크를 대체하고자 개발됐다.  ‘액티브J’ 플랫폼의 접근방식은 프레임워크 사양 대신 비즈니스 로직에 우선순위를 부여한다. 오픈소스 액티브J는 기존 자바 플랫폼과 프레임워크로는 부족하다고 본 개발자들에 의해 애드커널(AdKernel) 실시간 광고 입찰 및 광고 서비스 플랫폼을 위한 고부하 생태계로 구축됐다.  가장 최신 버전인 액티브J 3.0.1은 지난 11월 30일 출시됐다. 메이븐(Maven)을 통해 액세스할 수 있다. 이는 애드커널의 사내 프로젝트에서 수십억 건의 일일 요청을 처리하는 데 사용되고 있다.  또한 액티브J는 타사 종속성이 거의 없으며 독립적으로 사용할 수 있는 구성요소 집합으로 이뤄져 있다고 회사 측은 전했다. 이러한 구성요소는 다음과 같다.  • 액티브인젝트(ActiveInject)는 가벼운 종속성 주입을 위한 라이브러리다. • 액티브시리얼라이저(ActiveSerializer)는 바이트코드 엔지니어링으로 개발된 공간 효율적인 시리얼라이저를 제공한다. 성능을 향상시키기 위해 스키마 없는 접근법을 사용한다.  • 액티브코드젠(ActiveCodeGen)은 오브젝티브웹 ASM(ObjectWeb ASM) 라이브러리 위에 있는 동적 클래스 및 바이트코...

2020.12.11

김진철의 How-to-Big Data | 빅데이터의 미래 (12)

빅데이터 비즈니스 트렌드의 미래로서 사이버 물리 시스템 기반의 지능형 서비스 비즈니스를 꽤 오랜 지면을 할애해서 지난 1년간 살펴보고 있다. 이번 글은 인공지능 기술과 사이버 물리 시스템 사이의 관계, 미래를 살펴보는 마지막 글로, 지난 6월 13일 자 “이코노미스트(The Economist)”지에 실린 “계간 기술(Technology Quarterly)” 특집 기사의 내용을 같이 살펴보면서 앞으로 인공지능 기술이 어떤 양상으로 발전하게 될지 같이 엿보려고 한다. 지난 6월 13일 자 “이코노미스트(The Economist)”지의 “계간 기술(Technology Quarterly)”은 아직도 그 열기가 가시지 않고 있는 인공지능 기술에 대한 특집 기사로 채워졌다. 권위 있는 경제 매체인 “이코노미스트(The Economist)”지는 매 분기별로 글로벌 경제에 영향을 미치는 기술 이슈들을 주제별로 선정해 심도 있게 조사, 분석하여 소개하는 “계간 기술(Technology Quarterly)” 특집 기사를 정기적으로 싣고 있다.   “이코노미스트(The Economist)”지는 “네이처(Nature)”나 “사이언스(Science)”와 같은 전문 과학기술 학술 저널, “MIT 기술 리뷰(MIT Technology Review)”나 “와이어드(Wired)”와 같은 전문 기술 매체가 아닌 경제 전문 매체임에도 불구하고, 정확하고 균형 있는 조사와 분석을 통해 최근 기술의 발전 동향이 경제에 미치는 영향과 효과를 현실적이고 정확하게 소개해왔다. 이번 6월 13일 자의 “계간 기술(Technology Quarterly)” 특집 기사는 지난 5년간 전 지구를 뜨겁게 달구어 왔던 인공지능 기술을 주제로 하였다. 이번 6월 13일 자 “계간 기술(Technology Quarterly)” 특집 기사의 핵심 주제는 “인공지능 기술의 가을이 오고 있다(AI’s autumn is coming)”라는 한 문장으로 요약될 수 있다. 지금까지 주목받고 많은 이슈를 몰고 온 ...

빅데이터 사이버 물리 시스템 인공지능 AI 머신러닝 딥러닝 이코노미스트 가트너 알파고 엔비디아 마이크로소프트 구글 페이스북 챗봇 가상 비서 지능형 서비스 GM 하둡 스파크 텐서플로우 파이토치 디지털 전환 디지털 트랜스포메이션 4차 산업혁명 데이터 댐 아마존 해석가능한 인공지능 XAI

2020.10.30

빅데이터 비즈니스 트렌드의 미래로서 사이버 물리 시스템 기반의 지능형 서비스 비즈니스를 꽤 오랜 지면을 할애해서 지난 1년간 살펴보고 있다. 이번 글은 인공지능 기술과 사이버 물리 시스템 사이의 관계, 미래를 살펴보는 마지막 글로, 지난 6월 13일 자 “이코노미스트(The Economist)”지에 실린 “계간 기술(Technology Quarterly)” 특집 기사의 내용을 같이 살펴보면서 앞으로 인공지능 기술이 어떤 양상으로 발전하게 될지 같이 엿보려고 한다. 지난 6월 13일 자 “이코노미스트(The Economist)”지의 “계간 기술(Technology Quarterly)”은 아직도 그 열기가 가시지 않고 있는 인공지능 기술에 대한 특집 기사로 채워졌다. 권위 있는 경제 매체인 “이코노미스트(The Economist)”지는 매 분기별로 글로벌 경제에 영향을 미치는 기술 이슈들을 주제별로 선정해 심도 있게 조사, 분석하여 소개하는 “계간 기술(Technology Quarterly)” 특집 기사를 정기적으로 싣고 있다.   “이코노미스트(The Economist)”지는 “네이처(Nature)”나 “사이언스(Science)”와 같은 전문 과학기술 학술 저널, “MIT 기술 리뷰(MIT Technology Review)”나 “와이어드(Wired)”와 같은 전문 기술 매체가 아닌 경제 전문 매체임에도 불구하고, 정확하고 균형 있는 조사와 분석을 통해 최근 기술의 발전 동향이 경제에 미치는 영향과 효과를 현실적이고 정확하게 소개해왔다. 이번 6월 13일 자의 “계간 기술(Technology Quarterly)” 특집 기사는 지난 5년간 전 지구를 뜨겁게 달구어 왔던 인공지능 기술을 주제로 하였다. 이번 6월 13일 자 “계간 기술(Technology Quarterly)” 특집 기사의 핵심 주제는 “인공지능 기술의 가을이 오고 있다(AI’s autumn is coming)”라는 한 문장으로 요약될 수 있다. 지금까지 주목받고 많은 이슈를 몰고 온 ...

2020.10.30

‘데이터 엔지니어’, ‘데이터 아키텍트’ 역량을 입증 · · · 자격증 9종 리스트업

데이터 및 빅데이터 분석은 비즈니스를 성공시키는 동력이다. 기술을 올바르게 구현하는 것도 힘들지만, 빅데이터 이니셔티브를 이끌어갈 적합한 전문성을 가진 인재들로 구성된 적합한 팀을 구성하는 것은 이보다 더 힘들 수도 있다. 빅데이터 이니셔티브를 성공적으로 전개하려면 데이터 사이언티스트와 데이터 분석가만 필요한 것이 아니다. 엔터프라이즈 데이터 관리 프레임워크 ‘청사진’을 설계하는 데이터 아키텍트와 프레임워크 및 데이터 파이프라인, 프로세스를 만들고, 데이터에서 비즈니스 가치를 창출할 데이터 엔지니어가 필요하다. 통상 데이터 아키텍트는 데이터 설계, 데이터 관리, 데이터 스토리지에 대한 다년간의 경험을 보유한 이들이며, 데이터 엔지니어는 하둡과 스파크, 기타 오픈소스 빅데이터 생태계의 다른 도구들을 이용하고, 자바나 스칼라, 파이썬으로 프로그래밍 할 수 있는 전문성을 갖추고 있다. 경쟁력을 입증하려 한다면, 자격증이 좋은 선택지가 될 수 있다. 자격증은 업계나 벤더에 특정적인 기준을 바탕으로 지식과 스킬을 평가, 고용주에게 당신이 적합한 스킬 세트를 보유하고 있음을 증명해준다. 다음은 데이터 엔지니어와 데이터 아키텍트 분야의 경력을 개발하려는 이들이 검토해볼 만한 관련 자격증이다.    AWS CDA-S(Certified Data Analytics – Specialty) ‘AWS Certified Data Analytics – Specialty’는 AWS 데이터 레이크와 분석 서비스에 관한 기술 스킬과 경험을 증명해주는 자격증이다. AWS 데이터 분석 서비스를 정의하고, 서로 통합하는 방법을 이해하는 능력이 있음을 증명해준다. 자격증을 취득하려면 AWS 데이터 분석 서비스를 수집과 보관, 처리, 검증이라는 데이터 생애주기에 맞춰 구축하는 방법을 알아야 한다. 과거 ‘AWS Certified Big Data – Specialty’로 불렸던 자격증이다. 유효 기간은 취득한 날로부터 3년이다. 조직 : AWS 가격 : 시험 등록비 300...

데이터 엔지니어 데이터 자격증 애널리틱스 스파크 하둡

2020.09.08

데이터 및 빅데이터 분석은 비즈니스를 성공시키는 동력이다. 기술을 올바르게 구현하는 것도 힘들지만, 빅데이터 이니셔티브를 이끌어갈 적합한 전문성을 가진 인재들로 구성된 적합한 팀을 구성하는 것은 이보다 더 힘들 수도 있다. 빅데이터 이니셔티브를 성공적으로 전개하려면 데이터 사이언티스트와 데이터 분석가만 필요한 것이 아니다. 엔터프라이즈 데이터 관리 프레임워크 ‘청사진’을 설계하는 데이터 아키텍트와 프레임워크 및 데이터 파이프라인, 프로세스를 만들고, 데이터에서 비즈니스 가치를 창출할 데이터 엔지니어가 필요하다. 통상 데이터 아키텍트는 데이터 설계, 데이터 관리, 데이터 스토리지에 대한 다년간의 경험을 보유한 이들이며, 데이터 엔지니어는 하둡과 스파크, 기타 오픈소스 빅데이터 생태계의 다른 도구들을 이용하고, 자바나 스칼라, 파이썬으로 프로그래밍 할 수 있는 전문성을 갖추고 있다. 경쟁력을 입증하려 한다면, 자격증이 좋은 선택지가 될 수 있다. 자격증은 업계나 벤더에 특정적인 기준을 바탕으로 지식과 스킬을 평가, 고용주에게 당신이 적합한 스킬 세트를 보유하고 있음을 증명해준다. 다음은 데이터 엔지니어와 데이터 아키텍트 분야의 경력을 개발하려는 이들이 검토해볼 만한 관련 자격증이다.    AWS CDA-S(Certified Data Analytics – Specialty) ‘AWS Certified Data Analytics – Specialty’는 AWS 데이터 레이크와 분석 서비스에 관한 기술 스킬과 경험을 증명해주는 자격증이다. AWS 데이터 분석 서비스를 정의하고, 서로 통합하는 방법을 이해하는 능력이 있음을 증명해준다. 자격증을 취득하려면 AWS 데이터 분석 서비스를 수집과 보관, 처리, 검증이라는 데이터 생애주기에 맞춰 구축하는 방법을 알아야 한다. 과거 ‘AWS Certified Big Data – Specialty’로 불렸던 자격증이다. 유효 기간은 취득한 날로부터 3년이다. 조직 : AWS 가격 : 시험 등록비 300...

2020.09.08

굿바이 하둡! 라쿠텐, 클라우드 기반 스노우플레이크로 전환

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

전자상거래 빅데이터 하둡 스칼라 파이썬 스파크 SQL 라쿠텐 스노우플레이크 데이터 웨어하우스 DW 데이터 레이크 ETL 클라우데라 캐쉬백

2020.06.25

일본 전자상거래 대기업 라쿠텐의 미국 내 자회사인 라쿠텐 리워즈가 하드웨어 비용을 줄이고 더 쉽게 자산을 관리하기 위해 하둡 대신 새로운 시스템을 도입했다.  캘리포니아에 있는 라쿠텐 리워즈는 웹에서 제휴 마케팅 링크로 돈을 버는 쇼핑 포인트 회사다. 이에 대한 보상으로 회원들은 파트너 소매기업을 통해 구매할 때마다 포인트와 캐쉬백 보상을 얻는다.   따라서 많은 사용자 통찰 데이터를 얻을 수밖에 없으며, 정확히 말하자면 콜드 스토리지 안에 수백 테라바이트의 데이터가 저장되어 있다. 2018년 라쿠텐 리워즈는 파이썬이나 스칼라 코딩 작업 없이 더 많은 사용자에게 이 통찰을 제대로 제공하기위해, 그리고 하드웨어에 대한 자본 지출을 줄이기 위해 클라우드를 고려하기 시작했다. ‘SQL 서버 기기는 우아하게 확장되지 않는다’ 이베이츠(Ebates)라는 이름을 사용했던 이 회사는 2014년에 일본의 전자상거래 대기업 라쿠텐(Rakuten)에 인수됐으며 그 이후로 빠르게 성장하면서 기술 스택을 현대화하고 고객을 유도하고 유지하는 방식을 더욱 데이터 지향적으로 바꾸게 되었다. 그 시작은 아키텍처였다. 지난 3년 동안, 라쿠텐 리워즈는 자사의 빅데이터 자산을 대부분 온프레미스 SQL에서 온프레미스 하둡으로 이전했으며 지금은 스노우플레이크의 클라우드 데이터 웨어하우스 서비스로 이전했다. 라쿠텐 리워즈의 분석 VP 마크 스테인지 트리기어는 “SQL 서버 기기는 우아하게 확장되지 않기 때문에 우리는 클라우데라를 통해 온프레미스 하둡을 선택했고 스파크와 파이썬을 사용하여 ETL을 운용했으며 거기에서 어느 정도 성능을 얻었다”라고 <인포월드>에 밝혔다. 그는 “[하둡] 구조를 관리하는 것은 다소 복잡한 일이기 때문에 클라우드 웨어하우스를 본 후 이전을 결정했고 중앙 집중식 기업용 데이터 웨어하우스와 레이크를 갖게 되었다”라고 말했다. 전직 블룸버그 개발자이자 빅데이터 컨설턴트인 마크 리트빈치크는 자신의 블로그 게시물 “하둡은 죽었나?”에서...

2020.06.25

'하둡을 제압한 빅데이터 플랫폼'··· 아파치 스파크란?

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토어를 탐색하면서 작업하기 위해 막대한 컴퓨팅 성능을 모아야 하는 빅데이터와 머신러닝 분야에서 이 2가지 특성은 문을 여는 열쇠라고 할 수 있다. 스파크는 또한 분산 컴퓨팅과 빅데이터 처리의 힘든 작업 대부분을 추상화하는, 사용하기 쉬운 API를 통해 개발자들이 짊어지는 부담을 일부 덜어주는 역할도 한다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 소소하게 시작됐으나 지금은 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나다. 스파크는 다양한 방식으로 배포가 가능하며 자바(Java), 스칼라(Scala), 파이썬(Python), R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하고 SQL, 스트리밍 데이터, 머신러닝, 그래프 프로세싱을 지원한다. 은행, 통신업체, 게임 회사, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 주요 기술 대기업도 모두 아파치 스파크를 사용한다. 아파치 스파크 아키텍처 아파치 스파크의 구성 요소는 크게 드라이버(driver)와 이그제큐터(executor) 2가지다. 드라이버는 사용자의 코드를 여러 작업자 노드로 배분할 수 있는 여러 작업으로 변환하고 이그제큐터는 이런 노드에서 실행되면서 할당된 작업을 실행한다. 그리고 이 둘을 중재하기 위한 클러스터 관리자가 필요하다. 스파크는 기본적으로 클러스터의 각 머신에 JVM과 아파치 스파크 프레임워크만 있으면 되는 독립형 클러스터 코드로 실행이 가능하다. 그러나 작업자를 자동으로 할당하기 위해 더 강력한 리소스 또는 클러스터 관리 시스템을 활용하고자 하는 경우가 많다. 엔터프라이즈에서는 이를 위해 보통 하둡 얀(Hadoop YARN)에서 실행하지만 아파치 메소스(Mesos), 쿠버네티...

아파치 하둡 스파크

2020.03.23

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토어를 탐색하면서 작업하기 위해 막대한 컴퓨팅 성능을 모아야 하는 빅데이터와 머신러닝 분야에서 이 2가지 특성은 문을 여는 열쇠라고 할 수 있다. 스파크는 또한 분산 컴퓨팅과 빅데이터 처리의 힘든 작업 대부분을 추상화하는, 사용하기 쉬운 API를 통해 개발자들이 짊어지는 부담을 일부 덜어주는 역할도 한다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 소소하게 시작됐으나 지금은 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나다. 스파크는 다양한 방식으로 배포가 가능하며 자바(Java), 스칼라(Scala), 파이썬(Python), R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하고 SQL, 스트리밍 데이터, 머신러닝, 그래프 프로세싱을 지원한다. 은행, 통신업체, 게임 회사, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 주요 기술 대기업도 모두 아파치 스파크를 사용한다. 아파치 스파크 아키텍처 아파치 스파크의 구성 요소는 크게 드라이버(driver)와 이그제큐터(executor) 2가지다. 드라이버는 사용자의 코드를 여러 작업자 노드로 배분할 수 있는 여러 작업으로 변환하고 이그제큐터는 이런 노드에서 실행되면서 할당된 작업을 실행한다. 그리고 이 둘을 중재하기 위한 클러스터 관리자가 필요하다. 스파크는 기본적으로 클러스터의 각 머신에 JVM과 아파치 스파크 프레임워크만 있으면 되는 독립형 클러스터 코드로 실행이 가능하다. 그러나 작업자를 자동으로 할당하기 위해 더 강력한 리소스 또는 클러스터 관리 시스템을 활용하고자 하는 경우가 많다. 엔터프라이즈에서는 이를 위해 보통 하둡 얀(Hadoop YARN)에서 실행하지만 아파치 메소스(Mesos), 쿠버네티...

2020.03.23

김진철의 How-to-Big Data | 빅데이터의 미래 (3)

사이버 물리 시스템과 클라우드 컴퓨팅의 관계 지난 서른여섯 번째 글에서 빅데이터를 포함하여 최근 주요 IT 기술 트렌드로 떠오르고 있는 5G, 클라우드 컴퓨팅, 인공지능, IoT, 엣지 컴퓨팅이 발전해 나가는 공통의 지향점으로서 “사이버 물리 시스템(Cyber-Physical System)”이라는 개념을 소개하였다. 이 사이버 물리 시스템의 정의와 특성, 그리고 사이버 물리 시스템에서 빅데이터를 다루는 문제가 왜 부각되어 나오게 되었는지 간단하게 그 배경을 소개하였고, 사이버 물리 시스템이 앞으로 발전해가는 방향을 잘 표현하는 말로서 “인지 사이버 물리 시스템(Cognitive Cyber-Physical System)”의 개념을 같이 살펴보았다. 이번 글에서는 최근 다시 중요한 기술로 부각되고 있는 클라우드 컴퓨팅이 사이버 물리 시스템에서 왜 중요한 기술이 되는지 같이 생각해보려고 한다. 서버리스 컴퓨팅과 클라우드 네이티브 프로그래밍이 최근 유행하면서 빅데이터 응용 소프트웨어 개발과 분석도 클라우드 컴퓨팅으로 많이 옮겨가는 추세지만, 클라우드 컴퓨팅 발전 초기에는 빅데이터 처리용 고성능 컴퓨팅 시스템에 베어메탈 하둡이나 스파크를 구축해서 빅데이터 처리를 하는 기업이나 조직이 많았지 클라우드 컴퓨팅을 빅데이터에 활용하는 기업이 생각보다 많지 않았다. 클라우드 컴퓨팅의 개념이 정립되어가던 2000년대 말부터 2010년대 중반까지 클라우드 컴퓨팅 발전 초반에는 컴퓨팅 자원 사용의 주문형 서비스화, 투자비(CapEx)가 아닌 운영비(OpEx)로의 IT 비용 전환을 통한 비용 절감의 측면에서 클라우드 컴퓨팅을 강조하는 경향이 많았다. 심지어 클라우드 컴퓨팅의 초창기에는, 현재는 대표적인 빅데이터 기술로 불리는 구글의 맵리듀스 기술을 클라우드 컴퓨팅의 대표적인 기술로 꼽는 사람들도 있었다. 클라우드 컴퓨팅 발전 초반에는 자원 활용의 탄력성(elasticity)이 크게 강조되지 않거나 서비스 지향(service-oriented) 유틸리티 컴퓨팅(Utility compu...

CIO NFV 스파크 네트워크 기능 가상화 김진철 엣지 컴퓨팅 OI Autonomic Computing extended perception Network Function Virtualization Operation Intelligence 사이버 물리 시스템 운영 지능 자율 컴퓨팅 사물인터넷 정부통합전산센터 빅데이터 아마존 IBM 마이크로소프트 AWS 애저 오픈스택 데이터 과학자 하둡 인공지능 5G 아마존 웹 서비스 베어메탈 확장된 인지

2020.01.28

사이버 물리 시스템과 클라우드 컴퓨팅의 관계 지난 서른여섯 번째 글에서 빅데이터를 포함하여 최근 주요 IT 기술 트렌드로 떠오르고 있는 5G, 클라우드 컴퓨팅, 인공지능, IoT, 엣지 컴퓨팅이 발전해 나가는 공통의 지향점으로서 “사이버 물리 시스템(Cyber-Physical System)”이라는 개념을 소개하였다. 이 사이버 물리 시스템의 정의와 특성, 그리고 사이버 물리 시스템에서 빅데이터를 다루는 문제가 왜 부각되어 나오게 되었는지 간단하게 그 배경을 소개하였고, 사이버 물리 시스템이 앞으로 발전해가는 방향을 잘 표현하는 말로서 “인지 사이버 물리 시스템(Cognitive Cyber-Physical System)”의 개념을 같이 살펴보았다. 이번 글에서는 최근 다시 중요한 기술로 부각되고 있는 클라우드 컴퓨팅이 사이버 물리 시스템에서 왜 중요한 기술이 되는지 같이 생각해보려고 한다. 서버리스 컴퓨팅과 클라우드 네이티브 프로그래밍이 최근 유행하면서 빅데이터 응용 소프트웨어 개발과 분석도 클라우드 컴퓨팅으로 많이 옮겨가는 추세지만, 클라우드 컴퓨팅 발전 초기에는 빅데이터 처리용 고성능 컴퓨팅 시스템에 베어메탈 하둡이나 스파크를 구축해서 빅데이터 처리를 하는 기업이나 조직이 많았지 클라우드 컴퓨팅을 빅데이터에 활용하는 기업이 생각보다 많지 않았다. 클라우드 컴퓨팅의 개념이 정립되어가던 2000년대 말부터 2010년대 중반까지 클라우드 컴퓨팅 발전 초반에는 컴퓨팅 자원 사용의 주문형 서비스화, 투자비(CapEx)가 아닌 운영비(OpEx)로의 IT 비용 전환을 통한 비용 절감의 측면에서 클라우드 컴퓨팅을 강조하는 경향이 많았다. 심지어 클라우드 컴퓨팅의 초창기에는, 현재는 대표적인 빅데이터 기술로 불리는 구글의 맵리듀스 기술을 클라우드 컴퓨팅의 대표적인 기술로 꼽는 사람들도 있었다. 클라우드 컴퓨팅 발전 초반에는 자원 활용의 탄력성(elasticity)이 크게 강조되지 않거나 서비스 지향(service-oriented) 유틸리티 컴퓨팅(Utility compu...

2020.01.28

최고의 데이터 관리 숙제는 '보안' <451 리서치>

451 리서치가 데이터 관리 전문가를 대상으로 한 조사에 따르면, 데이터양이 늘어나면서 보안이 가장 큰 골칫거리가 됐다.    기업들은 점점 더 많은 양의 데이터를 수집하고 분석해 서비스와 의사 결정을 개선하고 있다. 그러나 새로운 조사에 따르면 조직 내부의 데이터 관리 자동화에는 여러 가지 문제가 있으며 그 가운데 보안은 가장 중요한 문제로 간주됐다. 데이터옵스(DataOps)라고도 하는 데이터 관리 자동화는 데이터의 수집, 저장, 접근, 분석을 단순화하여 민첩하고 데이터 중심의 비즈니스 의사 결정과 제품 개발을 가능하게 하는 여러 기술과 프로세스의 사용을 뜻한다. 문제는 보안을 고려한 전략을 수립하지 않으면 재무적 손실을 초래하고 명성에 부정적인 영향을 줄 수 있는 심각한 데이터 유출 사고가 발생할 위험이 있다는 데 있다. 지난 수년 동안 많은 대기업은 해킹이 아니라 아마존 S3 버킷, 엘라스틱서치 노드, 몽고DB 데이터베이스, 하둡 배포 등 다양한 데이터 관련 기술을 보호하지 못한 탓에 데이터 유출을 경험했다. 최근 발표된 451 리서치 조사에 따르면 응답자의 2/3는 데이터 관리와 관련하여 보안과 규정 준수를 가장 큰 과제로 꼽았다. 그다음은 데이터 품질, 분산 데이터 관리, 내부 데이터 접근, 데이터 파이프라인 신뢰성과 관련된 문제가 지목됐다. 데이터 프라이버시 관련 컴플라이언스 요건 이해도 응답자의 40%가 지목한 해결 과제였다. 이 설문조사에는 임직원 수 1,000명 이상으로 최소 2페타바이트의 관리 데이터를 보유하고 있으며 조직의 데이터 관리 전략을 잘 이해하고 있는 미국 기반 조직에 속한 150명이 참여했다. 또한 이들은 은행, 의료, 기술, 제조, 소매업, 정부, 보험, 통신 등 다양한 산업에 속해 있다. 응답자의 약 1/5은 데이터옵스가 이미 기업 문화로 자리잡았다고 생각했고, 37%는 다양한 부서에서 데이터옵스를 수용하는 과정에 있으며, 34%는 데이터옵스 전략을 정립하고 있다고 밝혔다.  데이터가 ...

CSO DataOps 데이터옵스 451 리서치 스파크 몽고DB 하둡 아파치 데이터베이스 설문조사 데이터 관리 자동화

2019.02.08

451 리서치가 데이터 관리 전문가를 대상으로 한 조사에 따르면, 데이터양이 늘어나면서 보안이 가장 큰 골칫거리가 됐다.    기업들은 점점 더 많은 양의 데이터를 수집하고 분석해 서비스와 의사 결정을 개선하고 있다. 그러나 새로운 조사에 따르면 조직 내부의 데이터 관리 자동화에는 여러 가지 문제가 있으며 그 가운데 보안은 가장 중요한 문제로 간주됐다. 데이터옵스(DataOps)라고도 하는 데이터 관리 자동화는 데이터의 수집, 저장, 접근, 분석을 단순화하여 민첩하고 데이터 중심의 비즈니스 의사 결정과 제품 개발을 가능하게 하는 여러 기술과 프로세스의 사용을 뜻한다. 문제는 보안을 고려한 전략을 수립하지 않으면 재무적 손실을 초래하고 명성에 부정적인 영향을 줄 수 있는 심각한 데이터 유출 사고가 발생할 위험이 있다는 데 있다. 지난 수년 동안 많은 대기업은 해킹이 아니라 아마존 S3 버킷, 엘라스틱서치 노드, 몽고DB 데이터베이스, 하둡 배포 등 다양한 데이터 관련 기술을 보호하지 못한 탓에 데이터 유출을 경험했다. 최근 발표된 451 리서치 조사에 따르면 응답자의 2/3는 데이터 관리와 관련하여 보안과 규정 준수를 가장 큰 과제로 꼽았다. 그다음은 데이터 품질, 분산 데이터 관리, 내부 데이터 접근, 데이터 파이프라인 신뢰성과 관련된 문제가 지목됐다. 데이터 프라이버시 관련 컴플라이언스 요건 이해도 응답자의 40%가 지목한 해결 과제였다. 이 설문조사에는 임직원 수 1,000명 이상으로 최소 2페타바이트의 관리 데이터를 보유하고 있으며 조직의 데이터 관리 전략을 잘 이해하고 있는 미국 기반 조직에 속한 150명이 참여했다. 또한 이들은 은행, 의료, 기술, 제조, 소매업, 정부, 보험, 통신 등 다양한 산업에 속해 있다. 응답자의 약 1/5은 데이터옵스가 이미 기업 문화로 자리잡았다고 생각했고, 37%는 다양한 부서에서 데이터옵스를 수용하는 과정에 있으며, 34%는 데이터옵스 전략을 정립하고 있다고 밝혔다.  데이터가 ...

2019.02.08

화웨이, 뉴질랜드 정부의 금지 조처에 해명 요구

뉴질랜드 정부가 화웨이 5G 장비의 선정을 차단한 가운데, 화웨이가 해명을 요구하고 있다. 뉴질랜드 정부 통신보안국(GCSB)는 국가 안보를 이유로 통신사 스파크(Spark)의 화웨이 5G 장비 배치를 중단시켰다. 화웨이 뉴질랜드의 앤드류 보우워터 디렉터는 "지금가지 GCSB로부터 공식 통지 또는 연락을 받지 못했다. 그러나 정부측이 발표한 바와 같이 아직 진행 중인 과정이다. 화웨이는 앞으로 나아갈 방향을 모색하기 위해 함께 노력할 수 있는 기회를 환영한다"라고 밝혔다.  보우워터는 이어 지금까지 GCSB와 관계자들은 화웨이와 별도로 교류하지 않았다고 전했다.  그는 화웨이가 2005년 뉴질랜드에 지사를 설립한 이래 뉴질랜드의 경제, 비즈니스, 소비자들에게 기여해왔다고 강조하며 "경쟁이 사라지면 기술 및 가격 측면에서 뉴질랜드 소비자들에게 미치는 영향이 가장 클 것"이라고 강조했다.  보우워터에 따르면 뉴질랜드 통신사 스파크는 지난 3월 실내 5G 실험에서 18.23Gbps 속도를 달성했다. 그는 다른 통신사들의 경우 같은 시기에 1Gbps 속도를 달성하는데 그쳤다고 덧붙였다. ciokr@idg.co.kr

뉴질랜드 화웨이 5G 스파크

2018.11.30

뉴질랜드 정부가 화웨이 5G 장비의 선정을 차단한 가운데, 화웨이가 해명을 요구하고 있다. 뉴질랜드 정부 통신보안국(GCSB)는 국가 안보를 이유로 통신사 스파크(Spark)의 화웨이 5G 장비 배치를 중단시켰다. 화웨이 뉴질랜드의 앤드류 보우워터 디렉터는 "지금가지 GCSB로부터 공식 통지 또는 연락을 받지 못했다. 그러나 정부측이 발표한 바와 같이 아직 진행 중인 과정이다. 화웨이는 앞으로 나아갈 방향을 모색하기 위해 함께 노력할 수 있는 기회를 환영한다"라고 밝혔다.  보우워터는 이어 지금까지 GCSB와 관계자들은 화웨이와 별도로 교류하지 않았다고 전했다.  그는 화웨이가 2005년 뉴질랜드에 지사를 설립한 이래 뉴질랜드의 경제, 비즈니스, 소비자들에게 기여해왔다고 강조하며 "경쟁이 사라지면 기술 및 가격 측면에서 뉴질랜드 소비자들에게 미치는 영향이 가장 클 것"이라고 강조했다.  보우워터에 따르면 뉴질랜드 통신사 스파크는 지난 3월 실내 5G 실험에서 18.23Gbps 속도를 달성했다. 그는 다른 통신사들의 경우 같은 시기에 1Gbps 속도를 달성하는데 그쳤다고 덧붙였다. ciokr@idg.co.kr

2018.11.30

'슬랙'말곤 없을까? 쓸만한 메시징 SW 8선

기술이 발전하면서 점점 더 많은 조직이 협업 툴에 익숙해졌으며 직원들끼리 안전한 인스턴트 메시징 툴을 사용하게 됐다. 이러한 도구는 사무실 내외부에서 팀이 신속하게 커뮤니케이션할 수 있을 뿐만 아니라 이동 중에도 파일과 정보를 신속하게 공유할 수 있게 해준다. 슬랙은 매우 인기 있는 협업 툴이다. 하지만 슬랙만 있는 것은 아니다. 여기 슬랙 대신 쓸만한 협업 툴을 소개한다. 1. 세일즈포스 채터 세일즈포스 채터는 클라우드 기반 엔터프라이즈 커뮤니케이션 플랫폼이다. 직원 인트라넷 또는 디렉토리로 작동하도록 설계돼 직원들이 회사 뉴스를 쉽게 게시하고 이동 중에도 동료와 커뮤니케이션할 수 있다. 또한 직원들이 솔루션과 모범 사례를 팀 구성원과 공유할 수 있도록 온라인 공동 작업 도구를 통합하는 소셜 네트워킹 기능도 포함되어 있다. 글로벌 팀, 부서, 다양한 위치에서 접근할 수 있다. 이 툴은 세일즈포스의 CRM 플랫폼에 연결해 고객으로부터 실시간 피드백을 수집하기 위해 간단한 설문조사 등 고객 참여 기능에도 사용될 수도 있다. 세일즈포스 채터는 윈도우 10 기기에서 사용할 수 있는 데스크톱 애플리케이션이다. 사용자당 15달러며, 30일간 평가판으로 사용해 볼 수 있다. 2. 시스코 웹엑스 팀 시스코 웹엑스 팀(Webex Teams)은 보안 메시징, 파일 공유, 화상 회의, 회의 통화, 팀 공동 작업 등을 제공하는 엔터프라이즈 애플리케이션이다. 모든 기기에서 사용할 수 있는 웹엑스 팀은 문서와 정보를 안전하게 공유할 수 있는 기능을 통해 앱에서 직접 회의를 개최할 수 있으므로 직원 만족도를 높이기 위해 만들어졌다. 또한 그룹 및 직접적인 인스턴트 메시징 기능을 제공하므로 직원들이 중요 메시지를 확인하고 정시에 응답할 수 있다. 직원들이 프레젠테이션보다 먼저 다이어그램을 스케치하고 동료와 공유할 수 있게 해주는 화이트보드 기능이 포함되어 있다. 웹엑스 팀은 구글 드라이브, 트렐로, 트위터...

협업 조호 채터 클릭 스파크 메시징 슬랙 팀스 웹엑스 팀 행아웃 인공지능 구글 세일즈포스 IBM 마이크로소프트 왓슨 스카이프 시스코 오피스 365 왓슨 웍스페이스

2018.11.14

기술이 발전하면서 점점 더 많은 조직이 협업 툴에 익숙해졌으며 직원들끼리 안전한 인스턴트 메시징 툴을 사용하게 됐다. 이러한 도구는 사무실 내외부에서 팀이 신속하게 커뮤니케이션할 수 있을 뿐만 아니라 이동 중에도 파일과 정보를 신속하게 공유할 수 있게 해준다. 슬랙은 매우 인기 있는 협업 툴이다. 하지만 슬랙만 있는 것은 아니다. 여기 슬랙 대신 쓸만한 협업 툴을 소개한다. 1. 세일즈포스 채터 세일즈포스 채터는 클라우드 기반 엔터프라이즈 커뮤니케이션 플랫폼이다. 직원 인트라넷 또는 디렉토리로 작동하도록 설계돼 직원들이 회사 뉴스를 쉽게 게시하고 이동 중에도 동료와 커뮤니케이션할 수 있다. 또한 직원들이 솔루션과 모범 사례를 팀 구성원과 공유할 수 있도록 온라인 공동 작업 도구를 통합하는 소셜 네트워킹 기능도 포함되어 있다. 글로벌 팀, 부서, 다양한 위치에서 접근할 수 있다. 이 툴은 세일즈포스의 CRM 플랫폼에 연결해 고객으로부터 실시간 피드백을 수집하기 위해 간단한 설문조사 등 고객 참여 기능에도 사용될 수도 있다. 세일즈포스 채터는 윈도우 10 기기에서 사용할 수 있는 데스크톱 애플리케이션이다. 사용자당 15달러며, 30일간 평가판으로 사용해 볼 수 있다. 2. 시스코 웹엑스 팀 시스코 웹엑스 팀(Webex Teams)은 보안 메시징, 파일 공유, 화상 회의, 회의 통화, 팀 공동 작업 등을 제공하는 엔터프라이즈 애플리케이션이다. 모든 기기에서 사용할 수 있는 웹엑스 팀은 문서와 정보를 안전하게 공유할 수 있는 기능을 통해 앱에서 직접 회의를 개최할 수 있으므로 직원 만족도를 높이기 위해 만들어졌다. 또한 그룹 및 직접적인 인스턴트 메시징 기능을 제공하므로 직원들이 중요 메시지를 확인하고 정시에 응답할 수 있다. 직원들이 프레젠테이션보다 먼저 다이어그램을 스케치하고 동료와 공유할 수 있게 해주는 화이트보드 기능이 포함되어 있다. 웹엑스 팀은 구글 드라이브, 트렐로, 트위터...

2018.11.14

“데이터센터의 열로 지역 난방”··· 새로운 접근법 '눈길'

노르웨이의 한 작은 마을이 새 데이터센터에서 발생하는 열을 가정과 사무실 난방에 사용하는 실험을 진행하고 있다. 모든 데이터센터 관리자가 현대적인 데이터센터를 운영하는 데 있어서 발열을 처리하는 것이 가장 중요하고 가장 값비싼 요소라는 것을 알고 있다. 지난 수십 년 동안 엔지니어들이 이 문제를 해소할 새로운 방법을 찾아 헤맸는데, 이제 노르웨이가 이 문제를 비용 절감과 에너지 소비 감축, 기후 변화 대처의 기회로 바꿀 새로운 마을을 세우고 있다. 패스트 컴퍼니(Fast Company)의 보도에 따르면, 노르웨이의 베르겐 근처에 현재 건축 중인 라이스파켄이란 마을은 동네 중심부에 자리하는 새 데이터센터에서 발생하는 열을 사용해 약 6만 곱미터 면적의 기업 및 사무 공간을 난방하는 데 사용할 계획이다. 궁극적으로는 5,000여 가정의 난방에도 사용한다. 동작 방식은 다음과 같다. 라이스파켄의 새 데이터센터 설계서 팬이나 수랭시스템 대신 열을 사무동과 연결된 지역 난방 시스템으로 보내 마루를 통해 건물을 덥힌다. 물은 전달 과정에서 열이 손실되기 때문에 가장 많은 난방이 필요한 건물은 데이터센터에 가장 가까이 지어야 한다. 물이 충분히 식으면 다시 되돌려 보내 데이터센터를 식히는 데 사용한다. 그리고 뜨거워진 물은 다시 지역 난방 시스템으로 보내는 과정이 반복된다. 스파크(Spark)라고 불리는 이 접근법이 라이스파켄과 같은 시험 사례를 넘어 적용되기 위해서는 물론 해결해야 할 문제가 적지 않다. 대표적인 것이 추가 배관을 건설하고 운영하는 것이 무료가 아니라는 것, 이 개념의 경제성은 건설 비용과 유동적인 에너지 가격 간의 신중한 균형에 따라 달라질 가능성이 크다. 스파크는 건축회사인 스뇌헤따, 스칸스카, 아스플란 비아크, 그리고 노키아가 합자한 회사인 MIRIS가 개발했다. 스파크는 우선 도심의 데이터센터가 초과열을 이용하고자 하는 건물과 최대한 가까이 지어야 한다. 도시에서 이런 입지 조건은 건설 비용이 많이 들뿐만 아...

냉각 스웨덴 건축 재생에너지 스파크 난방 MIRIS 열발전

2018.08.29

노르웨이의 한 작은 마을이 새 데이터센터에서 발생하는 열을 가정과 사무실 난방에 사용하는 실험을 진행하고 있다. 모든 데이터센터 관리자가 현대적인 데이터센터를 운영하는 데 있어서 발열을 처리하는 것이 가장 중요하고 가장 값비싼 요소라는 것을 알고 있다. 지난 수십 년 동안 엔지니어들이 이 문제를 해소할 새로운 방법을 찾아 헤맸는데, 이제 노르웨이가 이 문제를 비용 절감과 에너지 소비 감축, 기후 변화 대처의 기회로 바꿀 새로운 마을을 세우고 있다. 패스트 컴퍼니(Fast Company)의 보도에 따르면, 노르웨이의 베르겐 근처에 현재 건축 중인 라이스파켄이란 마을은 동네 중심부에 자리하는 새 데이터센터에서 발생하는 열을 사용해 약 6만 곱미터 면적의 기업 및 사무 공간을 난방하는 데 사용할 계획이다. 궁극적으로는 5,000여 가정의 난방에도 사용한다. 동작 방식은 다음과 같다. 라이스파켄의 새 데이터센터 설계서 팬이나 수랭시스템 대신 열을 사무동과 연결된 지역 난방 시스템으로 보내 마루를 통해 건물을 덥힌다. 물은 전달 과정에서 열이 손실되기 때문에 가장 많은 난방이 필요한 건물은 데이터센터에 가장 가까이 지어야 한다. 물이 충분히 식으면 다시 되돌려 보내 데이터센터를 식히는 데 사용한다. 그리고 뜨거워진 물은 다시 지역 난방 시스템으로 보내는 과정이 반복된다. 스파크(Spark)라고 불리는 이 접근법이 라이스파켄과 같은 시험 사례를 넘어 적용되기 위해서는 물론 해결해야 할 문제가 적지 않다. 대표적인 것이 추가 배관을 건설하고 운영하는 것이 무료가 아니라는 것, 이 개념의 경제성은 건설 비용과 유동적인 에너지 가격 간의 신중한 균형에 따라 달라질 가능성이 크다. 스파크는 건축회사인 스뇌헤따, 스칸스카, 아스플란 비아크, 그리고 노키아가 합자한 회사인 MIRIS가 개발했다. 스파크는 우선 도심의 데이터센터가 초과열을 이용하고자 하는 건물과 최대한 가까이 지어야 한다. 도시에서 이런 입지 조건은 건설 비용이 많이 들뿐만 아...

2018.08.29

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

LHC 실험 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터 LHC 실험에서 사용되는 데이터 가시화 방법을 같이 살펴보면서 빅데이터를 활용할 때 데이터 가시화와 큐레이션이 왜 중요한지 같이 생각해보자. 먼저, 데이터 가시화와 큐레이션이 무엇이고 어떤 차이가 있는지 같이 생각해보자. 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다. 가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다. LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 ...

CIO Veracity Variety Velocity Volume 4V 3V LHC 컴퓨팅 그리드 김진철 큐레이션 구글 어스 스파크 데이터 시각화 하둡 데이터 과학자 인메모리 빅데이터 데이터 가시화

2018.06.27

LHC 실험 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터 LHC 실험에서 사용되는 데이터 가시화 방법을 같이 살펴보면서 빅데이터를 활용할 때 데이터 가시화와 큐레이션이 왜 중요한지 같이 생각해보자. 먼저, 데이터 가시화와 큐레이션이 무엇이고 어떤 차이가 있는지 같이 생각해보자. 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다. 가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다. LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 ...

2018.06.27

스파크 2.0 버전 출시··· 이메일 공유, 공동작업, 채팅, 캘린더 지원

아이폰, 아이패드, 맥용 이메일 앱 서비스인 스파크(Spark)가 다양한 공동작업 기능을 추가한 스파크 2.0 버전을 선보였다. 스파크 2.0은 문서와 첨부 파일을 주고받던 기존의 이메일 기능에서 팀 작업의 효율을 향상할 수 있도록 ‘팀을 위한 스파크(Spark for Teams)’를 제공한다고 밝혔다. 이번에 선보인 주요 기능은 비공개 이메일 토론, 공동 이메일 작성, 이메일 링크 생성, 캘린더 기능 내장 네 가지다. 비공개 이메일 토론은 메일에 채팅 기능을 도입한 것으로, 수신된 메일을 보며 협의가 필요한 내용이 있으면 담당 직원을 초대해 채팅 방식으로 의견으로 교환할 수 있는 기능이다. 기존의 메일 서비스를 이용하고 있다면, 확인할 사항이 있을 때 회신과 답변을 여러 번 주고받거나 전화 통화를 해야 할 것이다. 하지만 이메일 토론 기능을 이용하면 관련자들이 원본 메일에 의견이나 부가적인 내용을 즉시 첨부하고 이를 확인할 수 있다. 메일 내용을 보면서 관련자들과 토론 형태로 의견을 교환할 수 있는 스파크 2.0의 비공개 이메일 토론(출처:스파크 블로그) 공동 이메일 작성 기능은 문자 그대로 여러 명이 동시에 메일을 작성할 수 있도록 해 주는 기능이다. 함께 이메일을 작성할 직원이나 동료를 메일 작성 화면으로 초대한 후, 오른쪽 창에 열리는 채팅창을 통해 의견을 교환해 가면서, 참여자가 동시에 이메일을 작성할 수 있는 기능이다. 공동 메일에 작성에 참여 중인 사람들은 화면 상단에 사진과 함께 표시되고, 이메일을 작성할 때는 작성자의 이름이 표시된다. 이메일 링크 만들기는 메일 내용이나 해당 메일에서 이루어진 대화 내용을 안전하게 공유할 수 있도록 해주는 기능이다. 관련 부서나 업체, 고객 등 메일 내용을 공유해야 할 경우 링크 아이콘을 누르면 간단하게 공유할 메일 주소를 생성할 수 있다. 이러한 방법으로 지라(Jira), 컨플루언스(Confluence), 세일즈포스(Salesforce), 허브스팟(Hubspot)...

협업 이메일 캘린더 스파크 채팅 스파크 2.0 공동작업

2018.05.23

아이폰, 아이패드, 맥용 이메일 앱 서비스인 스파크(Spark)가 다양한 공동작업 기능을 추가한 스파크 2.0 버전을 선보였다. 스파크 2.0은 문서와 첨부 파일을 주고받던 기존의 이메일 기능에서 팀 작업의 효율을 향상할 수 있도록 ‘팀을 위한 스파크(Spark for Teams)’를 제공한다고 밝혔다. 이번에 선보인 주요 기능은 비공개 이메일 토론, 공동 이메일 작성, 이메일 링크 생성, 캘린더 기능 내장 네 가지다. 비공개 이메일 토론은 메일에 채팅 기능을 도입한 것으로, 수신된 메일을 보며 협의가 필요한 내용이 있으면 담당 직원을 초대해 채팅 방식으로 의견으로 교환할 수 있는 기능이다. 기존의 메일 서비스를 이용하고 있다면, 확인할 사항이 있을 때 회신과 답변을 여러 번 주고받거나 전화 통화를 해야 할 것이다. 하지만 이메일 토론 기능을 이용하면 관련자들이 원본 메일에 의견이나 부가적인 내용을 즉시 첨부하고 이를 확인할 수 있다. 메일 내용을 보면서 관련자들과 토론 형태로 의견을 교환할 수 있는 스파크 2.0의 비공개 이메일 토론(출처:스파크 블로그) 공동 이메일 작성 기능은 문자 그대로 여러 명이 동시에 메일을 작성할 수 있도록 해 주는 기능이다. 함께 이메일을 작성할 직원이나 동료를 메일 작성 화면으로 초대한 후, 오른쪽 창에 열리는 채팅창을 통해 의견을 교환해 가면서, 참여자가 동시에 이메일을 작성할 수 있는 기능이다. 공동 메일에 작성에 참여 중인 사람들은 화면 상단에 사진과 함께 표시되고, 이메일을 작성할 때는 작성자의 이름이 표시된다. 이메일 링크 만들기는 메일 내용이나 해당 메일에서 이루어진 대화 내용을 안전하게 공유할 수 있도록 해주는 기능이다. 관련 부서나 업체, 고객 등 메일 내용을 공유해야 할 경우 링크 아이콘을 누르면 간단하게 공유할 메일 주소를 생성할 수 있다. 이러한 방법으로 지라(Jira), 컨플루언스(Confluence), 세일즈포스(Salesforce), 허브스팟(Hubspot)...

2018.05.23

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (3)

LHC 실험의 데이터 그리드 요구 사항 LHC 컴퓨팅 그리드(LHC Computing Grid)를 구축하면서 해결해야 했던 중요한 문제 중 하나는 LHC 데이터 분석 작업을 기관별로 분담한 분석 대상 이벤트에 맞게 각 기관의 그리드 컴퓨팅 자원으로 스케줄링하는 문제와 함께, 컴퓨팅 노드에 스케줄링되어 실행되는 분석 작업들이 분석할 데이터에 어떻게 접근하고 사용하느냐는 것이었다. 어느 그리드 사이트에서도 데이터 접근이 가능하게끔 데이터를 저장, 관리하기 위해 LHC 컴퓨팅 그리드의 데이터 그리드 시스템이 해결해야 했던 기술적인 문제는 다음과 같다. 첫번째로, 컴퓨팅 노드가 전 세계의 고에너지 물리 연구소 데이터센터에 분산되어 있듯이, 실험 데이터를 저장하기 위한 저장 장치 자원도 전 세계의 데이터센터에 분산되어 있고, LHC 컴퓨팅 그리드의 계층적 계산 모델에 따라 저장 장치 자원들도 전세계적인 스케일로 계층화되어 있다는 것이었다. LHC 컴퓨팅 그리드가 전 지구적으로 자원이 계층적으로 분산되어 있는 시스템이었기 때문에 스토리지도 자연스럽게 계층화될 수밖에 없었다. 이 스토리지 자원 계층화는 CERN에 모든 실험 데이터를 저장해두고 분석할 수 없는 문제 때문이기도 했지만, 여러 공동 연구 기관이 동시에 데이터 분석 작업을 하려다 보니 생기는 문제이기도 했다. LHC 컴퓨팅 그리드 구축 당시의 네트워크 기술이, 대륙을 넘나드는 원거리 지역의 데이터를 가지고 계산을 효과적으로 하기에는 WAN의 대역폭(bandwidth)과 지연(latency) 제약이 컸기 때문에 분석하려는 데이터를 미리 분석하려는 컴퓨팅 그리드 자원 근처로 옮겨 놓을 수밖에 없었기 때문이다. 데이터 분석 작업이 분석할 데이터가 작업이 실행되는 기관의 스토리지 자원에 전송되어 있어야 하는 데이터 지역성(data locality)을 확보해야 했다. LHC 컴퓨팅 그리드의 저장 장치 자원 티어링(tiering)은 이렇게 그리드 사이트 수준의 계층화뿐만 아니라, 각 데이터센터 내의...

CIO 핫 데이터 LHC 컴퓨팅 그리드 김진철 옴니패스 콜드 데이터 스파크 더 머신 삼성전자 넷앱 하둡 데이터 과학자 EMC 오픈스택 IBM HP 빅데이터 인텔 세프

2018.05.23

LHC 실험의 데이터 그리드 요구 사항 LHC 컴퓨팅 그리드(LHC Computing Grid)를 구축하면서 해결해야 했던 중요한 문제 중 하나는 LHC 데이터 분석 작업을 기관별로 분담한 분석 대상 이벤트에 맞게 각 기관의 그리드 컴퓨팅 자원으로 스케줄링하는 문제와 함께, 컴퓨팅 노드에 스케줄링되어 실행되는 분석 작업들이 분석할 데이터에 어떻게 접근하고 사용하느냐는 것이었다. 어느 그리드 사이트에서도 데이터 접근이 가능하게끔 데이터를 저장, 관리하기 위해 LHC 컴퓨팅 그리드의 데이터 그리드 시스템이 해결해야 했던 기술적인 문제는 다음과 같다. 첫번째로, 컴퓨팅 노드가 전 세계의 고에너지 물리 연구소 데이터센터에 분산되어 있듯이, 실험 데이터를 저장하기 위한 저장 장치 자원도 전 세계의 데이터센터에 분산되어 있고, LHC 컴퓨팅 그리드의 계층적 계산 모델에 따라 저장 장치 자원들도 전세계적인 스케일로 계층화되어 있다는 것이었다. LHC 컴퓨팅 그리드가 전 지구적으로 자원이 계층적으로 분산되어 있는 시스템이었기 때문에 스토리지도 자연스럽게 계층화될 수밖에 없었다. 이 스토리지 자원 계층화는 CERN에 모든 실험 데이터를 저장해두고 분석할 수 없는 문제 때문이기도 했지만, 여러 공동 연구 기관이 동시에 데이터 분석 작업을 하려다 보니 생기는 문제이기도 했다. LHC 컴퓨팅 그리드 구축 당시의 네트워크 기술이, 대륙을 넘나드는 원거리 지역의 데이터를 가지고 계산을 효과적으로 하기에는 WAN의 대역폭(bandwidth)과 지연(latency) 제약이 컸기 때문에 분석하려는 데이터를 미리 분석하려는 컴퓨팅 그리드 자원 근처로 옮겨 놓을 수밖에 없었기 때문이다. 데이터 분석 작업이 분석할 데이터가 작업이 실행되는 기관의 스토리지 자원에 전송되어 있어야 하는 데이터 지역성(data locality)을 확보해야 했다. LHC 컴퓨팅 그리드의 저장 장치 자원 티어링(tiering)은 이렇게 그리드 사이트 수준의 계층화뿐만 아니라, 각 데이터센터 내의...

2018.05.23

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5