Offcanvas

��������� ���������

김진철의 How-to-Big Data | 빅데이터의 미래 (13)

지난 서른다섯 번째 글에서 빅데이터 현상이 왜 일어나는지 같이 생각해본 바 있다. 빅데이터 현상은 사실 컴퓨터의 컴퓨팅 능력의 한계가 데이터 처리의 수요와 요구사항을 따라잡지 못하기 때문에 나타나는 현상이며, 결국 컴퓨터 기술 발전의 역사는 빅데이터 문제를 극복하는 과정의 역사라고 볼 수 있다고 설명하였다. 최근의 빅데이터 붐을 일으킨 것은 아파치 하둡(Apache Hadoop)으로 대표되는 빅데이터 병렬 처리 소프트웨어 기술들이 중심이기는 했지만, 사실 빅데이터 비즈니스에 관련된 기술과 비즈니스 요소들은 생각보다 광범위하고 다양하다는 것도 지금까지 How-to-Big Data 시리즈를 통해서 설명해왔다. 지난 서른여섯 번째 글에서 빅데이터 트렌드의 미래로서 사이버 물리 시스템(Cyber-Physical System)으로 표현할 수 있는 지능형 인프라와 서비스를 제시하였고, 이 사이버 물리 시스템을 구성하는 다양한 기술들의 역할과 미래의 가능성에 대해 지금까지 열두 편의 글을 통해 소개하였다.    그렇지만 지금까지 사이버 물리 시스템과 클라우드 컴퓨팅, 5G를 비롯한 미래 통신 기술과 사물인터넷(IoT), 인공지능 기술과의 관계를 살펴보는 과정에서 정작 좁은 의미의 빅데이터 기술과 사이버 물리 시스템의 관계에 대해서는 깊게 언급하지 않았다. 이번 글에서는 사이버 물리 시스템을 위한 빅데이터 소프트웨어 기술이 어떻게 발전하게 될지 같이 생각해보았으면 한다. 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 기술로 어떤 기술이 나타날 것인지 예측하지는 못하겠지만 이들 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 빅데이터 기술이 어떤 기술과 트렌드의 영향을 받아 변화할 수 있을 것인지는 간단하게 살펴볼 수 있다. 이런 관점에서 빅데이터 소프트웨어 기술의 발전에 직접적인 영향을 줄 수 있는 주요 트렌드가 빅데이터 소프트웨어 기술에 어떤 변화를 줄...

김진철 빅데이터 아파치 하둡 사이버 물리 시스템 지능형 인프라 사물인터넷 인공지능 아파치 스파크 메모리 클라우드 네이티브 프로그래밍 양자 컴퓨팅 데이터 과학 함수형 프로그래밍

2020.11.27

지난 서른다섯 번째 글에서 빅데이터 현상이 왜 일어나는지 같이 생각해본 바 있다. 빅데이터 현상은 사실 컴퓨터의 컴퓨팅 능력의 한계가 데이터 처리의 수요와 요구사항을 따라잡지 못하기 때문에 나타나는 현상이며, 결국 컴퓨터 기술 발전의 역사는 빅데이터 문제를 극복하는 과정의 역사라고 볼 수 있다고 설명하였다. 최근의 빅데이터 붐을 일으킨 것은 아파치 하둡(Apache Hadoop)으로 대표되는 빅데이터 병렬 처리 소프트웨어 기술들이 중심이기는 했지만, 사실 빅데이터 비즈니스에 관련된 기술과 비즈니스 요소들은 생각보다 광범위하고 다양하다는 것도 지금까지 How-to-Big Data 시리즈를 통해서 설명해왔다. 지난 서른여섯 번째 글에서 빅데이터 트렌드의 미래로서 사이버 물리 시스템(Cyber-Physical System)으로 표현할 수 있는 지능형 인프라와 서비스를 제시하였고, 이 사이버 물리 시스템을 구성하는 다양한 기술들의 역할과 미래의 가능성에 대해 지금까지 열두 편의 글을 통해 소개하였다.    그렇지만 지금까지 사이버 물리 시스템과 클라우드 컴퓨팅, 5G를 비롯한 미래 통신 기술과 사물인터넷(IoT), 인공지능 기술과의 관계를 살펴보는 과정에서 정작 좁은 의미의 빅데이터 기술과 사이버 물리 시스템의 관계에 대해서는 깊게 언급하지 않았다. 이번 글에서는 사이버 물리 시스템을 위한 빅데이터 소프트웨어 기술이 어떻게 발전하게 될지 같이 생각해보았으면 한다. 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 기술로 어떤 기술이 나타날 것인지 예측하지는 못하겠지만 이들 아파치 하둡(Apache Hadoop)과 아파치 스파크(Apache Spark)의 뒤를 잇는 빅데이터 기술이 어떤 기술과 트렌드의 영향을 받아 변화할 수 있을 것인지는 간단하게 살펴볼 수 있다. 이런 관점에서 빅데이터 소프트웨어 기술의 발전에 직접적인 영향을 줄 수 있는 주요 트렌드가 빅데이터 소프트웨어 기술에 어떤 변화를 줄...

2020.11.27

애저 데이터브릭스, ‘포톤 쿼리 엔진’ 프리뷰 공개

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

마이크로소프트 애저 데이터브릭스 애저 데이터브릭스 포톤 쿼리 엔진 CPU 병렬 처리 애널리틱스 아파치 스파크 C++ 데이터 엔지니어링 머신러닝 데이터 과학 빅데이터

2020.09.29

마이크로소프트가 애저 데이터브릭스 클라우드 애널리틱스 및 AI 서비스용 벡터화된 쿼리 엔진, ‘포톤 기반 델타 엔진(Photon powered Delta Engine)’ 프리뷰를 공개했다. 애저 데이터브릭스(Azure Databricks)는 아파치 스파크(Apache Spark)를 기반으로 하는 데이터 애널리틱스 플랫폼이며, 데이터브릭스와의 제휴로 제공된다.    마이크로소프트는 데이터 중심 의사결정 체제를 도입하는 기업이 늘어나면서 방대한 양과 유형의 데이터를 신속하게 분석할 수 있는 플랫폼을 확보하는 것은 필수적이라고 밝혔다.  ‘포톤’은 C++로 작성됐으며 스파크 API(Spark APIs)와 호환된다. 회사에 따르면 이 벡터화된 쿼리 엔진은 최신 CPU 아키텍처와 델타 레이크(Delta lake) 오픈소스 트랜잭션 스토리지 계층을 활용해 아파치 스파크 3.0 성능을 최대 20배까지 향상시킨다.    포톤은 데이터와 명령어 수준에서 CPU 처리의 더 큰 병렬성을 제공한다. 델타 엔진의 다른 구성요소에는 개선된 쿼리 최적화 프로그램과 캐싱 계층이 있다. 이러한 기술 조합은 데이터 엔지니어링, 머신러닝, 데이터 과학, 데이터 애널리틱스를 포함한 빅데이터 사용 사례를 강화한다.  한편 애저 데이터브릭스를 사용하면 최적화된 아파치 스파크 환경을 빠르게 설정할 수 있다. 또한 애저 액티브 디렉토리(Azure Active Directory), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 애저 머신러닝(Azure Machine Learning)과 같은 여러 애저 클라우드 서비스와의 통합을 지원한다. 이를 통해 사용자는 엔드투엔드 데이터 웨어하우스, 머신러닝, 실시간 분석 애널리틱스 솔루션 등을 구축할 수 있다. ciokr@idg.co.kr  

2020.09.29

"알고리즘 재검토가 필요한 시점"··· 머신러닝 최신 성공사례 5선

IT 리더들이 비즈니스 인사이트를 창출하고자 인공지능과 머신러닝을 어떻게 활용하고 있는지 알아본다.  ‘인공지능(AI)’과 ‘머신러닝(ML)’이 기업에 상당한 영향력을 미치고 있다. AI 및 ML 기술을 활용해 고객 선호도를 예측하고 비즈니스 운영을 개선하는 사례가 늘고 있기 때문이다.  IDC는 AI 시스템 관련 지출액이 2023년 979억 달러를 돌파하리라 전망했다. 이는 2019년 지출액(375억 달러)의 3배에 가까운 규모다. 또한 지난 6월 발표된 캡제미니(Capgemini)의 설문 조사에 따르면 전체 응답 기업(950곳) 가운데 87%가 AI 파일럿을 진행 중이거나 한정된 유즈 케이스를 실제로 활용 중인 것으로 나타났다.    한편 코로나19 사태로 AI 부문에서 새로운 과제가 등장했다. 지난 3월 이후부터, 과거 데이터를 기준으로 생성된 알고리즘 모델이 왜곡되는 경우가 발생했기 때문이다. 캡제미니의 인사이트 및 데이터 부문 부사장 제리 커츠는 이러한 ‘데이터 드리프트(data drift)’ 현상으로 인해 기업이 기존 모델을 신뢰하기 어려워졌다고 지적했다.  예를 들어 제트 엔진 유지보수 간격을 예측하려는 기업이 있다고 가정해보자. 이 기업의 모델은 최근 몇 달간 급감한 제트 엔진 사용량으로 인해 크게 변경될 가능성이 높다. 최근 몇 달 동안 매출이 크게 하락한 소매업체도 마찬가지다.  커츠는 <CIO닷컴>과의 인터뷰에서 “특정 데이터가 너무 빠르게 바뀌는 바람에 과거는 더 이상 적절한 예측변수가 되지 못한다”라면서, “변수가 바뀌리라 생각하지 않았기 때문에 기업은 알고리즘을 재검토해야 할 것”이라고 진단했다.  이러한 과제에 직면한 상황에서, 여러 IT 리더들은 AI 및 ML을 어떻게 활용하고 있는지 사례들을 살펴본다.  1. 건강보험사 ‘앤섬(Anthem)’: AI를 활용한 비즈니스 성과 향상 미국 대형 건강보험회사 앤섬의 최고디지털책임자(CDO) 라...

머신러닝 인공지능 애널리틱스 인사이트 AI ML IDC 캡제미니 데이터 드리프트 알고리즘 가상비서 마이크로소프트 오피스 365 세일즈포스 데이터 아파치 스파크

2020.08.12

IT 리더들이 비즈니스 인사이트를 창출하고자 인공지능과 머신러닝을 어떻게 활용하고 있는지 알아본다.  ‘인공지능(AI)’과 ‘머신러닝(ML)’이 기업에 상당한 영향력을 미치고 있다. AI 및 ML 기술을 활용해 고객 선호도를 예측하고 비즈니스 운영을 개선하는 사례가 늘고 있기 때문이다.  IDC는 AI 시스템 관련 지출액이 2023년 979억 달러를 돌파하리라 전망했다. 이는 2019년 지출액(375억 달러)의 3배에 가까운 규모다. 또한 지난 6월 발표된 캡제미니(Capgemini)의 설문 조사에 따르면 전체 응답 기업(950곳) 가운데 87%가 AI 파일럿을 진행 중이거나 한정된 유즈 케이스를 실제로 활용 중인 것으로 나타났다.    한편 코로나19 사태로 AI 부문에서 새로운 과제가 등장했다. 지난 3월 이후부터, 과거 데이터를 기준으로 생성된 알고리즘 모델이 왜곡되는 경우가 발생했기 때문이다. 캡제미니의 인사이트 및 데이터 부문 부사장 제리 커츠는 이러한 ‘데이터 드리프트(data drift)’ 현상으로 인해 기업이 기존 모델을 신뢰하기 어려워졌다고 지적했다.  예를 들어 제트 엔진 유지보수 간격을 예측하려는 기업이 있다고 가정해보자. 이 기업의 모델은 최근 몇 달간 급감한 제트 엔진 사용량으로 인해 크게 변경될 가능성이 높다. 최근 몇 달 동안 매출이 크게 하락한 소매업체도 마찬가지다.  커츠는 <CIO닷컴>과의 인터뷰에서 “특정 데이터가 너무 빠르게 바뀌는 바람에 과거는 더 이상 적절한 예측변수가 되지 못한다”라면서, “변수가 바뀌리라 생각하지 않았기 때문에 기업은 알고리즘을 재검토해야 할 것”이라고 진단했다.  이러한 과제에 직면한 상황에서, 여러 IT 리더들은 AI 및 ML을 어떻게 활용하고 있는지 사례들을 살펴본다.  1. 건강보험사 ‘앤섬(Anthem)’: AI를 활용한 비즈니스 성과 향상 미국 대형 건강보험회사 앤섬의 최고디지털책임자(CDO) 라...

2020.08.12

허니웰·오피스디포·마스터카드 등 머신러닝 성공사례 6선

한때 비밀 실험실이나 공상과학으로 조롱을 받았던 인공지능(AI)과 머신러닝(ML) 기술이 이제는 주류가 됐다. 더 많은 기업이 고객을 유입시키고 비즈니스 운영을 개선하기 위해 인간의 정신 작용을 모방하는 소프트웨어를 활용하고 있다.   AI시스템에 대한 투자는 2023년에 2019년에 지출된 375억 달러보다 약 3배 많은 979억 달러에 달할 것이라고 IDC가 밝혔다. 마리안느 다킬라는 “AI는 프로토타입을 넘어 실행 및 이행 단계에 이르렀다. 모든 산업의 전략적 의사결정자들은 이제 AI 여정을 효과적으로 진행하는 방법에 대한 문제와 씨름하고 있다”라고 말했다. 하지만 MIT 슬론 매니지먼트 리뷰(Sloan Management Review, SMR)와 보스턴 컨설팅 그룹(BCG)이 2,500명의 임원을 대상으로 한 설문조사 결과, 기업 10곳 중 7곳은 AI의 영향이 거의 없다고 보고한 것으로 나타났다. 한 가지 중대한 문제가 있다. 이 연구 보고서의 공동 저자인 BCG의 경영 파트너 셔빈 코다반데는 많은 AI 프로젝트가 비즈니스 부문의 투입 없이 IT 내부에서 시작된다고 밝혔다. 이 때문에 기업들이 신기술을 시도하지 않게 되는 것은 아니다. 여기에서는 AI와 ML을 이행하는 CIO들이 자신의 업무에 대해 논의하고 실용적인 조언을 공유한다. 허니웰 : 가상 비서로 영업 관리 허니웰(Honeywell)의 영업 인력은 AI 소프트웨어를 사용하여 해당 기업의 항공 전자 시스템, 건설 차량, 기타 산업용 기계의 구매자들을 유입시키는 데 도움이 되는 책임자 관리 등 중요한 회의와 기타 업무의 우선순위를 결정한다.   허니웰의 상용화 담당 부사장 패트릭인 호건(사진)에 따르면 이 소프트웨어는 Tact.ai가 개발한 가상 비서며 허니웰의 마이크로소프트 오피스 365와 세일즈포스 시스템에서 정보를 가져온다. 직원들은 스마트폰을 사용하여 TAA(Tact.AI Assistant)에게 음성이나 텍스트로 영업 목표를 달성할 수 있을지 여부를 ...

CIO 아마존웹서비스 고객경험 가상 비서 아파치 스파크 챗봇 자연어처리 NLP ML 가디어 다트머스대학교 오피스디포 줄릴리 기계 주니퍼 네트웍스 세일즈포스 IBM 마이크로소프트 AWS 왓슨 마스터카드 오피스 365 신용카드 패션 인공지능 보험 CX 허니웰

2020.03.19

한때 비밀 실험실이나 공상과학으로 조롱을 받았던 인공지능(AI)과 머신러닝(ML) 기술이 이제는 주류가 됐다. 더 많은 기업이 고객을 유입시키고 비즈니스 운영을 개선하기 위해 인간의 정신 작용을 모방하는 소프트웨어를 활용하고 있다.   AI시스템에 대한 투자는 2023년에 2019년에 지출된 375억 달러보다 약 3배 많은 979억 달러에 달할 것이라고 IDC가 밝혔다. 마리안느 다킬라는 “AI는 프로토타입을 넘어 실행 및 이행 단계에 이르렀다. 모든 산업의 전략적 의사결정자들은 이제 AI 여정을 효과적으로 진행하는 방법에 대한 문제와 씨름하고 있다”라고 말했다. 하지만 MIT 슬론 매니지먼트 리뷰(Sloan Management Review, SMR)와 보스턴 컨설팅 그룹(BCG)이 2,500명의 임원을 대상으로 한 설문조사 결과, 기업 10곳 중 7곳은 AI의 영향이 거의 없다고 보고한 것으로 나타났다. 한 가지 중대한 문제가 있다. 이 연구 보고서의 공동 저자인 BCG의 경영 파트너 셔빈 코다반데는 많은 AI 프로젝트가 비즈니스 부문의 투입 없이 IT 내부에서 시작된다고 밝혔다. 이 때문에 기업들이 신기술을 시도하지 않게 되는 것은 아니다. 여기에서는 AI와 ML을 이행하는 CIO들이 자신의 업무에 대해 논의하고 실용적인 조언을 공유한다. 허니웰 : 가상 비서로 영업 관리 허니웰(Honeywell)의 영업 인력은 AI 소프트웨어를 사용하여 해당 기업의 항공 전자 시스템, 건설 차량, 기타 산업용 기계의 구매자들을 유입시키는 데 도움이 되는 책임자 관리 등 중요한 회의와 기타 업무의 우선순위를 결정한다.   허니웰의 상용화 담당 부사장 패트릭인 호건(사진)에 따르면 이 소프트웨어는 Tact.ai가 개발한 가상 비서며 허니웰의 마이크로소프트 오피스 365와 세일즈포스 시스템에서 정보를 가져온다. 직원들은 스마트폰을 사용하여 TAA(Tact.AI Assistant)에게 음성이나 텍스트로 영업 목표를 달성할 수 있을지 여부를 ...

2020.03.19

인종차별하고 막말하는 AI, 원인은 '불량 데이터'에

인공지능과 머신러닝은 수많은 산업에 큰 변화를 가져올 수 있다. 그러나 심각한 위험들을 초래할 수도 있다. 이제 막 도입되기 시작한 기술이기 때문에 아직은 알려지지 않은 위험들이 많다. 인공지능에서 불량 데이터는 큰 문제며, 기업이 AI를 더 많이 채택함에 따라 이 문제는 더 커질 것이다. 이미 AI가 ‘타락’했을 때 무슨 일어나는지 보여주는 사례가 있다. 예를 들어, 마이크로소프트 테이(Tay)는 트위터 트롤들이 ‘타락’시키는 바람에 단 며칠 만에 ‘순진한’ 챗봇에서 무개념 인종 차별주의 AI로 전락했다. 구글은 2년 전 이미지 검색에서 고릴라와 침팬지라는 키워드를 검열해야 했다. 아프리카계 미국인의 사진을 검색 결과로 제시했기 때문이다. 구글 사진 앱에서 아직도 이 문제가 완전히 수정되지 않은 상태다. 기업들이 AI를 점차 더 많이 수용하면서, 이런 문제가 계속 커질 전망이다. 의료 데이터에 AI를 적용하는 사업을 추진하고 있는 시애틀 소재 신생벤처인 켄사이(KenSci)의 앤커 테레데사이 대표는 “밤에 잠을 설친다. 진짜 환자, 진짜 생명과 직결된 문제기 때문이다”고 말했다. 켄사이의 AI 플랫폼은 의사와 보험회사에 의료와 관련된 추천, 권장사항을 제시한다. 의료 기록, 예측 모델 생성에 사용하는 트레이닝 세트에 오류가 있다면 중대한 문제가 초래될 수 있다. 이는 AI에서 아주 중요하고 중대한 위험 요소 한 가지를 알려주는 사례다. 다름 아닌 데이터와 처리에 있어 품질이다. AI가 잘못되는 것을 막는 방호책 켄사이는 전세계 파트너 기업, 기관의 환자 의료 기록 수백만 개를 처리한다. 언어와 기준, 형식, 분류 체계가 각각 다른 정보들이다. 켄사이는 이와 관련된 도전과제를 극복하기 위해 자체 개발한 도구, 다른 회사의 도구를 사용하고, 파트너 의료기관의 도움을 받는다. 그는 “의료 및 건강 분야는 올바른 프로토콜,...

구글 CDO 트롤 최고 데이터 책임자 451리서치 아파치 스파크 테이 인종차별 NTT그룹 봇넷 프라이스워터하우스쿠퍼스 IDC 마이크로소프트 트위터 데이터 과학자 포레스터 리서치 인포시스 PwC 인공지능 데이터 편향

2018.02.19

인공지능과 머신러닝은 수많은 산업에 큰 변화를 가져올 수 있다. 그러나 심각한 위험들을 초래할 수도 있다. 이제 막 도입되기 시작한 기술이기 때문에 아직은 알려지지 않은 위험들이 많다. 인공지능에서 불량 데이터는 큰 문제며, 기업이 AI를 더 많이 채택함에 따라 이 문제는 더 커질 것이다. 이미 AI가 ‘타락’했을 때 무슨 일어나는지 보여주는 사례가 있다. 예를 들어, 마이크로소프트 테이(Tay)는 트위터 트롤들이 ‘타락’시키는 바람에 단 며칠 만에 ‘순진한’ 챗봇에서 무개념 인종 차별주의 AI로 전락했다. 구글은 2년 전 이미지 검색에서 고릴라와 침팬지라는 키워드를 검열해야 했다. 아프리카계 미국인의 사진을 검색 결과로 제시했기 때문이다. 구글 사진 앱에서 아직도 이 문제가 완전히 수정되지 않은 상태다. 기업들이 AI를 점차 더 많이 수용하면서, 이런 문제가 계속 커질 전망이다. 의료 데이터에 AI를 적용하는 사업을 추진하고 있는 시애틀 소재 신생벤처인 켄사이(KenSci)의 앤커 테레데사이 대표는 “밤에 잠을 설친다. 진짜 환자, 진짜 생명과 직결된 문제기 때문이다”고 말했다. 켄사이의 AI 플랫폼은 의사와 보험회사에 의료와 관련된 추천, 권장사항을 제시한다. 의료 기록, 예측 모델 생성에 사용하는 트레이닝 세트에 오류가 있다면 중대한 문제가 초래될 수 있다. 이는 AI에서 아주 중요하고 중대한 위험 요소 한 가지를 알려주는 사례다. 다름 아닌 데이터와 처리에 있어 품질이다. AI가 잘못되는 것을 막는 방호책 켄사이는 전세계 파트너 기업, 기관의 환자 의료 기록 수백만 개를 처리한다. 언어와 기준, 형식, 분류 체계가 각각 다른 정보들이다. 켄사이는 이와 관련된 도전과제를 극복하기 위해 자체 개발한 도구, 다른 회사의 도구를 사용하고, 파트너 의료기관의 도움을 받는다. 그는 “의료 및 건강 분야는 올바른 프로토콜,...

2018.02.19

마이크로소프트, 애저 클라우드에 아파치 스파크와 카산드라, 마리아DB 도입

마이크로소프트가 개발자 및 데이터 애널리스트들이 이용하는 여러 타사의 인기 플랫폼을 애저 클라우드에 도입했다. 새로운 애저 기능으로는 다음과 같은 것들이 있다. - 애저 데이터브릭스(Azure Databricks), 개발자가 엔터프라이즈 데이터를 통찰할 수 있도록 하는 베타 아파치 스파https://azure.microsoft.com/en-us/campaigns/databricks/크 클러스터 컴퓨팅 플랫폼이다. 개발자는 베타 테스트 참여를 요청할 수 있다. - 애저에서 아파치 카산드라 NoSQL 데이터베이스를 서비스로 실행할 수 있도록 해주는 API다. 이 서비스는 전 세계적으로 분산된 마이크로소프트 애저 코스모스DB를 활용한다. 개발자는 친숙한 카산드라 도구를 사용할 수 있게 된다. 이 API를 이용하려면 애저 계정에 로그인해야 한다. - 마리아DB용 애저 데이터베이스의 프리뷰. 개발자는 베타 테스트에 가입할 수 있다. - 애저 데브옵스 프로젝트, 데브옵스 파이프라인을 구성할 수 있게 해주는 베타 서비스다. 이를 이용하면 개발자는 깃 저장소를 구성하고 빌드 및 릴리즈 파이프라인을 자동화할 수 있다. 개발자는 베타 서비스에 가입할 수 있다. ciokr@idg.co.kr  

마이크로소프트 애저 카산드라 마리아DB 아파치 스파크

2017.11.16

마이크로소프트가 개발자 및 데이터 애널리스트들이 이용하는 여러 타사의 인기 플랫폼을 애저 클라우드에 도입했다. 새로운 애저 기능으로는 다음과 같은 것들이 있다. - 애저 데이터브릭스(Azure Databricks), 개발자가 엔터프라이즈 데이터를 통찰할 수 있도록 하는 베타 아파치 스파https://azure.microsoft.com/en-us/campaigns/databricks/크 클러스터 컴퓨팅 플랫폼이다. 개발자는 베타 테스트 참여를 요청할 수 있다. - 애저에서 아파치 카산드라 NoSQL 데이터베이스를 서비스로 실행할 수 있도록 해주는 API다. 이 서비스는 전 세계적으로 분산된 마이크로소프트 애저 코스모스DB를 활용한다. 개발자는 친숙한 카산드라 도구를 사용할 수 있게 된다. 이 API를 이용하려면 애저 계정에 로그인해야 한다. - 마리아DB용 애저 데이터베이스의 프리뷰. 개발자는 베타 테스트에 가입할 수 있다. - 애저 데브옵스 프로젝트, 데브옵스 파이프라인을 구성할 수 있게 해주는 베타 서비스다. 이를 이용하면 개발자는 깃 저장소를 구성하고 빌드 및 릴리즈 파이프라인을 자동화할 수 있다. 개발자는 베타 서비스에 가입할 수 있다. ciokr@idg.co.kr  

2017.11.16

열차 지연을 정시 운행으로 바꾼 지멘스 'IoT 데이터에서 해답 찾았다'

지멘스는 1879년 최초의 승객용 전기 기관차를 포함하여 약 150년 동안 열차를 개발했다. 하지만 최근의 트랙(Track) 혁신은 데이터 분석에 의한 것이었다. 열차와 트랙에 대한 정보를 분석하기 위해 센서를 사용하여 대응적인 철도 유지 방법에서 선제적인 철도 유지 방법으로 바꾸는 데 도움이 되었다. 진단 센서 데이터를 통해 부품의 상태를 평가함으로써 해당 기업은 고장이 발생할 가능성이 높을 때 패턴을 찾기 시작할 수 있다. 그러고 나서 지멘스는 실시간에 가깝게 정보를 모니터링함으로써 서비스가 중단되기 전에 신속하게 대응할 수 있다. 비정상이 감지되는 경우 점검을 위해 부품을 송달한다. 이 접근방식의 이점으로는 지연 감지, 마일리지 증가, 노동 비용 감소, 더욱 효율적인 유지보수 일정 관리가 있다. 이를 통해 지멘스는 고객에 추가적인 성과 기반 유지보수 계약을 제공할 수 있다. 트랙에 데이터 공학 적용하기 수년 전 독일의 기관차 공장에서 지멘스는 열차 부품과 철도 인프라의 고장을 예측하는 알고리즘을 구축하기 위해 데이터 과학자 및 엔지니어로 팀을 구성했다. 지멘스의 모빌리티 데이터 서비스 책임자 제라드 크레스는 <컴퓨터월드 UK>와의 인터뷰에서 “그 이유는 산업 데이터가 내재된 데이터와 다르게 작동하며 우리가 사용하는 많은 전통적인 분석 모델이 이 환경에서 잘 작동하지 않기 때문이다”고 밝혔다. 크레스는 “이런 부품은 자주 고장 나지 않기 때문에 이전보다 훨씬 높은 예측 정확도가 필요하다”고 덧붙였다. 지난 2년 동안만 하더라도 그의 팀은 새로운 수학적 접근방식에 대한 30개의 특허를 출원했다. 2013년, 지멘스는 이런 모델을 고급 데이터 분석 역량으로 개발하기 위해 빅데이터 업체 테라데이타를 찾았다. 지멘스는 데이터 웨어하우스, AD(Aster Directory) 분석 툴, 하둡용 장비를 아우르는 자체 버전의 테라데이타 UDA(Unified Data Archit...

빅데이터 센서 데이터 승객 데이터 레이크 텐서플로 아파치 스파크 데이터 호수 사물인터넷 기차 운송 데이터 분석 데이터 웨어하우스 지멘스 데이터 과학자 DW 유로스타

2017.10.27

지멘스는 1879년 최초의 승객용 전기 기관차를 포함하여 약 150년 동안 열차를 개발했다. 하지만 최근의 트랙(Track) 혁신은 데이터 분석에 의한 것이었다. 열차와 트랙에 대한 정보를 분석하기 위해 센서를 사용하여 대응적인 철도 유지 방법에서 선제적인 철도 유지 방법으로 바꾸는 데 도움이 되었다. 진단 센서 데이터를 통해 부품의 상태를 평가함으로써 해당 기업은 고장이 발생할 가능성이 높을 때 패턴을 찾기 시작할 수 있다. 그러고 나서 지멘스는 실시간에 가깝게 정보를 모니터링함으로써 서비스가 중단되기 전에 신속하게 대응할 수 있다. 비정상이 감지되는 경우 점검을 위해 부품을 송달한다. 이 접근방식의 이점으로는 지연 감지, 마일리지 증가, 노동 비용 감소, 더욱 효율적인 유지보수 일정 관리가 있다. 이를 통해 지멘스는 고객에 추가적인 성과 기반 유지보수 계약을 제공할 수 있다. 트랙에 데이터 공학 적용하기 수년 전 독일의 기관차 공장에서 지멘스는 열차 부품과 철도 인프라의 고장을 예측하는 알고리즘을 구축하기 위해 데이터 과학자 및 엔지니어로 팀을 구성했다. 지멘스의 모빌리티 데이터 서비스 책임자 제라드 크레스는 <컴퓨터월드 UK>와의 인터뷰에서 “그 이유는 산업 데이터가 내재된 데이터와 다르게 작동하며 우리가 사용하는 많은 전통적인 분석 모델이 이 환경에서 잘 작동하지 않기 때문이다”고 밝혔다. 크레스는 “이런 부품은 자주 고장 나지 않기 때문에 이전보다 훨씬 높은 예측 정확도가 필요하다”고 덧붙였다. 지난 2년 동안만 하더라도 그의 팀은 새로운 수학적 접근방식에 대한 30개의 특허를 출원했다. 2013년, 지멘스는 이런 모델을 고급 데이터 분석 역량으로 개발하기 위해 빅데이터 업체 테라데이타를 찾았다. 지멘스는 데이터 웨어하우스, AD(Aster Directory) 분석 툴, 하둡용 장비를 아우르는 자체 버전의 테라데이타 UDA(Unified Data Archit...

2017.10.27

머신러닝·오픈소스로 확 바뀐 블룸버그, 어떻게?

검정색 화면에 오렌지 색 글자, 색상으로 구분된 키보드를 갖춘 블룸버그 서비스 전용 단말기는 그냥 ‘터미널’로 통하며 80년대 초 출범 이래 크게 변한 것이 없어 보인다. 하지만 터미널 뒤에서 데이터를 취합하고 분석하는 과정은 크게 바뀌었다. 이 과정에서 블룸버그는 오픈소스와 머신러닝을 활용했다. 복고(블룸버그는 ‘최신 아이콘’을 선호함) 스타일 뒤에서 이뤄지는 금융 시장 데이터 뉴스와 트레이딩 도구는 빠른 속도로 발전했다. 전 세계 31만 5,000명의 터미널 가입 사용자들은 이제 경쟁력 있는 투자 결정을 위해 머신러닝과 심화 학습, 그리고 블룸버그에서 개발한 자연어 처리 기술을 활용할 수 있다. 블룸버그는 이와 똑같은 기술을 내부 프로세스에도 적용하고 있다. 이 분야에서 블룸버그의 노력을 진두지휘하고 있는 데이터 과학 총괄 기드온 만은 이달 초 <CIO 호주>와 이야기를 나누었다. --------------------------------------------------------------- 머신러닝 How To 인기기사 ->우리 회사는 AI·머신러닝에 준비돼 있을까?··· '10가지 체크리스트' ->기계학습 구현을 쉽게!··· 머신러닝 프레임워크 13종 ->머신러닝을 시작하는 방법, '텐서플로우 통해 머신러닝을 기업 DNA에 각인시켜라' ->데이터 과학자·머신러닝을 비즈니스에 활용하는 방법(태도) ->지금 CIO가 머신러닝에 투자해야··· 왜? 어떻게? ->기업 4곳이 전하는 'AI 조직' 구축법 ->'IT업무도 AI가···' CIO는 무엇을 준비해야 하나 -&...

CIO 정형 데이터 아파치 스파크 분석 블룸버그 트윗 주식 인공지능 하둡 CTO 비정형 데이터 데이터 과학자 솔라 오픈스택 빅데이터 구글 Solr

2017.10.26

검정색 화면에 오렌지 색 글자, 색상으로 구분된 키보드를 갖춘 블룸버그 서비스 전용 단말기는 그냥 ‘터미널’로 통하며 80년대 초 출범 이래 크게 변한 것이 없어 보인다. 하지만 터미널 뒤에서 데이터를 취합하고 분석하는 과정은 크게 바뀌었다. 이 과정에서 블룸버그는 오픈소스와 머신러닝을 활용했다. 복고(블룸버그는 ‘최신 아이콘’을 선호함) 스타일 뒤에서 이뤄지는 금융 시장 데이터 뉴스와 트레이딩 도구는 빠른 속도로 발전했다. 전 세계 31만 5,000명의 터미널 가입 사용자들은 이제 경쟁력 있는 투자 결정을 위해 머신러닝과 심화 학습, 그리고 블룸버그에서 개발한 자연어 처리 기술을 활용할 수 있다. 블룸버그는 이와 똑같은 기술을 내부 프로세스에도 적용하고 있다. 이 분야에서 블룸버그의 노력을 진두지휘하고 있는 데이터 과학 총괄 기드온 만은 이달 초 <CIO 호주>와 이야기를 나누었다. --------------------------------------------------------------- 머신러닝 How To 인기기사 ->우리 회사는 AI·머신러닝에 준비돼 있을까?··· '10가지 체크리스트' ->기계학습 구현을 쉽게!··· 머신러닝 프레임워크 13종 ->머신러닝을 시작하는 방법, '텐서플로우 통해 머신러닝을 기업 DNA에 각인시켜라' ->데이터 과학자·머신러닝을 비즈니스에 활용하는 방법(태도) ->지금 CIO가 머신러닝에 투자해야··· 왜? 어떻게? ->기업 4곳이 전하는 'AI 조직' 구축법 ->'IT업무도 AI가···' CIO는 무엇을 준비해야 하나 -&...

2017.10.26

빅데이터 분야 스파크 매력의 원천··· '주요 툴 7종' 가이드

아파치 스파크는 단순히 빅데이터 작업을 빠르게 해줄 뿐 아니라 간편하고 편리하며 강력하게 할 수 있도록 해준다. 아파치 스파크는 다양한 툴로 구성돼 있다. 이들 아파치 스파크 툴은 새로운 기능이 추가되거나 성능이 개선되는 등 지속적으로 업데이트되고 있다.  아파치 스파크 생태계 안에 있는 각 툴의 역할과 존재 이유, 개선 과정, 문제 요소, 개선 방향에 대해 소개한다. 모든 이미지 출처 :  Dawn Hudson via Public Domain Pictures  ciokr@idg.co.kr

개발 그래프X 스파크R MLlib 스파크 코어 RDD 아파치 스파크 스파크 SQL 머신러닝 언어 아파치 스톰

2016.03.18

아파치 스파크는 단순히 빅데이터 작업을 빠르게 해줄 뿐 아니라 간편하고 편리하며 강력하게 할 수 있도록 해준다. 아파치 스파크는 다양한 툴로 구성돼 있다. 이들 아파치 스파크 툴은 새로운 기능이 추가되거나 성능이 개선되는 등 지속적으로 업데이트되고 있다.  아파치 스파크 생태계 안에 있는 각 툴의 역할과 존재 이유, 개선 과정, 문제 요소, 개선 방향에 대해 소개한다. 모든 이미지 출처 :  Dawn Hudson via Public Domain Pictures  ciokr@idg.co.kr

2016.03.18

MRCDP 출시한 맵알, 컨테이너·보안 지원

맵알테크놀로지스가 차세대 빅데이터 애플리케이션을 지원하도록 개발한 통합 클러스터에서 스파크, 웹-스케일 스토리지, NoSQL, 스트리밍 기능과 함께 하둡을 사용할 수 있는 CDP(Converged Data Platform)를 출시했다. 맵알테크놀로지스(MapR Technologies)가 8일 실시간 글로벌 데이터 애플리케이션을 배치하는 고객을 지원하기 위해 하둡과 스파크, 웹 스케일 스토리지, NoSQL, 스트리밍 기능을 하나의 클러스터로 통합하여 개발한 MRCDP(MapR Converged Data Platform)을 일반 출시한다고 발표했다. CDP(Converged Data Platform)는 기업 요건을 충족하기 위해 보안, 데이터 관리, 성능 기능 등이 개선됐으며 일관된 저장소 및 통합된 자원 관리를 포함하여 컨테이너 지원도 추가됐다. 맵알테크놀로지스의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "이러한 모든 변화는 단순한 편의가 아닌 융합을 목적으로 한다"고 말했다. 또 데이터 지연과 처리에 사용하는 개별적인 클러스터와 사일로(Silo)를 없앤다고 밝혔다. CDP는 아파치 하둡(Apache Hadoop)을 포함하는 맵알 디스트리뷰션(MapR Distribution)을 맵알-FS(MapR File System), 맵알-DB NoSQL 데이터베이스, 맵알 스트림(MapR Streams) 글로벌 이벤트 스트림 시스템과 통합한다. ‘매우 빈번하게 의사 결정’을 내린다 노리스는 아파치 하둡, 아파치 스파크, NoSQL 데이터베이스, 신뢰할 수 있는 스트리밍을 국제적인 수준으로 계속해서 통합함으로써 CDP가 맵알이 말하는 ‘매우 빈번한 의사 결정’을 지원한다고 전했다. 다시 말해, 분석하고 운영에 통합하며 상황에 따라 수정할 수 있기 때문에 변화하는 비즈니스 환경에 영향을 끼칠 수 있다. 예를 들어, 광고주가 실시간으로 요구사항을 전달하고, 의료 서비스 제공자...

CIO 아파치 미리어드 MapR Converged Data Platform MRCDP 맵알테크놀로지스 아파치 스파크 451 리서치 스파크 도커 아파치 하둡 NoSQL 하둡 빅데이터 Docker

2016.03.10

맵알테크놀로지스가 차세대 빅데이터 애플리케이션을 지원하도록 개발한 통합 클러스터에서 스파크, 웹-스케일 스토리지, NoSQL, 스트리밍 기능과 함께 하둡을 사용할 수 있는 CDP(Converged Data Platform)를 출시했다. 맵알테크놀로지스(MapR Technologies)가 8일 실시간 글로벌 데이터 애플리케이션을 배치하는 고객을 지원하기 위해 하둡과 스파크, 웹 스케일 스토리지, NoSQL, 스트리밍 기능을 하나의 클러스터로 통합하여 개발한 MRCDP(MapR Converged Data Platform)을 일반 출시한다고 발표했다. CDP(Converged Data Platform)는 기업 요건을 충족하기 위해 보안, 데이터 관리, 성능 기능 등이 개선됐으며 일관된 저장소 및 통합된 자원 관리를 포함하여 컨테이너 지원도 추가됐다. 맵알테크놀로지스의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "이러한 모든 변화는 단순한 편의가 아닌 융합을 목적으로 한다"고 말했다. 또 데이터 지연과 처리에 사용하는 개별적인 클러스터와 사일로(Silo)를 없앤다고 밝혔다. CDP는 아파치 하둡(Apache Hadoop)을 포함하는 맵알 디스트리뷰션(MapR Distribution)을 맵알-FS(MapR File System), 맵알-DB NoSQL 데이터베이스, 맵알 스트림(MapR Streams) 글로벌 이벤트 스트림 시스템과 통합한다. ‘매우 빈번하게 의사 결정’을 내린다 노리스는 아파치 하둡, 아파치 스파크, NoSQL 데이터베이스, 신뢰할 수 있는 스트리밍을 국제적인 수준으로 계속해서 통합함으로써 CDP가 맵알이 말하는 ‘매우 빈번한 의사 결정’을 지원한다고 전했다. 다시 말해, 분석하고 운영에 통합하며 상황에 따라 수정할 수 있기 때문에 변화하는 비즈니스 환경에 영향을 끼칠 수 있다. 예를 들어, 광고주가 실시간으로 요구사항을 전달하고, 의료 서비스 제공자...

2016.03.10

기계학습 구현을 쉽게!··· 머신러닝 프레임워크 13종

머신러닝(기계학습)은 이제 새로운 주류로 자리잡았다. 이 트렌드가 최근 1년 동안 급부상한 이유에는 저렴한 클라우드 환경과 강력한 GPU 하드웨어만 있지 않다. 기계학습에 활용할 수 있는 프레임워크의 폭발적인 증가도 한 몫 했다. 모두 오픈소스인 이들 프레임워크들은 기계학습에서 어려운 부분을 추상화함으로써 더욱 많은 개발자들이 이 기술을 사용할 수 있게 해준다. 오늘은 지난 1년 동안 새롭게 개발되거나 개선된 13가지 기계 학습 프레임워크에 대해 알아본다. ciokr@idg.co.kr 

기계학습 머신러닝 딥러닝 아파치 스파크 텐서플로우 싱가 카페

2016.02.01

머신러닝(기계학습)은 이제 새로운 주류로 자리잡았다. 이 트렌드가 최근 1년 동안 급부상한 이유에는 저렴한 클라우드 환경과 강력한 GPU 하드웨어만 있지 않다. 기계학습에 활용할 수 있는 프레임워크의 폭발적인 증가도 한 몫 했다. 모두 오픈소스인 이들 프레임워크들은 기계학습에서 어려운 부분을 추상화함으로써 더욱 많은 개발자들이 이 기술을 사용할 수 있게 해준다. 오늘은 지난 1년 동안 새롭게 개발되거나 개선된 13가지 기계 학습 프레임워크에 대해 알아본다. ciokr@idg.co.kr 

2016.02.01

"오픈소스는 빅데이터를 위한 '뉴 노멀'이다" 탈렌드 CEO

개방성이 하둡 생태계를 주도하고 있다고 한 빅데이터 업체 CEO가 밝혔다. 탈렌드 CEO 마이크 투첸은 “오픈소스가 빅데이터 세계를 움직이고 있다”라고 말했다. 이미지 출처 : IDGNS 하둡과 아파치 스파크가 빅데이터에서 가장 인기 있는 기술이라는 점은 공공연한 사실이지만, 이들이 모두 오픈소스라는 점은 잘 알려지지 않았다. 빅데이터 업체인 탈렌드(Talend)의 CEO이자 마이크로소프트의 간부였던 마이크 투첸은 이 현상에 대해 우연이 아니라고 생각하고 있다. 투첸은 "변화를 보고 있다”며 “차세대 데이터 플랫폼 전체는 오픈소스가 될 것이다"고 전망했다. 그가 말한 플랫폼은 전체 스택이 오픈소스인 확대된 하둡 생태계다. "이것은 뉴 노멀이다"고 투첸은 말했다. 탈렌드는 자사 핵심 제품들을 하둡, 스파크, 오픈소스에 두기 때문에 투첸이 오픈소스에 열의를 보이는 것은 그리 놀라운 일이 아니다. 탈렌드는 무엇보다도 빅데이터, 클라우드, 애플리케이션 통합에 초점을 맞춘 제품들은 제공하고 있으며 모든 제품들은 오픈소스 소프트웨어를 기반으로 한다.   올해 10주년을 맞이하는 이 회사는 그동안 GE, 시티은행, 루프트한자, 오렌지, 버진모바일 등 굵직굵직한 고객사를 확보한 상태로, 여러 주요 프로젝트들을 진행 중에 있다. 2015년 말 탈렌드는 5개국에서 자사 제품을 판매하고 있었으며 올해 말까지 15개국으로 늘릴 것이라고 투첸는 전했다. “이러한 사업 확장은 200여 명의 신규 고용을 의미한다. 올해 전체 인력은 약 750명이 될 것이다”고 그는 설명했다.  기업들은 오픈소스 덕분에 구매하기 전에 시도해볼 수 있게 됐으며, 개발자들끼리만 정보를 공유하던 때보다 훨씬 빠른 속도로 오픈소스가 발전하는 것을 보게 될 것이라고 투첸은 전했다. "하둡 생태계 안에 한 업체만 있었을 때보다 ...

빅데이터 마이크로소프트 탈렌드 하둡 생태계 뉴 노멀 아파치 스파크 Talend

2016.01.25

개방성이 하둡 생태계를 주도하고 있다고 한 빅데이터 업체 CEO가 밝혔다. 탈렌드 CEO 마이크 투첸은 “오픈소스가 빅데이터 세계를 움직이고 있다”라고 말했다. 이미지 출처 : IDGNS 하둡과 아파치 스파크가 빅데이터에서 가장 인기 있는 기술이라는 점은 공공연한 사실이지만, 이들이 모두 오픈소스라는 점은 잘 알려지지 않았다. 빅데이터 업체인 탈렌드(Talend)의 CEO이자 마이크로소프트의 간부였던 마이크 투첸은 이 현상에 대해 우연이 아니라고 생각하고 있다. 투첸은 "변화를 보고 있다”며 “차세대 데이터 플랫폼 전체는 오픈소스가 될 것이다"고 전망했다. 그가 말한 플랫폼은 전체 스택이 오픈소스인 확대된 하둡 생태계다. "이것은 뉴 노멀이다"고 투첸은 말했다. 탈렌드는 자사 핵심 제품들을 하둡, 스파크, 오픈소스에 두기 때문에 투첸이 오픈소스에 열의를 보이는 것은 그리 놀라운 일이 아니다. 탈렌드는 무엇보다도 빅데이터, 클라우드, 애플리케이션 통합에 초점을 맞춘 제품들은 제공하고 있으며 모든 제품들은 오픈소스 소프트웨어를 기반으로 한다.   올해 10주년을 맞이하는 이 회사는 그동안 GE, 시티은행, 루프트한자, 오렌지, 버진모바일 등 굵직굵직한 고객사를 확보한 상태로, 여러 주요 프로젝트들을 진행 중에 있다. 2015년 말 탈렌드는 5개국에서 자사 제품을 판매하고 있었으며 올해 말까지 15개국으로 늘릴 것이라고 투첸는 전했다. “이러한 사업 확장은 200여 명의 신규 고용을 의미한다. 올해 전체 인력은 약 750명이 될 것이다”고 그는 설명했다.  기업들은 오픈소스 덕분에 구매하기 전에 시도해볼 수 있게 됐으며, 개발자들끼리만 정보를 공유하던 때보다 훨씬 빠른 속도로 오픈소스가 발전하는 것을 보게 될 것이라고 투첸은 전했다. "하둡 생태계 안에 한 업체만 있었을 때보다 ...

2016.01.25

'전문가 5인이 제시한' 2016년 데이터 기술 및 분석 트렌드 21가지

소셜, 모바일, 클라우드와 함께 분석 및 관련된 데이터 기술이 디지털 시대의 주요 혁신자로 자리 매김했다. 2015년에는 빅데이터 계획이 시험 단계에서 생산 단계로 옮겨갔으며 비즈니스 인텔리전스(Business Intelligence)를 강화하기 위해 새로운 데이터 기술을 활용해야 하게 되었다. 2016년이 시작되면서 5명의 전문가들은 2016년의 데이터 및 분석 부문 전망을 공유했다. Credit: Thinkstock ◆ 스콧 그나우 스콧 그나우는 하둡(Hadoop) 배포판 개발업체 호튼웍스(Hortonworks)의 CTO로서 다음의 트렌드가 2016년의 데이터와 분석을 지배할 것이라고 전망했다. - IoAT(Internet of Anything): 2016년, 기업들은 모든 데이터에서 가치를 이끌어내려 할 것이다. 단순히 IoT(Internet of Things)가 아니라 통찰력을 제공할 수 있는 IoAT이다. "데이터로부터 가치를 얻는 것은 기기, 센서, 기계를 넘어 서버 로그, 지리적 위치, 인터넷의 데이터 등으로부터 생성된 것 등의 모든 데이터가 포함된다." - 가장자리(jagged edge) 데이터: 기업들은 데이터센터의 경계를 넘어 데이터의 가장자리까지 살펴야 한다. 이제 데이터 흐름이 바다의 석유 굴착기나 우주의 인공위성 등에 있는 여러 장치, 센서, 서버로부터 얻는 데이터에서 시작되고 있다. 보안 상황을 관리할 뿐 아니라 생태계 내에서 완전한 데이터 출처를 제공할 수 있는 엄청난 기회가 있다. "IoAT는 새로운 사고방식과 새로운 데이터 관리 시스템을 필요로 하는 새로운 패러다임을 만들고 있으며, 2016년에는 이런 솔루션이 성숙하고 기업에 스며들 것이다." - 실시간 데이터 처리(Data in Motion) 플랫폼: 2016년에는 업계에 실시간 데이터 처리 플랫폼이 발전할 것이다. 여러 장치 프로토콜을 처리하고 모든 데이터 흐름을 하둡으로 ...

빅데이터 바드리 라가반 디팍 쿠마르 댄 코간 댄 그램 아파치 스파크 사물인터넷 NoSQL 하둡 데이터웨어하우스 스콧 그나우

2016.01.22

소셜, 모바일, 클라우드와 함께 분석 및 관련된 데이터 기술이 디지털 시대의 주요 혁신자로 자리 매김했다. 2015년에는 빅데이터 계획이 시험 단계에서 생산 단계로 옮겨갔으며 비즈니스 인텔리전스(Business Intelligence)를 강화하기 위해 새로운 데이터 기술을 활용해야 하게 되었다. 2016년이 시작되면서 5명의 전문가들은 2016년의 데이터 및 분석 부문 전망을 공유했다. Credit: Thinkstock ◆ 스콧 그나우 스콧 그나우는 하둡(Hadoop) 배포판 개발업체 호튼웍스(Hortonworks)의 CTO로서 다음의 트렌드가 2016년의 데이터와 분석을 지배할 것이라고 전망했다. - IoAT(Internet of Anything): 2016년, 기업들은 모든 데이터에서 가치를 이끌어내려 할 것이다. 단순히 IoT(Internet of Things)가 아니라 통찰력을 제공할 수 있는 IoAT이다. "데이터로부터 가치를 얻는 것은 기기, 센서, 기계를 넘어 서버 로그, 지리적 위치, 인터넷의 데이터 등으로부터 생성된 것 등의 모든 데이터가 포함된다." - 가장자리(jagged edge) 데이터: 기업들은 데이터센터의 경계를 넘어 데이터의 가장자리까지 살펴야 한다. 이제 데이터 흐름이 바다의 석유 굴착기나 우주의 인공위성 등에 있는 여러 장치, 센서, 서버로부터 얻는 데이터에서 시작되고 있다. 보안 상황을 관리할 뿐 아니라 생태계 내에서 완전한 데이터 출처를 제공할 수 있는 엄청난 기회가 있다. "IoAT는 새로운 사고방식과 새로운 데이터 관리 시스템을 필요로 하는 새로운 패러다임을 만들고 있으며, 2016년에는 이런 솔루션이 성숙하고 기업에 스며들 것이다." - 실시간 데이터 처리(Data in Motion) 플랫폼: 2016년에는 업계에 실시간 데이터 처리 플랫폼이 발전할 것이다. 여러 장치 프로토콜을 처리하고 모든 데이터 흐름을 하둡으로 ...

2016.01.22

하둡과 아파치 스파크, 무엇이 어떻게 다른가? 5가지 궁금증

종종 하둡과 아파치 스파크가 빅데이터 영역에서 경쟁관계 있는 것처럼 보이기도 했지만 최근 들어 이 둘이 서로 조화를 이룬다는 생각이 점점 더 확산되고 있다. 하둡과 아파치 스파크 둘 다 빅데이터 프레임워크다. 이미지 출처 : IDGNS 빅데이터를 다루는 대화나 기사를 접하다 보면 하둡과 아파치 스파크라는 이름을 어렵잖게 들을 수 있다. 그렇다면 이들의 정체는 무엇이고, 둘 사이에는 어떤 차이점이 있을까? 1. 하둡과 아파치 스파크의 역할은 다르다. 하둡과 아파치 스파크는 모두 빅데이터 프레임워크라는 점에서는 공통 분모를 가지지만, 그 용도에는 상당한 차이가 있다. 먼저 하둡은 기본적으로 분산형 데이터 인프라스트럭처로써, 대량의 데이터 컬랙션을 상용 서버 클러스터 내 복수의 노드들에 분산시키는 역할을 한다. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다는 점이 이 방식의 장점이다. 또 하둡은 데이터를 인덱싱하고 추적해 빅데이터 프로세싱 및 애널리틱스 활동의 효율성을 큰 폭으로 개선한다는 점에서도 많은 시장의 지지를 얻고 있다. 이와 달리 스파크는 이러한 분산형 데이터 컬랙션 상부에서 동작하는 데이터 프로세싱 툴이며, 분산형 스토리지로서의 역할은 수행하지 않는다.   2. 하둡과 아파치 스파크는 상호 독립적이다. 하둡은 하둡 분산형 파일 시스템(HDFS, Hadoop Distributed File System)이라는 이름의 스토리지 컴포넌트와 더불어 프로세싱 컴포넌트인 맵리듀스도 제공한다. 즉 프로세싱 작업을 위해 스파크를 필수적으로 필요로 하지 않는 것이다. 반대로 스파크도 하둡 없이 이용할 수 있다. 스파크에 자체 파일 관리 시스템이 포함되진 않고 그것을 필요로 하는 것은 사실이지만, 굳이 HDFS가 아니더라도 여타 클라우드 기반 데이터 플랫폼과도 융합될 수 있기 때문이다. 그러나 스파크 자체가 본래 하둡용으로 설계된 솔루션인만큼 둘이 함께할 때 가장 좋은 궁합을 보여주긴 한다. 3. 스...

빅데이터 데이터 과학자 맵리듀스 하둡 HDFS 아파치 스파크 빅데이터 프레임워크

2015.12.15

종종 하둡과 아파치 스파크가 빅데이터 영역에서 경쟁관계 있는 것처럼 보이기도 했지만 최근 들어 이 둘이 서로 조화를 이룬다는 생각이 점점 더 확산되고 있다. 하둡과 아파치 스파크 둘 다 빅데이터 프레임워크다. 이미지 출처 : IDGNS 빅데이터를 다루는 대화나 기사를 접하다 보면 하둡과 아파치 스파크라는 이름을 어렵잖게 들을 수 있다. 그렇다면 이들의 정체는 무엇이고, 둘 사이에는 어떤 차이점이 있을까? 1. 하둡과 아파치 스파크의 역할은 다르다. 하둡과 아파치 스파크는 모두 빅데이터 프레임워크라는 점에서는 공통 분모를 가지지만, 그 용도에는 상당한 차이가 있다. 먼저 하둡은 기본적으로 분산형 데이터 인프라스트럭처로써, 대량의 데이터 컬랙션을 상용 서버 클러스터 내 복수의 노드들에 분산시키는 역할을 한다. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다는 점이 이 방식의 장점이다. 또 하둡은 데이터를 인덱싱하고 추적해 빅데이터 프로세싱 및 애널리틱스 활동의 효율성을 큰 폭으로 개선한다는 점에서도 많은 시장의 지지를 얻고 있다. 이와 달리 스파크는 이러한 분산형 데이터 컬랙션 상부에서 동작하는 데이터 프로세싱 툴이며, 분산형 스토리지로서의 역할은 수행하지 않는다.   2. 하둡과 아파치 스파크는 상호 독립적이다. 하둡은 하둡 분산형 파일 시스템(HDFS, Hadoop Distributed File System)이라는 이름의 스토리지 컴포넌트와 더불어 프로세싱 컴포넌트인 맵리듀스도 제공한다. 즉 프로세싱 작업을 위해 스파크를 필수적으로 필요로 하지 않는 것이다. 반대로 스파크도 하둡 없이 이용할 수 있다. 스파크에 자체 파일 관리 시스템이 포함되진 않고 그것을 필요로 하는 것은 사실이지만, 굳이 HDFS가 아니더라도 여타 클라우드 기반 데이터 플랫폼과도 융합될 수 있기 때문이다. 그러나 스파크 자체가 본래 하둡용으로 설계된 솔루션인만큼 둘이 함께할 때 가장 좋은 궁합을 보여주긴 한다. 3. 스...

2015.12.15

기고 | 클라이언트-서버가 사라질 수밖에 없는 이유

필자는 이번 주 미국 라스베가스에서 열린 IBM 인사이트 컨퍼런스에 참석했다. 인포월드의 편집장인 스튜어트 앨솝은 지난 1996년 당시 최신형 메인프레임 모델이 미래에 사라질 것이라고 예고한 바 있다. 막강했던 메인프레임의 영광은 결국 사그라지고 있지만 필자는 이 행사에서 IBM이 시연하는 메인프레임의 아파치 스파크(Apache Spark)를 체험해 봤다. 필자는 심심풀이 삼아 IBM의 아파치 스파크를 체험해 본 것이다. IBM은 메인프레임 사업을 각별히 아끼는데, 경쟁이 심하지 않은 이 하드웨어 영역에서 지금까지 살아남아 50%에 육박하는 마진율을 내며 성과를 거두고 있기 때문이다. 메인프레임 사업은 컴퓨팅 분야의 한 영역으로, 누구나 시작 화면에서 저작권 표시(©1980)를 보게 될 것이다. 클라이언트-서버 컴퓨팅은 특정 하드웨어에 의존하지 않는, 다양한 하드웨어 및 네트워크 요건 하에서 발전해 온 컴퓨팅 모델이다. 필자도 링크드인, 트위터)에서 이른바 ‘유일한 보급형’ 모델과 비교해 클라이언트-서버의 정의에 대해 설전을 펼칠 수도 있겠다. 그러니까 필자는 클라이언트-서버를 소켓으로 구성된 풀을 통해 서버에 연결된 1개 이상의 클라이언트로 규정하겠다(중앙 데이터 저장소를 갖추고 있으며, 대체로 수직적 스케일 방식을 따른다.). 즉 LAN 모델이다. 반면 보급형 모델은 대개 수평적 스케일 방식을 따르며, 1개 이상의 데이터 저장소를 사용하는 N 서버 구성체에 연결된 피어스(peers), 즉 N-클라이언트로 규정하겠다. 이 모델은 실패를 대비하고 사용자 급증 사태를 예방하기 위해 구축된 모델로, (대개 직렬로) 노드를 추가할 수 있으며, 인프라를 재조정할 수도 있다. 즉 클라우드 모델이다. 좀더 보급형에 가까운 이 모델의 힘은 스케일 다운은 물론 스케일 업 방식도 능가한다. 이는 클라이언트-서버에 관한 한 가지 편견, 즉 데이터 처리량을 예측할 수 있다는 점 때문에 중요하다. 이는...

클라우드 클라이언트-서버 통신 모델 통신 발달 LAN 스파크 몽고DB 메인프레임 IBM 개발자 아파치 스파크

2015.10.30

필자는 이번 주 미국 라스베가스에서 열린 IBM 인사이트 컨퍼런스에 참석했다. 인포월드의 편집장인 스튜어트 앨솝은 지난 1996년 당시 최신형 메인프레임 모델이 미래에 사라질 것이라고 예고한 바 있다. 막강했던 메인프레임의 영광은 결국 사그라지고 있지만 필자는 이 행사에서 IBM이 시연하는 메인프레임의 아파치 스파크(Apache Spark)를 체험해 봤다. 필자는 심심풀이 삼아 IBM의 아파치 스파크를 체험해 본 것이다. IBM은 메인프레임 사업을 각별히 아끼는데, 경쟁이 심하지 않은 이 하드웨어 영역에서 지금까지 살아남아 50%에 육박하는 마진율을 내며 성과를 거두고 있기 때문이다. 메인프레임 사업은 컴퓨팅 분야의 한 영역으로, 누구나 시작 화면에서 저작권 표시(©1980)를 보게 될 것이다. 클라이언트-서버 컴퓨팅은 특정 하드웨어에 의존하지 않는, 다양한 하드웨어 및 네트워크 요건 하에서 발전해 온 컴퓨팅 모델이다. 필자도 링크드인, 트위터)에서 이른바 ‘유일한 보급형’ 모델과 비교해 클라이언트-서버의 정의에 대해 설전을 펼칠 수도 있겠다. 그러니까 필자는 클라이언트-서버를 소켓으로 구성된 풀을 통해 서버에 연결된 1개 이상의 클라이언트로 규정하겠다(중앙 데이터 저장소를 갖추고 있으며, 대체로 수직적 스케일 방식을 따른다.). 즉 LAN 모델이다. 반면 보급형 모델은 대개 수평적 스케일 방식을 따르며, 1개 이상의 데이터 저장소를 사용하는 N 서버 구성체에 연결된 피어스(peers), 즉 N-클라이언트로 규정하겠다. 이 모델은 실패를 대비하고 사용자 급증 사태를 예방하기 위해 구축된 모델로, (대개 직렬로) 노드를 추가할 수 있으며, 인프라를 재조정할 수도 있다. 즉 클라우드 모델이다. 좀더 보급형에 가까운 이 모델의 힘은 스케일 다운은 물론 스케일 업 방식도 능가한다. 이는 클라이언트-서버에 관한 한 가지 편견, 즉 데이터 처리량을 예측할 수 있다는 점 때문에 중요하다. 이는...

2015.10.30

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.8