2014.10.14

기고 | 빅 데이터 길들이기

Shayum Rahim | CIO Australia

빅 데이터가 예상보다 빠르게 기업 속으로 파고들었다. 하지만 관리 솔루션들이 넘쳐나고 있어 빅 데이터를 관리하는 게 수월해 지고 있다고 빅인사이트(BigInsights)의 리서치 담당 이사 샤움 라힘은 전했다.



지난 해, 빅 데이터에 대한 인식이 크게 바뀌었다. 최근까지도 빅 데이터는 IT 업체들이 자사 솔루션을 더 많이 판매하기 위해 만든 '광고문구'나 유행어라는 인식이 강했다.

흥미롭게도 빅 데이터의 탄생과 IT업체 사이에는 아무런 상관관계가 없다. 빅 데이터는 디지털 방식의 처리를 원하는 소비자들에 의해 생겨났다. 기업들은 점차 더 많은 비즈니스 기능을 온라인, 모바일 기기, 센서, 기계로 이행하면서 이런 수요를 충족시켰다. 오늘날 우리가 하는 거의 모든 일들이 디지털화되면서 전통적인 IT부문에서는 다룰 수 없었던 엄청난 양의 데이터가 생겨나고 있다.

IT업체 중에서도 특히 RDBMS 업체는 시장에서 어느 정도 자리를 잡았지만, 데이터의 폭발적인 증가로 엄청난 특수를 누리고자 그 누구보다도 신속하게 움직이고 있다. 물론, 그들에게 빅 데이터는 꼭 새로운 개념은 아니었다.

많은 대기업 고객들이 이미 수백 테라바이트의 데이터를 보유하고 있었다. 시스템 대체작동이 전혀 없는 최신 데이터 웨어하우징 기능이나 이용성이 높은 백업 또는 증권 시장 거래소보다 더욱 다양한 옵션 등에서 데이터 량은 전혀 문제가 되지 않았다. 일반적인 비즈니스와 크게 다르지 않았다.

IT업체들이 생각하기 쉽지 않았던 부분은 속도와 다양성이라는 빅 데이터의 속성이었다. 그 어느 때보다도 다양한 종류의 데이터가 다양한 곳에서 만들어졌다. 데이터 웨어하우징은 이 문제를 해결하기에 비용 부담이 너무 컸다. 업계에서는 비용 효율적이면서도 대용량의 다양한 데이터를 신속하게 처리하고 관리할 수 있는 충분한 용량을 제공할 수 있는 무엇인가가 필요했다.
 


비정형 데이터의 등장
비정형 데이터 플랫폼을 입력한다. 가장 잘 알려져 있고 보편적인 것으로 NoSQL 데이터베이스와 HDFS(Hardoop Distributed File System)이 있다.

간략히 설명하자면 하둡은 더그 컷팅의 작품으로 야후에 있을 때 오픈소스 검색 엔진으로 개발된 초기 프로토타입을 발전시킨 것이다. 야후가 ASF(Apache Software Foundation)과 함께 오픈소스 프로젝트를 공개하면서 완전히 새로운 하위 산업이 탄생했다.

하둡의 매력은 단일 서버에서 수 천 개의 머신으로 확장할 수 있다는 점이다. 하둡은 야후에서 초기 데이터 과학자들을 위한 샌드박스(Sandbox)로 쓰였지만, 오픈소스라는 특성 때문에 더 많은 실험이 행해지면서 2008년에는 기업들을 위한 수준으로까지 발전했다.

결국 야후는 오픈소스 리눅스 플랫폼을 위한 관리 계층인 레드햇이나 수세와 마찬가지로 기업용 하둡 관리 소프트웨어 기업인 호튼웍스(Hortonworks)를 설립했다. 그리고 뒤이어 경쟁자인 클라우데라(Cloudera)와 맵알(MapR)이 등장했다.

이 오픈소스 접근방식은 상황이 양호하고 확실히 발전하고 있다는 점을 드러냈다. 오픈소스 커뮤니티는 하둡을 중심으로 매우 활발하게 활동하면서 플랫폼의 사용을 훨씬 용이하게 하는 많은 관리 툴을 탄생시켰다. 여기에는 하둡 클러스터) 일정관리 모듈 YARN, 비정형 데이터 쿼리(Query)가 가능한 데이터 웨어하우스 구조 하이브(Hive), 기계 학습 및 데이터 마이닝 엔진 마하웃(Mahout)이 포함되어 있다. 더 많은 툴들이 개발 중이다.

이밖에 빅 데이터 플랫폼으로 NoSQL(Not only SQL)이 있다. 이것은 현재까지 기본 데이터 포맷이었던 구조화된 쿼리 언어를 의미한다. NoSQL은 키 값, 그래픽, 문서 등의 다양한 구조를 통해 데이터를 검토하는 관계형 데이터베이스 관리 시스템에서 일반적인 표 방식의 데이터 관리 체계로부터 파생되었으며 오픈소스 환경에서의 수평적 확장이 가능했다.

NoSQL의 핵심적인 특징은 성능을 희생하지 않으면서 다양한 데이터 값으로 확장할 수 있다는 점이다. 데이터가 증가하면 하드웨어만 추가하면 된다. 이로 인해 현재 모두가 참여할 수 있는 경쟁에서 기업 IT업체들이 고전하고 있는 특화된 NoSQL 데이터베이스 기업들이 출현하게 되었다.

 




2014.10.14

기고 | 빅 데이터 길들이기

Shayum Rahim | CIO Australia

빅 데이터가 예상보다 빠르게 기업 속으로 파고들었다. 하지만 관리 솔루션들이 넘쳐나고 있어 빅 데이터를 관리하는 게 수월해 지고 있다고 빅인사이트(BigInsights)의 리서치 담당 이사 샤움 라힘은 전했다.



지난 해, 빅 데이터에 대한 인식이 크게 바뀌었다. 최근까지도 빅 데이터는 IT 업체들이 자사 솔루션을 더 많이 판매하기 위해 만든 '광고문구'나 유행어라는 인식이 강했다.

흥미롭게도 빅 데이터의 탄생과 IT업체 사이에는 아무런 상관관계가 없다. 빅 데이터는 디지털 방식의 처리를 원하는 소비자들에 의해 생겨났다. 기업들은 점차 더 많은 비즈니스 기능을 온라인, 모바일 기기, 센서, 기계로 이행하면서 이런 수요를 충족시켰다. 오늘날 우리가 하는 거의 모든 일들이 디지털화되면서 전통적인 IT부문에서는 다룰 수 없었던 엄청난 양의 데이터가 생겨나고 있다.

IT업체 중에서도 특히 RDBMS 업체는 시장에서 어느 정도 자리를 잡았지만, 데이터의 폭발적인 증가로 엄청난 특수를 누리고자 그 누구보다도 신속하게 움직이고 있다. 물론, 그들에게 빅 데이터는 꼭 새로운 개념은 아니었다.

많은 대기업 고객들이 이미 수백 테라바이트의 데이터를 보유하고 있었다. 시스템 대체작동이 전혀 없는 최신 데이터 웨어하우징 기능이나 이용성이 높은 백업 또는 증권 시장 거래소보다 더욱 다양한 옵션 등에서 데이터 량은 전혀 문제가 되지 않았다. 일반적인 비즈니스와 크게 다르지 않았다.

IT업체들이 생각하기 쉽지 않았던 부분은 속도와 다양성이라는 빅 데이터의 속성이었다. 그 어느 때보다도 다양한 종류의 데이터가 다양한 곳에서 만들어졌다. 데이터 웨어하우징은 이 문제를 해결하기에 비용 부담이 너무 컸다. 업계에서는 비용 효율적이면서도 대용량의 다양한 데이터를 신속하게 처리하고 관리할 수 있는 충분한 용량을 제공할 수 있는 무엇인가가 필요했다.
 


비정형 데이터의 등장
비정형 데이터 플랫폼을 입력한다. 가장 잘 알려져 있고 보편적인 것으로 NoSQL 데이터베이스와 HDFS(Hardoop Distributed File System)이 있다.

간략히 설명하자면 하둡은 더그 컷팅의 작품으로 야후에 있을 때 오픈소스 검색 엔진으로 개발된 초기 프로토타입을 발전시킨 것이다. 야후가 ASF(Apache Software Foundation)과 함께 오픈소스 프로젝트를 공개하면서 완전히 새로운 하위 산업이 탄생했다.

하둡의 매력은 단일 서버에서 수 천 개의 머신으로 확장할 수 있다는 점이다. 하둡은 야후에서 초기 데이터 과학자들을 위한 샌드박스(Sandbox)로 쓰였지만, 오픈소스라는 특성 때문에 더 많은 실험이 행해지면서 2008년에는 기업들을 위한 수준으로까지 발전했다.

결국 야후는 오픈소스 리눅스 플랫폼을 위한 관리 계층인 레드햇이나 수세와 마찬가지로 기업용 하둡 관리 소프트웨어 기업인 호튼웍스(Hortonworks)를 설립했다. 그리고 뒤이어 경쟁자인 클라우데라(Cloudera)와 맵알(MapR)이 등장했다.

이 오픈소스 접근방식은 상황이 양호하고 확실히 발전하고 있다는 점을 드러냈다. 오픈소스 커뮤니티는 하둡을 중심으로 매우 활발하게 활동하면서 플랫폼의 사용을 훨씬 용이하게 하는 많은 관리 툴을 탄생시켰다. 여기에는 하둡 클러스터) 일정관리 모듈 YARN, 비정형 데이터 쿼리(Query)가 가능한 데이터 웨어하우스 구조 하이브(Hive), 기계 학습 및 데이터 마이닝 엔진 마하웃(Mahout)이 포함되어 있다. 더 많은 툴들이 개발 중이다.

이밖에 빅 데이터 플랫폼으로 NoSQL(Not only SQL)이 있다. 이것은 현재까지 기본 데이터 포맷이었던 구조화된 쿼리 언어를 의미한다. NoSQL은 키 값, 그래픽, 문서 등의 다양한 구조를 통해 데이터를 검토하는 관계형 데이터베이스 관리 시스템에서 일반적인 표 방식의 데이터 관리 체계로부터 파생되었으며 오픈소스 환경에서의 수평적 확장이 가능했다.

NoSQL의 핵심적인 특징은 성능을 희생하지 않으면서 다양한 데이터 값으로 확장할 수 있다는 점이다. 데이터가 증가하면 하드웨어만 추가하면 된다. 이로 인해 현재 모두가 참여할 수 있는 경쟁에서 기업 IT업체들이 고전하고 있는 특화된 NoSQL 데이터베이스 기업들이 출현하게 되었다.

 


X