2012.09.26

“하둡과 통합된다고? 정말?”··· BI업체에 따져볼 질문들

Jaikumar Vijayan | Computerworld
빅 데이터가 뜨면서 빅 데이터의 핵심 기술 중 하나인 하둡에 대해 BI업체들이 경쟁하듯 지원 제품을 내놓고 있다. 포레스터 애널리스트는 이들 중에서 정말 하둡과 통합되는지를 따져보려면 BI업체체들에 몇 가지 질문을 던져보라고 조언했다.

BI업체가 하둡과 완벽하게 통합되는 제품이라고 소개하면, 기업들은 BI업체들에게 꼼꼼하게 따져봐야 할 질문들이 많다고 포레스터의 한 애널리스트가 주장하고 있다.

포레스터의 애널리스트 보리스 에벨슨은 회사 블로그에서 “정확히 빅 데이터 지원이 무엇을 의미하는지 설명하지 않은 채 하둡이 이슈가 되니까 BI업체들이 빅 데이터를 지원한다고 발표하고 있다”라고 꼬집었다. 에벨슨은 IT관리자가 하둡 통합에 대한 BI업체들의 주장을 그대로 받아들이기 전에 이들 업체들에 구체적인 설명을 요구해야 한다고 주장했다.

"하둡은 그리 단순한 기술이 아니다. 데이터 접근, 데이터 통합, DBMS, 시스템 관리, 보고, 분석, 데이터 탐색 등과 같은 하둡 생태계 내에서 특정 틈새 분야에 각각 대응하는 다양한 프로젝트의 집합체다”라고 그는 밝혔다.

기업들은 이러한 특성을 인식하고 하둡과 BI를 통합했다는 주장을 평가할 때 어떤 질문을 해야 할 지를 알아야 한다고 에벨슨은 말했다.

에벨슨은 컴퓨터월드와의 이메일에서 "기업이 정당한 이유로 하둡과 빅 데이터를 사용하고 분석을 수행하는 BI툴을 사용하고자 한다면, 통합의 수준이 중요하다"라고 덧붙였다.

지난 2년 동안 점점 더 많은 기업들이 오픈소스와 웹에서 대규모 비정형 데이터를 저장하고 구성할 수 있는 하둡 분산 파일 시스템(HDFS)의 상용 버전을 사용하기 시작했다. CRM, ERP, 총계정 원장 시스템에서 트랜잭션 데이터뿐 아니라 트위터 등 소셜 미디어와 마이크로 블로그와 기계 센서, 웹에서 새로운 많은 데이터를 취합하기 시작했다.

새로운 대규모 비정형 데이터는 하둡 시스템에서 분석됐는데, 이는 하둡 시스템이 좀더 손쉽게 구성할 수 있기 때문이다.

하둡에 관심을 갖는 기업은 하둡 빅 데이터 시스템에서 데이터에 대한 추출, 접근, 검색, 분석, 가시화, 보고를 위한 툴을 제공하는 IT업체의 전체 생태계를 양산했다. 현재 많은 BI업체들이 관계형 DBMS와 하둡 환경을 통합하기 위한 제품을 제공하고 있다.

하둡 환경용 BI툴을 고려할 때, 기업은 우선 해당 툴이 하둡의 커뮤니티 버전뿐 아니라 클라우데라(Cloudera)와 호튼웍스(Hortonworks)같은 업체가 판매하는 상용 버전과도 호환되는지 여부를 알아야 한다고 에벨슨은 강조했다.

기업들은 BI툴과 하둡의 어떤 특정 컴포턴트가 통합되는지도 파악해야 한다. 하둡의 수많은 컴포넌트가 하이브(Hive), H베이스(Hbase), 피그(Pig), 스쿱(Sqoop) 등의 기술을 포함하고 있다고 에벨슨은 설명했다.

에벨슨이 말한 질문의 핵심은 다음과 같다.

-BI툴이 하둡 데이터와 상호작용하기 하기 위해 SQL이나 SQL같은 쿼리 언어를 사용하나?
-H베이스와 카산드라 같은 NoSQL DBMS에 접근할 수 있나?
-데이터 모델 없이 HDFS 데이터를 탐색할 수 있나?


"BI툴이 정말로 하둡과 통합되는지를 확인하려면, 여러 단계의 검증이 필요하다”라고 에벨슨은 강조했다. ciokr@idg.co.kr



2012.09.26

“하둡과 통합된다고? 정말?”··· BI업체에 따져볼 질문들

Jaikumar Vijayan | Computerworld
빅 데이터가 뜨면서 빅 데이터의 핵심 기술 중 하나인 하둡에 대해 BI업체들이 경쟁하듯 지원 제품을 내놓고 있다. 포레스터 애널리스트는 이들 중에서 정말 하둡과 통합되는지를 따져보려면 BI업체체들에 몇 가지 질문을 던져보라고 조언했다.

BI업체가 하둡과 완벽하게 통합되는 제품이라고 소개하면, 기업들은 BI업체들에게 꼼꼼하게 따져봐야 할 질문들이 많다고 포레스터의 한 애널리스트가 주장하고 있다.

포레스터의 애널리스트 보리스 에벨슨은 회사 블로그에서 “정확히 빅 데이터 지원이 무엇을 의미하는지 설명하지 않은 채 하둡이 이슈가 되니까 BI업체들이 빅 데이터를 지원한다고 발표하고 있다”라고 꼬집었다. 에벨슨은 IT관리자가 하둡 통합에 대한 BI업체들의 주장을 그대로 받아들이기 전에 이들 업체들에 구체적인 설명을 요구해야 한다고 주장했다.

"하둡은 그리 단순한 기술이 아니다. 데이터 접근, 데이터 통합, DBMS, 시스템 관리, 보고, 분석, 데이터 탐색 등과 같은 하둡 생태계 내에서 특정 틈새 분야에 각각 대응하는 다양한 프로젝트의 집합체다”라고 그는 밝혔다.

기업들은 이러한 특성을 인식하고 하둡과 BI를 통합했다는 주장을 평가할 때 어떤 질문을 해야 할 지를 알아야 한다고 에벨슨은 말했다.

에벨슨은 컴퓨터월드와의 이메일에서 "기업이 정당한 이유로 하둡과 빅 데이터를 사용하고 분석을 수행하는 BI툴을 사용하고자 한다면, 통합의 수준이 중요하다"라고 덧붙였다.

지난 2년 동안 점점 더 많은 기업들이 오픈소스와 웹에서 대규모 비정형 데이터를 저장하고 구성할 수 있는 하둡 분산 파일 시스템(HDFS)의 상용 버전을 사용하기 시작했다. CRM, ERP, 총계정 원장 시스템에서 트랜잭션 데이터뿐 아니라 트위터 등 소셜 미디어와 마이크로 블로그와 기계 센서, 웹에서 새로운 많은 데이터를 취합하기 시작했다.

새로운 대규모 비정형 데이터는 하둡 시스템에서 분석됐는데, 이는 하둡 시스템이 좀더 손쉽게 구성할 수 있기 때문이다.

하둡에 관심을 갖는 기업은 하둡 빅 데이터 시스템에서 데이터에 대한 추출, 접근, 검색, 분석, 가시화, 보고를 위한 툴을 제공하는 IT업체의 전체 생태계를 양산했다. 현재 많은 BI업체들이 관계형 DBMS와 하둡 환경을 통합하기 위한 제품을 제공하고 있다.

하둡 환경용 BI툴을 고려할 때, 기업은 우선 해당 툴이 하둡의 커뮤니티 버전뿐 아니라 클라우데라(Cloudera)와 호튼웍스(Hortonworks)같은 업체가 판매하는 상용 버전과도 호환되는지 여부를 알아야 한다고 에벨슨은 강조했다.

기업들은 BI툴과 하둡의 어떤 특정 컴포턴트가 통합되는지도 파악해야 한다. 하둡의 수많은 컴포넌트가 하이브(Hive), H베이스(Hbase), 피그(Pig), 스쿱(Sqoop) 등의 기술을 포함하고 있다고 에벨슨은 설명했다.

에벨슨이 말한 질문의 핵심은 다음과 같다.

-BI툴이 하둡 데이터와 상호작용하기 하기 위해 SQL이나 SQL같은 쿼리 언어를 사용하나?
-H베이스와 카산드라 같은 NoSQL DBMS에 접근할 수 있나?
-데이터 모델 없이 HDFS 데이터를 탐색할 수 있나?


"BI툴이 정말로 하둡과 통합되는지를 확인하려면, 여러 단계의 검증이 필요하다”라고 에벨슨은 강조했다. ciokr@idg.co.kr

X