BI
2011.10.13

포레스터, “빅 데이터, 기술보다는 비즈니스적 접근 필요”

Jaikumar Vijayan | Computerworld
기업이 IT를 도입할 때 비즈니스 중심적인 태도를 취하라는 포레스터의 충고는 귀담아 들을 필요가 있다.

포레스터 리서치가 11일 발표한 새 보고서는 기업들이 ‘빅 데이터’ 처리를 위해 하둡(Hadoop)을 도입할 때 실용적으로 접근할 것을 강력히 권하고 있다.

이 보고서는 야후, AOL, 모질라(Mozilla), 클라우트(Klout) 등 하둡을 일찍이 받아들였던 일부 기업들이 직접 겪은 경험에서 비롯된 것이다. 또한 이 보고서는 기업들에게 IT 관련 광고에 현혹되지 말라고 충고하고 순수하게 비즈니스 목적으로 추진되는 단계적인 하둡 도입을 지지했다.

보고서에서는 “사업적 가치가 없는 하둡의 ‘과학 프로젝트’들은 피해야 한다. 기술적으로 놀라운 하둡의 성능들을 현실적인 사업적 가치를 제공하는 실제 비즈니스 사례와 혼동하지 않도록 주의하라”고 지적했다.

하둡은 기업들이 초대용량 데이터를 관리하고 처리할 수 있도록 돕게끔 설계된 오픈소스 기술이다. 무엇보다 대용량의 데이터 세트를 작은 데이터 블록 단위로 쪼개어 상용 하드웨어 클러스터에 분배함으로써 더 빠른 처리 속도를 달성할 수 있다는 점에서 하둡의 인기는 날이 갈수록 높아지고 있다.

얼리 어답터들은 주로 다른 기업 DW 기술들로는 쉽게 처리할 수 없었던 PB 단위의 비정형 데이터들을 저장하고 분석하는데 하둡을 이용해 왔다. 특히 업체 지원의 확대와 함께 하둡이 오픈소스 기술이라는 점은 기업들 사이에서 큰 관심을 끌었다.

포레스터의 애널리스트이자 이 보고서의 공동 저자 중 한 명인 제임스 코빌러스는 “하둡은 DW계의 리눅스인 셈이다. 현재 기업들이 하둡을 도입하지만, 여전히 그것은 모호하며 계속해서 수정되고 최적화되고 있다. 이는 리눅스가 초기에 겪었던 것과 매우 닮아 있다”고 말했다.

코빌러스는 “하둡은 특히 클라우드 기반 환경에 있는 기업들에게 중요한 것들을 보장한다. 그것은 애초부터 DW보다 더 많은 것을 제공하도록 설계되었다. 또한 그것은 종래의 관계형 데이터베이스 기술들이 그러하듯 정형 데이터, 관계형 데이터에 국한되는 것이 아니라 처음부터 막대한 양의 복잡한, 비정형 콘텐츠까지 처리할 수 있도록 설계됐다”라고 설명했다.

하지만 그는 “그렇다고 해도 그 기술은 여전히 진행 중이다. 하둡의 비교적 생소함, 자체의 미숙함, 표준 부족, 상용 제품의 상대적 부족과 낮은 기술 접근성 등 이 모든 것들이 기업들에게는 아주 큰 어려움들을 제기한다”라고 지적했다.  

포레스터의 보고서에서는 일련의 모범 사례들을 간략하게 소개하고 있으며 코빌러스는 기업들이 하둡을 도입할 때 이 것들을 일종의 가이드로 삼을 수 있을 거라 말했다.

코빌러스는 기업들이 분명한 빅 데이터 사업 전략에 맞추어 하둡 계획을 진행시킬 것을 추천했다. IT 매니저들은 하둡의 기능들이 어떠한 상황에서 분명한 혜택을 가져다 줄지 구체적인 사업 상황들을 파악해야 할 필요가 있다. 코빌러스는 그 예로 야후의 하둡 이용 사례를 예로 들며 하둡이 광고 배치를 목적으로 한 야후의 초대용량 데이터 세트의 분석을 계속해서 돕고 있다고 설명했다.

기업들이 하둡을 도입하는 데에는 이처럼 구체적인 목표들이 필요하다. 대부분의 경우 단기적인 이익과 실질적으로 눈에 보이는 효과를 가져오는 프로젝트로 시작하는 것이 좋다. 또한 하둡을 도입하기 전에 다른 기업 DW 기술들은 과연 그 요구 사항을 충족시켜줄 수 없는지 확인하는 것도 좋다.

포레스터 보고서는 “다양한 데이터 타입들을 포함하면서 데이터 용량이 거의 수백 테러바이트 혹은 PB 단위로 올라갈 것 같은 경우에만 하둡과 같은 빅 데이터 접근 방식을 사용하라. 만약 데이터 저장소, 컴퓨팅 및 네트워킹 용량 등에 너무 과한 투자를 하게 되면 아무런 부수적 사업 이익이 없는데도 가격만 높게 산정해야 할 것이다”라고 경고했다.

또한 포레스터는 보고서는 기업들이 대기업용 수준의 플랫폼과 툴을 사용하여 그들의 하둡 환경을 향상시킬 것을 추천했다. 가능하다면 기업들은 아파치 하둡을 기반으로 하여 하둡의 오픈소스 배포를 확장시키는 상용 제품들 및 툴들의 기능성, 확장성, 성숙도 등을 평가해야 한다.

보고서에서는 그 예로 클라우데라(Cloudera), EMC 그린플럼, IBM, 호튼웍스(Hortonworks) 등과 같은 업체들에서 제공하는 하둡 제품들을 꼽았다. 그리고 이에 덧붙여 상업적인 옵션을 선택할 수 있다면 굳이 내부적인 하둡 스택은 사용하지 않는 것이 좋다고 전했다.

코빌러스는 너무 초기부터 완전히 표준화하거나 한 업체에만 매이는 것도 좋지 않은데 시장이 향후 몇 년 동안 어떻게 변해갈지 아직 알 수 없기 때문이라고 밝혔다.

또한 코빌러스는 기업들이 그들만의 하둡 센터를 훌륭하게 구축하게 될 것이라 전망했다. 하둡에 익숙한 전문가들이 극히 부족한 상황에서 기업들은 가능한 내부에서 하둡 기술을 시도하고 발전시켜야 할 것이기 때문이다.

마지막으로 코빌러스는 데이터베이스 관리자와 통합 전문가들의 능력을 향상시키고 그들이 맵리듀스(MapReduce)와 같은 기술들에 익숙해지도록 만드는데 중점을 둬야 하며, 그들이 모범 사례들이나 최근 동향에서 뒤쳐지지 않도록 더 넓은 하둡 커뮤니티와 연결되어 있어야 한다고 덧붙였다. ciokr@idg.co.kr



BI
2011.10.13

포레스터, “빅 데이터, 기술보다는 비즈니스적 접근 필요”

Jaikumar Vijayan | Computerworld
기업이 IT를 도입할 때 비즈니스 중심적인 태도를 취하라는 포레스터의 충고는 귀담아 들을 필요가 있다.

포레스터 리서치가 11일 발표한 새 보고서는 기업들이 ‘빅 데이터’ 처리를 위해 하둡(Hadoop)을 도입할 때 실용적으로 접근할 것을 강력히 권하고 있다.

이 보고서는 야후, AOL, 모질라(Mozilla), 클라우트(Klout) 등 하둡을 일찍이 받아들였던 일부 기업들이 직접 겪은 경험에서 비롯된 것이다. 또한 이 보고서는 기업들에게 IT 관련 광고에 현혹되지 말라고 충고하고 순수하게 비즈니스 목적으로 추진되는 단계적인 하둡 도입을 지지했다.

보고서에서는 “사업적 가치가 없는 하둡의 ‘과학 프로젝트’들은 피해야 한다. 기술적으로 놀라운 하둡의 성능들을 현실적인 사업적 가치를 제공하는 실제 비즈니스 사례와 혼동하지 않도록 주의하라”고 지적했다.

하둡은 기업들이 초대용량 데이터를 관리하고 처리할 수 있도록 돕게끔 설계된 오픈소스 기술이다. 무엇보다 대용량의 데이터 세트를 작은 데이터 블록 단위로 쪼개어 상용 하드웨어 클러스터에 분배함으로써 더 빠른 처리 속도를 달성할 수 있다는 점에서 하둡의 인기는 날이 갈수록 높아지고 있다.

얼리 어답터들은 주로 다른 기업 DW 기술들로는 쉽게 처리할 수 없었던 PB 단위의 비정형 데이터들을 저장하고 분석하는데 하둡을 이용해 왔다. 특히 업체 지원의 확대와 함께 하둡이 오픈소스 기술이라는 점은 기업들 사이에서 큰 관심을 끌었다.

포레스터의 애널리스트이자 이 보고서의 공동 저자 중 한 명인 제임스 코빌러스는 “하둡은 DW계의 리눅스인 셈이다. 현재 기업들이 하둡을 도입하지만, 여전히 그것은 모호하며 계속해서 수정되고 최적화되고 있다. 이는 리눅스가 초기에 겪었던 것과 매우 닮아 있다”고 말했다.

코빌러스는 “하둡은 특히 클라우드 기반 환경에 있는 기업들에게 중요한 것들을 보장한다. 그것은 애초부터 DW보다 더 많은 것을 제공하도록 설계되었다. 또한 그것은 종래의 관계형 데이터베이스 기술들이 그러하듯 정형 데이터, 관계형 데이터에 국한되는 것이 아니라 처음부터 막대한 양의 복잡한, 비정형 콘텐츠까지 처리할 수 있도록 설계됐다”라고 설명했다.

하지만 그는 “그렇다고 해도 그 기술은 여전히 진행 중이다. 하둡의 비교적 생소함, 자체의 미숙함, 표준 부족, 상용 제품의 상대적 부족과 낮은 기술 접근성 등 이 모든 것들이 기업들에게는 아주 큰 어려움들을 제기한다”라고 지적했다.  

포레스터의 보고서에서는 일련의 모범 사례들을 간략하게 소개하고 있으며 코빌러스는 기업들이 하둡을 도입할 때 이 것들을 일종의 가이드로 삼을 수 있을 거라 말했다.

코빌러스는 기업들이 분명한 빅 데이터 사업 전략에 맞추어 하둡 계획을 진행시킬 것을 추천했다. IT 매니저들은 하둡의 기능들이 어떠한 상황에서 분명한 혜택을 가져다 줄지 구체적인 사업 상황들을 파악해야 할 필요가 있다. 코빌러스는 그 예로 야후의 하둡 이용 사례를 예로 들며 하둡이 광고 배치를 목적으로 한 야후의 초대용량 데이터 세트의 분석을 계속해서 돕고 있다고 설명했다.

기업들이 하둡을 도입하는 데에는 이처럼 구체적인 목표들이 필요하다. 대부분의 경우 단기적인 이익과 실질적으로 눈에 보이는 효과를 가져오는 프로젝트로 시작하는 것이 좋다. 또한 하둡을 도입하기 전에 다른 기업 DW 기술들은 과연 그 요구 사항을 충족시켜줄 수 없는지 확인하는 것도 좋다.

포레스터 보고서는 “다양한 데이터 타입들을 포함하면서 데이터 용량이 거의 수백 테러바이트 혹은 PB 단위로 올라갈 것 같은 경우에만 하둡과 같은 빅 데이터 접근 방식을 사용하라. 만약 데이터 저장소, 컴퓨팅 및 네트워킹 용량 등에 너무 과한 투자를 하게 되면 아무런 부수적 사업 이익이 없는데도 가격만 높게 산정해야 할 것이다”라고 경고했다.

또한 포레스터는 보고서는 기업들이 대기업용 수준의 플랫폼과 툴을 사용하여 그들의 하둡 환경을 향상시킬 것을 추천했다. 가능하다면 기업들은 아파치 하둡을 기반으로 하여 하둡의 오픈소스 배포를 확장시키는 상용 제품들 및 툴들의 기능성, 확장성, 성숙도 등을 평가해야 한다.

보고서에서는 그 예로 클라우데라(Cloudera), EMC 그린플럼, IBM, 호튼웍스(Hortonworks) 등과 같은 업체들에서 제공하는 하둡 제품들을 꼽았다. 그리고 이에 덧붙여 상업적인 옵션을 선택할 수 있다면 굳이 내부적인 하둡 스택은 사용하지 않는 것이 좋다고 전했다.

코빌러스는 너무 초기부터 완전히 표준화하거나 한 업체에만 매이는 것도 좋지 않은데 시장이 향후 몇 년 동안 어떻게 변해갈지 아직 알 수 없기 때문이라고 밝혔다.

또한 코빌러스는 기업들이 그들만의 하둡 센터를 훌륭하게 구축하게 될 것이라 전망했다. 하둡에 익숙한 전문가들이 극히 부족한 상황에서 기업들은 가능한 내부에서 하둡 기술을 시도하고 발전시켜야 할 것이기 때문이다.

마지막으로 코빌러스는 데이터베이스 관리자와 통합 전문가들의 능력을 향상시키고 그들이 맵리듀스(MapReduce)와 같은 기술들에 익숙해지도록 만드는데 중점을 둬야 하며, 그들이 모범 사례들이나 최근 동향에서 뒤쳐지지 않도록 더 넓은 하둡 커뮤니티와 연결되어 있어야 한다고 덧붙였다. ciokr@idg.co.kr

X