2012.06.19

기고 | 하둡이 할 수 있는 것과 할 수 없는 것

Brian Proffit | ITWorld
현재의 데이터 인프라가 모두 하둡으로 바뀌지는 않을 것이다. 대신 데이터 인프라를 확대할 수는 있다. 이점을 이해한다면, 우리가 하둡으로 무엇을 할 수 있는지가 좀더 명확해 진다.

비즈니스를 위한 빅 데이터 사용의 유혹은 강력하며, 현재 많은 빅 데이터 솔루션의 핵심으로 자리잡고 있는 확장형 저장소 플랫폼 아파치 하둡보다 더 매력적인 솔루션은 없다.

하지만 하둡이 매력적인 만큼 하둡이 기업에서 어떤 역할을 할 수 있으며 최적의 도입 방법은 무엇인지 이해하는 것은 여전히 쉽지 않다.

하둡으로 무엇을 할 수 있고 없는지를 이해함으로써 사용자는 자체 데이터센터 또는 클라우드에서 하둡을 최적의 상태로 이행하는 방법에 관한 명확한 그림을 그릴 수 있게 된다. 여기서 하둡의 배치를 위한 모범 경영을 시작할 수 있다.

하둡으로 할 수 없는 것
하둡이 무엇인지에 관해서는 장황하게 설명하지 않겠다. 왜냐하면 해당 내용은 문서와 미디어를 통해 충분히 접할 수 있기 때문이다. 하둡의 두 가지 주요 구성요소를 아는 것이 중요하다. 그것은 바로 저장소를 위한 하둡의 분산형 저장소 시스템과 사용자가 하둡 내에 저장한 모든 데이터에 대하여 배치(Batch) 분석을 수행할 수 있도록 하는 맵리듀스 프레임워크다. 잘 알려져 있다시피 데이터가 정형화되어 있을 필요는 없다. 이 때문에 소셜 미디어, 문서, 그래픽 등 행과 열로 정리하기가 쉽지 않은 출처로부터 얻은 데이터를 분석하기에 하둡이 이상적인 이유다.

그렇다고 해서 하둡을 정형화된 데이터를 위해 사용할 수 없다는 말은 아니다. 사실, 관계형 데이터베이스 시스템(RDBMS) 대신에 정형화된 데이터를 저장하기 위해 TB당 저장 비용이 상대적으로 낮은 하둡의 장점을 이용하는 많은 솔루션들이 있다. 하지만 굳이 대용량 저장소가 필요한 것이 아니라면 하둡과 RDBMS 사이에서 데이터를 이리저리 옮기는 것은 상당한 부담이 될 수 있다.


하둡이 적절하지 않은 영역이 있다면 그것은 바로 거래 데이터다. 트랜잭션 데이터는 상거래 사이트에서 생성되는 신속하게 처리해야 할 많은 단계를 생성하기 때문에 기본적으로 매우 복잡하다. 이런 시나리오는 하둡을 사용하기에 적절하지 않다.

또한 웹 사이트가 일반적인 LAMP 스택(Stack)에서 MySQL 데이터베이스를 통해 제공할 경우 등 최소한의 레이턴시(Latency)를 필요로 하는 정형화된 데이터 세트에 최적화되어 있다고 볼 수 없다. 속도가 요구될 경우 하둡의 효용성은 떨어지게 된다.

2012.06.19

기고 | 하둡이 할 수 있는 것과 할 수 없는 것

Brian Proffit | ITWorld
현재의 데이터 인프라가 모두 하둡으로 바뀌지는 않을 것이다. 대신 데이터 인프라를 확대할 수는 있다. 이점을 이해한다면, 우리가 하둡으로 무엇을 할 수 있는지가 좀더 명확해 진다.

비즈니스를 위한 빅 데이터 사용의 유혹은 강력하며, 현재 많은 빅 데이터 솔루션의 핵심으로 자리잡고 있는 확장형 저장소 플랫폼 아파치 하둡보다 더 매력적인 솔루션은 없다.

하지만 하둡이 매력적인 만큼 하둡이 기업에서 어떤 역할을 할 수 있으며 최적의 도입 방법은 무엇인지 이해하는 것은 여전히 쉽지 않다.

하둡으로 무엇을 할 수 있고 없는지를 이해함으로써 사용자는 자체 데이터센터 또는 클라우드에서 하둡을 최적의 상태로 이행하는 방법에 관한 명확한 그림을 그릴 수 있게 된다. 여기서 하둡의 배치를 위한 모범 경영을 시작할 수 있다.

하둡으로 할 수 없는 것
하둡이 무엇인지에 관해서는 장황하게 설명하지 않겠다. 왜냐하면 해당 내용은 문서와 미디어를 통해 충분히 접할 수 있기 때문이다. 하둡의 두 가지 주요 구성요소를 아는 것이 중요하다. 그것은 바로 저장소를 위한 하둡의 분산형 저장소 시스템과 사용자가 하둡 내에 저장한 모든 데이터에 대하여 배치(Batch) 분석을 수행할 수 있도록 하는 맵리듀스 프레임워크다. 잘 알려져 있다시피 데이터가 정형화되어 있을 필요는 없다. 이 때문에 소셜 미디어, 문서, 그래픽 등 행과 열로 정리하기가 쉽지 않은 출처로부터 얻은 데이터를 분석하기에 하둡이 이상적인 이유다.

그렇다고 해서 하둡을 정형화된 데이터를 위해 사용할 수 없다는 말은 아니다. 사실, 관계형 데이터베이스 시스템(RDBMS) 대신에 정형화된 데이터를 저장하기 위해 TB당 저장 비용이 상대적으로 낮은 하둡의 장점을 이용하는 많은 솔루션들이 있다. 하지만 굳이 대용량 저장소가 필요한 것이 아니라면 하둡과 RDBMS 사이에서 데이터를 이리저리 옮기는 것은 상당한 부담이 될 수 있다.


하둡이 적절하지 않은 영역이 있다면 그것은 바로 거래 데이터다. 트랜잭션 데이터는 상거래 사이트에서 생성되는 신속하게 처리해야 할 많은 단계를 생성하기 때문에 기본적으로 매우 복잡하다. 이런 시나리오는 하둡을 사용하기에 적절하지 않다.

또한 웹 사이트가 일반적인 LAMP 스택(Stack)에서 MySQL 데이터베이스를 통해 제공할 경우 등 최소한의 레이턴시(Latency)를 필요로 하는 정형화된 데이터 세트에 최적화되어 있다고 볼 수 없다. 속도가 요구될 경우 하둡의 효용성은 떨어지게 된다.

X