2012.10.09

기고 | 빅 데이터에 대한 고민과 실질적인 해답들

Mat Young | Techworld

‘크다'는 것은 정확히 어떤 의미인가? 이는 관점에 따라 달라지는 개념이 아닐까? ‘빅(Big)’이라는 단어는 상당한 모호함을 내포하고 있다. 최근 빅 데이터(Big Data)의 개념은 많은 이들에게 관심의 대상으로 자리 잡고 있다. 하지만 이와 관련한 시장의 담론은 종종 두리뭉실한 마케팅 수식어들로 가득한 모습을 보여주고 있다. 이제 빅 데이터는, 좀더 분명한 태도로 자신의 가치를 증명하는 과제를 수행해야 할 것이다.

사실 빅 데이터는 새로운 개념이 아니다. 그런데도 오늘날 빅 데이터에 이와 같이 큰 관심이 쏠리는 이유는 우리가 태블릿과 스마트폰, 그리고 그 속의 여러 앱들을 통해 수집하는 정보의 규모가 과거 그 어느 때보다 커진 데 있다. 또한 우리는 다양한 정형, 비정형 데이터를 수집하고 있다. 대용량의 이미지와 비디오 파일을 포함한 교류 GPS 자료, 증권 시장 정보, 소셜 미디어 포스트는 모두 한 곳의 데이터베이스에 저장되며, 또 그와 동시에 즉각적인 분석을 요구한다.

데이터 세트 처리 속도
우리가 이 데이터 세트에서 정보를 추출하는 과정에 좀 더 익숙해진다면, 빅 데이터는 머지 않아 새로운 표준으로 자리 잡게 될 것이다. 하지만 그 전까지는 각 정보 사이의 연관성을 증명하면서 적절한 데이터 세트 처리 속도를 담보해야 한다는 커다란 과제가 빅 데이터를 괴롭히고 자극할 것이다.

빅 데이터의 ‘빅'이란 형용사는 이것이 포괄하는 데이터 세트의 규모, 또는 데이터의 증가와 변화의 속도를 의미할 수도 있을 것이고, 이것이 구성하는 관계와 구조의 복잡성을 나타낼 수도 있을 것이다. 특히 이 중 변화율이나 속도를 확인하는 문제는 우리에게 빅 데이터를 둘러싼 과제들에 대한 어떠한 시각을 제시해준다. 즉 무어의 법칙을 따라 발전하는 CPU의 성능과 비교하면, 데이터 스토리지 시스템 트랜잭션 성능의 발전은 상대적으로 정체 상태를 겪고 있으며 그로 인해 CPU의 데이터 처리 역량이 충분히 활용되지 못하게 되는 것이다.

CPU와 관련해 데이터 획득 과정이 충분한 속도를 확보하지 못한다면 분석돼야 할 데이터는 정체를 겪게 될 것이고, 이는 시스템 장애로 이어질 것이다. 실제로 이러한 문제는 빅 데이터 활용 과정에서 흔히 일어나고 있다. 그리고 그 문제의 규모는 기업 인프라의 규모에 비례해 증대될 것이다.

이러한 과제 극복을 위해 일반적으로 활용되어 온 전략은 하드웨어 및 소프트웨어 스케일 아웃(scale out)이다. 스케일 아웃은 적절한 비용 투자를 통해 효율적인 문제 해결을 가능하게 하며 기업들에게 널리 적용돼 왔다. 그간 소프트웨어는 스케일 아웃 빌딩 블록(building block)을 CPU와 RAM, 그리고 일부 스토리지(이들 스토리지는 CPU에 비해 상대적으로 느린 속도를 지원한다)로 구성된 하나의 서버로 인식하는 가정에 기초해 성장하고 개발되어왔다. 그리고 데이터 공급 문제의 해결은 CPU 효율성 증대보다는 새로운 서버 증설을 통해 이뤄지는 것이 보다 일반적인 전략으로 여겨져 왔다. 서버의 가격이 상대적으로 저렴했기 때문이다.

SW•HW 스케일 아웃
하지만 메모리 티어(memory tier)로 낸드 플래시(NAND flash)를 활용하고 이를 비하인드 디스크 프로토콜(behind disk protocol)로 제한하지 않음으로써 CPU의 작업량은 10배 이상 증대될 수 있게 되었다. 플래시를 메모리 티어로 적용함으로써 기업들은 DRAM만을 단독으로 사용할 때보다 수 테라바이트 큰 규모의 데이터를 각 서버의 고성능 메모리를 통해 호스팅할 수 있게 된다. 물론 일부 상황에서는 여전히 스케일 아웃이 필요하기도 하겠지만, 빅 데이터 프로세싱 수요를 수용하기 위해 매번 막대한 규모의 스케일 아웃을 진행할 필요성은 사라질 것이다.

이와 같은 애플리케이션 가속(application acceleration)을 통해 많은 기업들은 그들의 기존 작업량을 큰 폭으로 뛰어넘는 수준으로 현재의 아키텍처를 측정할 수 있게 될 것이다. 그러나 여전히 한계는 존재한다. 기업들은 여기에서 한 단계 더 나아가 빅 데이터가 소프트웨어 디자인 인터페이스를 통해 장황한 아키텍처 요소들을 우회해 낸드 플래시를 직접 활용할 수 있도록 지원함으로써 CPU가 데이터 저장 처리를 보다 효율적으로 진행할 수 있도록 해야 할 것이다.




2012.10.09

기고 | 빅 데이터에 대한 고민과 실질적인 해답들

Mat Young | Techworld

‘크다'는 것은 정확히 어떤 의미인가? 이는 관점에 따라 달라지는 개념이 아닐까? ‘빅(Big)’이라는 단어는 상당한 모호함을 내포하고 있다. 최근 빅 데이터(Big Data)의 개념은 많은 이들에게 관심의 대상으로 자리 잡고 있다. 하지만 이와 관련한 시장의 담론은 종종 두리뭉실한 마케팅 수식어들로 가득한 모습을 보여주고 있다. 이제 빅 데이터는, 좀더 분명한 태도로 자신의 가치를 증명하는 과제를 수행해야 할 것이다.

사실 빅 데이터는 새로운 개념이 아니다. 그런데도 오늘날 빅 데이터에 이와 같이 큰 관심이 쏠리는 이유는 우리가 태블릿과 스마트폰, 그리고 그 속의 여러 앱들을 통해 수집하는 정보의 규모가 과거 그 어느 때보다 커진 데 있다. 또한 우리는 다양한 정형, 비정형 데이터를 수집하고 있다. 대용량의 이미지와 비디오 파일을 포함한 교류 GPS 자료, 증권 시장 정보, 소셜 미디어 포스트는 모두 한 곳의 데이터베이스에 저장되며, 또 그와 동시에 즉각적인 분석을 요구한다.

데이터 세트 처리 속도
우리가 이 데이터 세트에서 정보를 추출하는 과정에 좀 더 익숙해진다면, 빅 데이터는 머지 않아 새로운 표준으로 자리 잡게 될 것이다. 하지만 그 전까지는 각 정보 사이의 연관성을 증명하면서 적절한 데이터 세트 처리 속도를 담보해야 한다는 커다란 과제가 빅 데이터를 괴롭히고 자극할 것이다.

빅 데이터의 ‘빅'이란 형용사는 이것이 포괄하는 데이터 세트의 규모, 또는 데이터의 증가와 변화의 속도를 의미할 수도 있을 것이고, 이것이 구성하는 관계와 구조의 복잡성을 나타낼 수도 있을 것이다. 특히 이 중 변화율이나 속도를 확인하는 문제는 우리에게 빅 데이터를 둘러싼 과제들에 대한 어떠한 시각을 제시해준다. 즉 무어의 법칙을 따라 발전하는 CPU의 성능과 비교하면, 데이터 스토리지 시스템 트랜잭션 성능의 발전은 상대적으로 정체 상태를 겪고 있으며 그로 인해 CPU의 데이터 처리 역량이 충분히 활용되지 못하게 되는 것이다.

CPU와 관련해 데이터 획득 과정이 충분한 속도를 확보하지 못한다면 분석돼야 할 데이터는 정체를 겪게 될 것이고, 이는 시스템 장애로 이어질 것이다. 실제로 이러한 문제는 빅 데이터 활용 과정에서 흔히 일어나고 있다. 그리고 그 문제의 규모는 기업 인프라의 규모에 비례해 증대될 것이다.

이러한 과제 극복을 위해 일반적으로 활용되어 온 전략은 하드웨어 및 소프트웨어 스케일 아웃(scale out)이다. 스케일 아웃은 적절한 비용 투자를 통해 효율적인 문제 해결을 가능하게 하며 기업들에게 널리 적용돼 왔다. 그간 소프트웨어는 스케일 아웃 빌딩 블록(building block)을 CPU와 RAM, 그리고 일부 스토리지(이들 스토리지는 CPU에 비해 상대적으로 느린 속도를 지원한다)로 구성된 하나의 서버로 인식하는 가정에 기초해 성장하고 개발되어왔다. 그리고 데이터 공급 문제의 해결은 CPU 효율성 증대보다는 새로운 서버 증설을 통해 이뤄지는 것이 보다 일반적인 전략으로 여겨져 왔다. 서버의 가격이 상대적으로 저렴했기 때문이다.

SW•HW 스케일 아웃
하지만 메모리 티어(memory tier)로 낸드 플래시(NAND flash)를 활용하고 이를 비하인드 디스크 프로토콜(behind disk protocol)로 제한하지 않음으로써 CPU의 작업량은 10배 이상 증대될 수 있게 되었다. 플래시를 메모리 티어로 적용함으로써 기업들은 DRAM만을 단독으로 사용할 때보다 수 테라바이트 큰 규모의 데이터를 각 서버의 고성능 메모리를 통해 호스팅할 수 있게 된다. 물론 일부 상황에서는 여전히 스케일 아웃이 필요하기도 하겠지만, 빅 데이터 프로세싱 수요를 수용하기 위해 매번 막대한 규모의 스케일 아웃을 진행할 필요성은 사라질 것이다.

이와 같은 애플리케이션 가속(application acceleration)을 통해 많은 기업들은 그들의 기존 작업량을 큰 폭으로 뛰어넘는 수준으로 현재의 아키텍처를 측정할 수 있게 될 것이다. 그러나 여전히 한계는 존재한다. 기업들은 여기에서 한 단계 더 나아가 빅 데이터가 소프트웨어 디자인 인터페이스를 통해 장황한 아키텍처 요소들을 우회해 낸드 플래시를 직접 활용할 수 있도록 지원함으로써 CPU가 데이터 저장 처리를 보다 효율적으로 진행할 수 있도록 해야 할 것이다.


X