사례 | ‘빅 데이터로 보안 역량 개선’ 지온스의 성공담

CSO

지난 해를 기점으로 빅 데이터는 IT 업계 가장 주목 받는 용어의 하나로 자리 잡았다. 이것이 가져올 기업 보안의 새로운 미래는 많은 이들을 흥분시키고 있다. 물론 모두는 아니다. 아직도 꽤 많은 이들이 그 개념을 이해하는데 어려움을 겪고 있는 것이 사실이다. 몇 년 전 클라우드 보안을 어려워했던 이들과 같이 말이다.

지온스 뱅코퍼레이션(Zions Bancorporation)의 CISO 겸 보안 사업부 상무 프레스턴 우드는 그토록 많은 이들이 빅 데이터를 이해하고 다루는 것을 어려워한다는 사실이 조금은 의문스럽다는 입장이다.

그는 (명칭에는 변화가 있어왔지만) 이미 오래 전부터 빅 데이터를 보안 프로그램 보강에 적용해온 인물이다. 그리고 우드의 팀은 최근 데이터가 보다 자유롭고 신속하게 네트워크를 오갈 수 있도록 프로세싱 과정을 정비하는 작업을 시작했다. 하둡(Hadoop)과 같은 툴들의 채택을 통해 그들은 데이터 분석 과정에서 큰 폭의 효율성 향상을 이끌어낼 수 있었다. 그들은 기존엔 하루가 꼬박 걸리던 업무를 실시간에 가까운 속도로 마무리할 방법은 없을지에 관하여도 많은 고민을 해왔다. 여기 지온스의 성공담을 소개한다.

오래됐지만 새로운 무엇
‘빅 데이터'란 용어 자체는 새로운 것이지만, 지온스는 기업의 보안 상황을 이해하기 위해 막대한 정보를 처리하며(이들의 보안 툴 및 기기는 단독으로 매주 3 TB 가량의 정보를 생산한다) 1990년대부터 이 개념을 비즈니스에 적용해왔다. 우드는 “우리는 빅 데이터가 빅 데이터로 불리우기 이전부터 관련 전략을 갖추고 있었다”라고 말했다.

이 기업엔 활용할 데이터가 충분히 갖춰져 있었다. 지온스는 서부 전역에서 8개의 산하 은행의 지점 500여 곳을 운영하고 있으며 보안 정보 및 사건 관리(SIEM, Security Information and Event Management) 테크놀로지를 초창기부터 도입했던 바 있다. 실제로 데이터 플로우 분석 활용과 관련해 시장 선도자로도 잘 알려져 있다.

빅 데이터와 관련해, 전문가들은 흔히 그것이 가져다주는 수익 증대의 가능성에, 혹은 보다 작게는 주요 비즈니스 인텔리전스(BI, Business Intelligence) 및 애널리틱스(analytics)의 대형 웨어하우스에 가해질 수 있는 (잠재적) 보안 리스크에 주목하는 경향이 많다.

그러나 지온스는 문제를 다르게 바라봤다. 그들은 정보를 보안 체계의 구멍으로 바라보는 대신 빅 데이터를 활용한 보안 역량 개선 가능성에 주목했다. 기업의 거대한 데이터 스토어가 네트워크 활동에 대한 시각을 제공해줄 수 있다는 것이 그들의 생각이었다.

다시 말해 기업 내, 외부의 누군가가 시스템을 뒤져 침입 경로를 모색하고 있다면, 그 주변에는 반드시 흔적이 있을 것이며, 유입되는 대규모의 데이터를 분석함으로써 그 단서를 발견해낼 수 있다는 것이다.


SIEM 도입
데이터를 보다 나은 방식으로 분석하고 그를 통해 확보된 시각을 보안 사업부에 전달하기 위해 우드는 기업에 SIEM 테크놀로지를 도입하기로 결정했다. 도입된 SIEM 테크놀로지는 다음의 측면들에서 보안 능력 향상을 가능케 했다.

- 보안 사업부에 네트워크, 보안, 서버, 데이터베이스, 애플리케이션 등 다양한 소스로부터 유입되는 데이터를 통합할 수 있는 역량을 제공해 줌으로써 데이터와 핵심 사건을 모니터링하는 과정이 보다 통합적으로 이뤄질 수 있게 했다.

- 통합된 데이터를 사례의 유사성을 기준으로 범주화 해 공격 발생에 대한 대응 능력을 향상 시켜 주었다.

- 이상 활동에 대한 감시 체계를 개선해 주었다.

규모의 문제
그러나 지온스의 SIEM 활용은 2008년 벽에 부딪히게 된다. 유입되는 데이터의 규모와 복잡성이 지나치게 증대되 관리 과정에 어려움이 생긴 것이다. 데이터 축적과 사건 분석 빈도의 부담은 손쉽게 SIEM을 압도했고, 이를 정상화하는 데에는 수 개월에서 수 년이 걸릴 것으로 보였다.

우드는 “SIEM이 완전히 쓸모 없게 되어버린 것은 아니었다. 단지 다른 무언가, 다시 말해 이를 확장해 줄 새로운 요소로 대체될 필요가 생긴 것이다. 기존의 SIEM은 데이터에게 무엇을 할 지는 말해줄 수 있었지만, 우리에겐 뭘 해야 할지 알려주지 않았다”라고 말했다.

이들 팀은 잃어버린 퍼즐 조각을 찾는 작업에 돌입했고 그 해답을 하둡에서 발견했다. 오픈소스 하둡은 오늘날 많은 빅 데이터 보안 프로그램들을 성공으로 이끈 엔진으로 각광 받고 있다. 기업들은 이를 활용해 그들 네트워크를 오가는 막대한 규모의 정형, 비정형 데이터들을 수집하고 공유, 분석할 수 있다.

우드는 하둡의 효력을 확신했다. 이들 기업은 2010년 하둡으로의 이전 작업을 시작했다. 일 년도 지나지 않아 이들 팀은 플랫폼을 독점적으로 사용하게 됐다. 효과는 급속도로 나타났다. 수 많은 보안 툴과 기기들에서 쏟아져 오는 수 페타바이트의 데이터들로 인해 시스템 로그인에만 하루를 소요하던 지온스는 이제 모든 작업을 거의 실시간으로 진행할 수 있게 되었다.

그는 “이제 SIEM은 보안 데이터 웨어하우스에 공급되는 일부 데이터 소스들을 위한 것이 되었다”라고 말했다.

하둡과 보안
범죄자들은 눈 깜짝할 사이에 기업의 데이터와 네트워크를 공격할 능력을 개발하고 있다. 이런 상황 속에서 동시에 다수의 데이터 소스를 처리해 맬웨어의 네트워크 감염 시도나, 피싱(phishing) 등의 소셜 공학과 같은 주변의 이상 신호를 감지할 수 있게 해주는 하둡의 역할은 매우 중요하다 할 수 있다.

시큐로시스(Securosis)의 CTO 겸 보안 애널리스트 아드리안 레인은 하둡을 통해 빅 데이터 보안 활동의 경제성 역시 향상될 수 있을 것이라 덧붙였다. 그는 “클라우드는 빅 데이터에 대한 접근성을 높여주었다. 그리고 그 중심에는 하둡과 같은 무료 툴들의 역할이 컸다. 비용 절감은 그들이 제공하는 핵심 가치 중 하나다”라고 말했다.


하둡의 원리
아파치 하둡 사이트는 자신들의 테크놀로지를 ‘심플한 프로그래밍 모델을 활용해 컴퓨터 클러스터의 대규모 데이터 셋에 대한 분산 프로세싱을 지원하는 프레임워크'로 설명하고 있다. 이는 단일 서버를 독자적인 로컬 컴퓨테이션(local computation) 및 스토리지를 제공하는 수천의 머신으로 확장하도록 설계돼, ‘하드웨어의 유효성에 의존하는 대신 라이브러리가 자체적으로 애플리케이션 레이어에서의 정지를 포착하고 관리하도록 설계가 이뤄져 정지 가능성이 존재하는 컴퓨터 클러스터 상부에서 유효성 높은 서비스를 전달한다.’

하둡이 포함하는 모듈들은 다음과 같다.

- 하둡 커먼(Hadoop Common): 타 하둡 모듈들을 지원하는 공통 유틸리티
- 하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System): 어플리케이션 데이터에 대한 높은 스루풋 액세스(throughput access)를 제공하는 분산 파일 시스템
- 하둡 YARN: 작업 스케줄링(job scheduling) 및 클러스터 자산 관리용 프레임워크
- 하둡 맵리듀스(Hadoop MapReduce): 대형 데이터 셋의 병렬 프로세싱용 YARN 기반 시스템

아파치가 포함하는 기타 하둡 관련 프로젝트들:

- 애브로(Avro): 데이터 직렬화 시스템
- 카산드라(Cassandra): 단일 장애 지점(single points of failure)을 가지지 않는 확장형 멀티 마스터 데이터베이스(multi-master database)
- 슈크와(Chukwa): 대형 분산 시스템 관리를 위한 데이터 수집 시스템
- H베이스(HBase): 대형 테이블(table) 용 정형 데이터 스토리지를 지원하는 확장, 분산형 데이터베이스
- 하이브(Hive): 데이터 요약 및 에드 혹 쿼링(ad hoc querying)을 제공하는 데이터 웨어하우스 인프라스트럭처
- 머하웃(Mahout): 확장형 기계 학습 및 데이터 마이닝(data-mining) 라이브러리
- 피그(Pig): 병렬 컴퓨테이션용 고급 데이터 플로우 언어 및 실행 프레임워크
- 주키퍼(ZooKeeper): 분산형 어플리케이션용 고성능 조정 서비스

CIO, CSO의 과제
하둡을 채택하기로 결정했다면, 이러한 툴과 관련한 호환 및 배치 문제를 비롯한 각종 취약성에 대한 인식 역시 필요할 것이다.

지온스 테크놀로지 운영 리스크 및 관리 팀의 디렉터 알렉스 허튼은 “지금까지 경험해왔던 통제, 리스크, 준수(GRC ; Governance, Risk and Compliance) 설치 과정에서와 같이 하둡 역시 제대로 활용되지 못한다면 기업들에 막대한 자금적 부담을 줄 위험이 있다”라고 말했다.

허튼은 무작정 뛰어드는 대신 철저한 사전 준비를 함으로써 이러한 위험을 없앨 수 있을 것이라 조언했다. 그는 “처리하려는 데이터의 로드맵을 세부적으로 검토해보고 하둡이 네트워크의 나머지 부분들에 어떤 영향을 미칠지 역시 신중하게 고민해보라. 명확한 분류 모델을 개발하고 그것을 이행하기 위한 강력한 지표를 설정하는 노력이 필요하다”라고 강조했다.

허튼은 “우리는 구조적이고 반복 가능한 방식으로 보안 사고를 설명하기 위한 공통 언어를 제공하는 사건 기록 및 사고 공유 어휘(VERIS, Vocabulary for Event Recording and Incident Sharing)와 커스텀 컨트롤(custom control)을 결합함으로써 문제를 해결했다”라고 지온스의 사례를 소개했다.

그는 이어 “커스텀 컨트롤과 VERIS는 우리의 지표 온톨로지(ontology for metrics)라 할 수 있다. 정보 리스크 인자 분석(FAIR, Factor Analysis of Information Risk)은 우리의 리스크 온톨로지이다. 이 온톨로지들은 특정 매트릭스 지원 및 구상적 카테고리를 설명하는 역할을 한다”라고 덧붙였다.

허튼은 이런 준비 없이는 빅 데이터를 보안 툴로 사용하는 과정이 성공으로 이어질 수 없을 것이라 조언했다.

그는 “지온스에서는 신규 웨어하우스 배치에 앞선 우드와 팀원들의 사전 노력을 통해 모든 과정이 순조롭게 마무리될 수 있었다. 이러한 숙제를 잘 마무리해 성공적으로 배치를 마무리할 수 있길 바란다”라고 말했다.

-> 빅 데이터의 화룡정점은 ‘빅 보안’
-> 빅 데이터 잠재력, 보안 문제에도 유효?
ciokr@idg.co.kr