2016.08.30

원시 데이터 저장소 '데이터 레이크', 어떻게 보호할 것인가

Bob Violino | CSO
조직에서 빅데이터 활용이 갈수록 힘을 받으면서 다수의 사용자에게 각기 필요한 데이터에 대한 접근성을 제공하기 위해 "데이터 레이크(data lake)"를 만드는 기업이 늘고 있다. 그리고 거의 모든 새로운 유형의 IT가 그렇듯, 기업이 반드시 처리해야 할 다양한 보안 위험이 수반된다.


Credit: gettyimagesbank

데이터 레이크(Data lakes)는 막대한 양의 원시 데이터를 본연의 형식 그대로, 필요해질 때까지 보관하는 저장소다. 조직들이 다양한 리소스에서 방대한 양의 데이터를 수집하면서 점차 일반화되고 있는 개념이다.

분석에 대한 비즈니스 요구 증가도 대규모 데이터 저장소 추세를 부추기는 요인이다. 또한 기업들이 셀수없이 많은 네트워크화된 사물로부터 데이터를 수집하는 사물인터넷(IoT)의 성장과 함께 데이터 레이크의 중요성은 더욱 커질 가능성이 높다.

스토리지 업체 코히시티(Cohesity) 창업자이자 CEO인 모히트 아론은 "기업과 소비자가 생성하는 데이터의 양이 과거와는 비교할 수 없을 정도로 많다"며, ""그 결과 사일로 형태의 격리된 데이터 레이크가 폭증했고 기업들은 각 데이터 레이크를 둘러싼 개별적인 보안 경계를 보호해야 한다는 과제에 직면했다"고 말했다.

IT 및 경영 컨설팅 업체 코그니쇼 그롭(Cognitio Group) 창업자이자 CEO 로저 호켄베리는 "데이터 과학은 많은 기업에게 그냥 지나치기 어려운 매력적인 혜택을 약속한다"고 말했다.

호켄베리는 "경쟁 우위를 확보하고 남다른 통찰력과 선행 정보를 얻는다는 것은 경영진 입장에서 매력적인 아이디어다. 그러나 이런 결과를 얻기 위해서는 데이터 과학자가 데이터 레이크를 지지해야 한다. 데이터 레이크는 독자적인 방법으로 분석이 가능한 사유, 오픈소스 및 기타 데이터 집합의 혼합체다"고 말했다.

데이터 레이크는 사이버 범죄자의 주 목표물이 될 수도 있다. 아론은 "데이터 레이크 해킹은 지속적인 위협이다. 기업들이 다수의 데이터 레이크를 운용하면서 위험은 더 고조되고 있다"고 말했다. 아론은 전 구글 엔지니어로서 구글 파일 시스템 2(Google File System 2) 수석 설계자를 거쳤으며 세계 최대 규모의 여러 데이터 레이크를 구축하고 유지하는 일에 참여한 경험이 있다.

이런 정보 리소스가 가진 높은 비즈니스적 가치와 이에 따라 높아지는 위험을 감안하면 보안 및 IT 담당 임원은 데이터 레이크를 높은 우선 순위로 다뤄야 한다. 우선 필요한 것은 데이터 저장소를 최대한 광범위하게 보호해야 할 필요성을 조직의 최고 경영진이 인식하는 것이다.

그러나 그렇지 못한 경우도 있다.

자이스톤 CISO 어드바이저리 서비스(Zyston CISO Advisory Services)에서 CISO 자문 및 컨설팅을 담당하는 파트너인 조나단 스틴랜드는 "민첩성 증대, 비용 절감, 사일로 제거라는 매력적인 요소에 이끌려 많은 조직이 기본적인 정보 거버넌스를 위한 최선의 방법이 무엇인지에 대한 고민없이 데이터 레이크로 뛰어들고 있다"고 지적했다.

전 후지쯔 CISO인 스틴랜드는 "데이터 레이크는 풍부한 데이터가 저장된 목표물이므로 앞으로 이런 형태의 기술과 여기에 연결되는 사용자는 해커의 주 공격 대상이 될 것"이라고 예상했다.

로저 호켄베리는 "데이터 레이크를 매우 중요한 기업 자산으로 관리해야 한다"며, "많은 경우 경영진은 데이터 레이크를 '기술적 문제'로 본다. 그러나 데이터 레이크는 기업 IP[지적 재산]로 봐야 한다. 누군가 이에 대한 접근 권한을 획득한다면 주주 가치에 영향을 미칠 수 있는 전략적 정보를 보고, 연구 개발 자료를 침해하고, 기업의 계획과 의중을 노출시켜 문제를 야기할 수 있다"고 말했다.

데이터 레이크를 보호하는 방법
- 접근 및 권한 부여에 대한 적절한 통제
- 강력한 ID 관리
- 감사 프로세스
- 충분히 테스트된 치밀한 사고 대응 계획
- 데이터 암호화 구현


호켄베리는 "이런 문제에 대처하는 최선의 방법은 기업이 어떤 데이터를 수집하는지, 그 데이터가 어떻게 분석되고 보호되고 전파되는 지를 파악하는 것"이라며, "비즈니스, IT 및 보안 경영진은 정보의 위치에 관계없이 정보를 보호하기 위한 데이터 중심의 위험 관리 전략을 구축해야 한다"고 말했다.

해커와 사이버 범죄자는 대규모 데이터 저장소에 무언가 얻을 것이 있다고 생각되고 해당 데이터 저장소가 충분히 보호되지 않는다는 사실을 감지하면 당연히 이를 공격 목표로 삼게 된다.

호켄베리는 "저장되는 데이터를 감안하면 데이터 레이크는 아주 매력적인 공격 목표다. 데이터 레이크의 내용을 훔친다면 회사가 소유한 가장 중요하고 민감한 데이터의 대부분을 훔칠 수 있게 된다"고 말했다.

기업이 신경 써야 할 가장 큰 위험 가운데 하나는 많은 비용을 초래하는 서비스 거부 공격으로 이어지는 랜섬웨어다. 호켄베리는 "기업의 데이터 사용을 차단하는 것은 단순히 데이터를 훔치는 것보다 훨씬 더 큰 피해를 준다"고 말했다.

데이터 레이크와 관련된 가장 중요한 보안 기능은 권한 부여와 접근이다. 리서치 업체 가트너도 기업이 데이터 레이크의 본질적인 약점을 간과하면 안 된다고 경고한 바 있다. 가트너 분석가 닉 휴데커는 지난해 가트너 비즈니스 인텔리전스 앤드 애널리틱스 서밋(Business Intelligence & Analytics Summit)에서 내용에 대한 감독 없이 데이터를 데이터 레이크에 배치하는 경우가 있다고 말했다.

휴데커는 "조직에서 데이터 레이크에 보관하는 많은 데이터가 프라이버시 및 규제 요건 측면에서 위험 노출(risk exposure)에 해당될 가능성이 높은 데이터"라면서, "중심 데이터 레이크 기술의 보안 기능은 여전히 개발 중이며 데이터 보호를 IT 전문가가 아닌 사람에게 맡겨둘 경우 데이터 보호와 관련된 문제는 해결되지 않는다"고 말했다.

호켄베리는 현재 시중의 데이터 레이크 기술 가운데 상당수는 "객체 수준에서 다면적 통제를 가능하게 해주는 세밀한 보안 통제 기능이 없다"고 지적했다.

데이터 과학과 데이터 레이크가 약속하는 혜택은 대규모 데이터 집합의 자유로운 흐름과 결합을 통해서만 실현이 가능하다. 호켄베리는 "이 자유는 기회를 창출하지만 보안 관점에서 관리를 더 어렵게 하기도 한다. 경영진은 접근과 암호화, 라이프사이클 전반에 걸친 데이터 추적에 관해 질문을 던져야 한다"고 말했다.

조직은 적절한 접근 및 권한 부여 수단을 확보하고 강력한 ID 관리 및 감사 프로세스를 시행해야 한다. 가장 중요한 점은 충분한 테스트를 거친 치밀한 사고 대응 계획을 마련해야 한다는 것이다.

호켄베리는 "공격이 성공적으로 실행된 경우, 이 계획은 어떤 데이터가 얼만큼, 어느 범위까지 침해되었는 지를 신속하게 파악하고 기능만이 아닌 신뢰의 빠른 회복을 위한 방안도 다뤄야 한다"고 말했다.

아론은 "필요한 곳에 데이터 암호화를 구현하는 것도 중요하다"며, "각 데이터 레이크는 각자 고유한 취약점을 가진 엔드포인트가 된다. 보관 중인 데이터는 예외 없이 항상 암호화해야 한다. 자체 암호화되는 드라이브를 사용하면 처음부터 한결 쉽게 데이터를 보호할 수 있다"고 말했다.

아론은 "최근 연이어 발생한 대형 해킹 사건이 조직에게 모든 데이터 아키텍처에서 보안을 최우선 순위로 다뤄야 함을 상기시키는 계기가 되고 있다"면서, "생산되는 데이터의 양이 기하급수적으로 늘어나면서 기업은 이 데이터 스트림을 수용하기 위해 필연적으로 더 많은 데이터 레이크를 만들고 있다. 이러한 이질적 데이터 사일로에는 해커가 탐색하고 침투할 수 있는 문이 더 많을 수밖에 없으므로 보안 담당자에게는 이 부분이 어려운 과제가 된다"고 말했다.

스틴랜드는 "데이터 레이크 기술이 광범위하게 보급될수록 이에 대한 위협 역시 크게 증가할 것임은 분명하다"며, "그러나 가장 큰 위협은 부적절한 기술 구축과 구성으로 인해 발생하는 내부의 위협"이라고 말했다.

그런 만큼 더욱 경영진은 보호해야 할 핵심 리소스 목록에 데이터 레이크를 추가해야 한다.

스틴랜드는 "데이터의 종류에 관계없이 기업에게는 누가 데이터에 접근해야 하고 그 데이터가 어떻게 사용되는 지에 대한 고려가 포함되고 강력한 접근 통제와 로깅이 구현된 보호 대책이 필요하다"며, "특히 데이터에 규제 대상 데이터가 포함되는 경우 일정한 수준의 정보 거버넌스도 여전히 필요하다"고 말했다. editor@itworld.co.kr



2016.08.30

원시 데이터 저장소 '데이터 레이크', 어떻게 보호할 것인가

Bob Violino | CSO
조직에서 빅데이터 활용이 갈수록 힘을 받으면서 다수의 사용자에게 각기 필요한 데이터에 대한 접근성을 제공하기 위해 "데이터 레이크(data lake)"를 만드는 기업이 늘고 있다. 그리고 거의 모든 새로운 유형의 IT가 그렇듯, 기업이 반드시 처리해야 할 다양한 보안 위험이 수반된다.


Credit: gettyimagesbank

데이터 레이크(Data lakes)는 막대한 양의 원시 데이터를 본연의 형식 그대로, 필요해질 때까지 보관하는 저장소다. 조직들이 다양한 리소스에서 방대한 양의 데이터를 수집하면서 점차 일반화되고 있는 개념이다.

분석에 대한 비즈니스 요구 증가도 대규모 데이터 저장소 추세를 부추기는 요인이다. 또한 기업들이 셀수없이 많은 네트워크화된 사물로부터 데이터를 수집하는 사물인터넷(IoT)의 성장과 함께 데이터 레이크의 중요성은 더욱 커질 가능성이 높다.

스토리지 업체 코히시티(Cohesity) 창업자이자 CEO인 모히트 아론은 "기업과 소비자가 생성하는 데이터의 양이 과거와는 비교할 수 없을 정도로 많다"며, ""그 결과 사일로 형태의 격리된 데이터 레이크가 폭증했고 기업들은 각 데이터 레이크를 둘러싼 개별적인 보안 경계를 보호해야 한다는 과제에 직면했다"고 말했다.

IT 및 경영 컨설팅 업체 코그니쇼 그롭(Cognitio Group) 창업자이자 CEO 로저 호켄베리는 "데이터 과학은 많은 기업에게 그냥 지나치기 어려운 매력적인 혜택을 약속한다"고 말했다.

호켄베리는 "경쟁 우위를 확보하고 남다른 통찰력과 선행 정보를 얻는다는 것은 경영진 입장에서 매력적인 아이디어다. 그러나 이런 결과를 얻기 위해서는 데이터 과학자가 데이터 레이크를 지지해야 한다. 데이터 레이크는 독자적인 방법으로 분석이 가능한 사유, 오픈소스 및 기타 데이터 집합의 혼합체다"고 말했다.

데이터 레이크는 사이버 범죄자의 주 목표물이 될 수도 있다. 아론은 "데이터 레이크 해킹은 지속적인 위협이다. 기업들이 다수의 데이터 레이크를 운용하면서 위험은 더 고조되고 있다"고 말했다. 아론은 전 구글 엔지니어로서 구글 파일 시스템 2(Google File System 2) 수석 설계자를 거쳤으며 세계 최대 규모의 여러 데이터 레이크를 구축하고 유지하는 일에 참여한 경험이 있다.

이런 정보 리소스가 가진 높은 비즈니스적 가치와 이에 따라 높아지는 위험을 감안하면 보안 및 IT 담당 임원은 데이터 레이크를 높은 우선 순위로 다뤄야 한다. 우선 필요한 것은 데이터 저장소를 최대한 광범위하게 보호해야 할 필요성을 조직의 최고 경영진이 인식하는 것이다.

그러나 그렇지 못한 경우도 있다.

자이스톤 CISO 어드바이저리 서비스(Zyston CISO Advisory Services)에서 CISO 자문 및 컨설팅을 담당하는 파트너인 조나단 스틴랜드는 "민첩성 증대, 비용 절감, 사일로 제거라는 매력적인 요소에 이끌려 많은 조직이 기본적인 정보 거버넌스를 위한 최선의 방법이 무엇인지에 대한 고민없이 데이터 레이크로 뛰어들고 있다"고 지적했다.

전 후지쯔 CISO인 스틴랜드는 "데이터 레이크는 풍부한 데이터가 저장된 목표물이므로 앞으로 이런 형태의 기술과 여기에 연결되는 사용자는 해커의 주 공격 대상이 될 것"이라고 예상했다.

로저 호켄베리는 "데이터 레이크를 매우 중요한 기업 자산으로 관리해야 한다"며, "많은 경우 경영진은 데이터 레이크를 '기술적 문제'로 본다. 그러나 데이터 레이크는 기업 IP[지적 재산]로 봐야 한다. 누군가 이에 대한 접근 권한을 획득한다면 주주 가치에 영향을 미칠 수 있는 전략적 정보를 보고, 연구 개발 자료를 침해하고, 기업의 계획과 의중을 노출시켜 문제를 야기할 수 있다"고 말했다.

데이터 레이크를 보호하는 방법
- 접근 및 권한 부여에 대한 적절한 통제
- 강력한 ID 관리
- 감사 프로세스
- 충분히 테스트된 치밀한 사고 대응 계획
- 데이터 암호화 구현


호켄베리는 "이런 문제에 대처하는 최선의 방법은 기업이 어떤 데이터를 수집하는지, 그 데이터가 어떻게 분석되고 보호되고 전파되는 지를 파악하는 것"이라며, "비즈니스, IT 및 보안 경영진은 정보의 위치에 관계없이 정보를 보호하기 위한 데이터 중심의 위험 관리 전략을 구축해야 한다"고 말했다.

해커와 사이버 범죄자는 대규모 데이터 저장소에 무언가 얻을 것이 있다고 생각되고 해당 데이터 저장소가 충분히 보호되지 않는다는 사실을 감지하면 당연히 이를 공격 목표로 삼게 된다.

호켄베리는 "저장되는 데이터를 감안하면 데이터 레이크는 아주 매력적인 공격 목표다. 데이터 레이크의 내용을 훔친다면 회사가 소유한 가장 중요하고 민감한 데이터의 대부분을 훔칠 수 있게 된다"고 말했다.

기업이 신경 써야 할 가장 큰 위험 가운데 하나는 많은 비용을 초래하는 서비스 거부 공격으로 이어지는 랜섬웨어다. 호켄베리는 "기업의 데이터 사용을 차단하는 것은 단순히 데이터를 훔치는 것보다 훨씬 더 큰 피해를 준다"고 말했다.

데이터 레이크와 관련된 가장 중요한 보안 기능은 권한 부여와 접근이다. 리서치 업체 가트너도 기업이 데이터 레이크의 본질적인 약점을 간과하면 안 된다고 경고한 바 있다. 가트너 분석가 닉 휴데커는 지난해 가트너 비즈니스 인텔리전스 앤드 애널리틱스 서밋(Business Intelligence & Analytics Summit)에서 내용에 대한 감독 없이 데이터를 데이터 레이크에 배치하는 경우가 있다고 말했다.

휴데커는 "조직에서 데이터 레이크에 보관하는 많은 데이터가 프라이버시 및 규제 요건 측면에서 위험 노출(risk exposure)에 해당될 가능성이 높은 데이터"라면서, "중심 데이터 레이크 기술의 보안 기능은 여전히 개발 중이며 데이터 보호를 IT 전문가가 아닌 사람에게 맡겨둘 경우 데이터 보호와 관련된 문제는 해결되지 않는다"고 말했다.

호켄베리는 현재 시중의 데이터 레이크 기술 가운데 상당수는 "객체 수준에서 다면적 통제를 가능하게 해주는 세밀한 보안 통제 기능이 없다"고 지적했다.

데이터 과학과 데이터 레이크가 약속하는 혜택은 대규모 데이터 집합의 자유로운 흐름과 결합을 통해서만 실현이 가능하다. 호켄베리는 "이 자유는 기회를 창출하지만 보안 관점에서 관리를 더 어렵게 하기도 한다. 경영진은 접근과 암호화, 라이프사이클 전반에 걸친 데이터 추적에 관해 질문을 던져야 한다"고 말했다.

조직은 적절한 접근 및 권한 부여 수단을 확보하고 강력한 ID 관리 및 감사 프로세스를 시행해야 한다. 가장 중요한 점은 충분한 테스트를 거친 치밀한 사고 대응 계획을 마련해야 한다는 것이다.

호켄베리는 "공격이 성공적으로 실행된 경우, 이 계획은 어떤 데이터가 얼만큼, 어느 범위까지 침해되었는 지를 신속하게 파악하고 기능만이 아닌 신뢰의 빠른 회복을 위한 방안도 다뤄야 한다"고 말했다.

아론은 "필요한 곳에 데이터 암호화를 구현하는 것도 중요하다"며, "각 데이터 레이크는 각자 고유한 취약점을 가진 엔드포인트가 된다. 보관 중인 데이터는 예외 없이 항상 암호화해야 한다. 자체 암호화되는 드라이브를 사용하면 처음부터 한결 쉽게 데이터를 보호할 수 있다"고 말했다.

아론은 "최근 연이어 발생한 대형 해킹 사건이 조직에게 모든 데이터 아키텍처에서 보안을 최우선 순위로 다뤄야 함을 상기시키는 계기가 되고 있다"면서, "생산되는 데이터의 양이 기하급수적으로 늘어나면서 기업은 이 데이터 스트림을 수용하기 위해 필연적으로 더 많은 데이터 레이크를 만들고 있다. 이러한 이질적 데이터 사일로에는 해커가 탐색하고 침투할 수 있는 문이 더 많을 수밖에 없으므로 보안 담당자에게는 이 부분이 어려운 과제가 된다"고 말했다.

스틴랜드는 "데이터 레이크 기술이 광범위하게 보급될수록 이에 대한 위협 역시 크게 증가할 것임은 분명하다"며, "그러나 가장 큰 위협은 부적절한 기술 구축과 구성으로 인해 발생하는 내부의 위협"이라고 말했다.

그런 만큼 더욱 경영진은 보호해야 할 핵심 리소스 목록에 데이터 레이크를 추가해야 한다.

스틴랜드는 "데이터의 종류에 관계없이 기업에게는 누가 데이터에 접근해야 하고 그 데이터가 어떻게 사용되는 지에 대한 고려가 포함되고 강력한 접근 통제와 로깅이 구현된 보호 대책이 필요하다"며, "특히 데이터에 규제 대상 데이터가 포함되는 경우 일정한 수준의 정보 거버넌스도 여전히 필요하다"고 말했다. editor@itworld.co.kr

X