2016.12.29

빅데이터가 'CSI'라면, 머신러닝은 '강력계 형사'

Santosh Varughese | Network World
* 본 기고문은 벤더가 작성한 것으로 네트워크 월드 편집진의 수정을 거쳤지만 일부 벤더의 시각이 남아 있을 수 있다.

사이버 보안 전문가가 빅데이터에 열광하는 것은 이것이 데이터 공학의 'CSI(Crime Scene Investigator)'이기 때문이다. 기업이 해킹을 당해 고객 정보가 유출됐을 때 빅데이터를 활용해 시스템과 정보, 고객에 대한 많은 정보를 수집하면 데이터 분석가가 무엇이 잘못되었는지 통찰력을 얻을 수 있다.


Image Credit: Getty Images Bank

하지만 빅데이터는 범죄 발생 후의 해결에 도움이 될 뿐 예방하는 데는 큰 도움이 되지 못한다. 여전히 화난 고객들, HIPAA 및 PCI DSS 같은 데이터 프라이버시 규정 준수 문제, 정부의 벌금, 집단 소송 등 유출 이후의 혼란은 그대로 숙제로 남는다.

따라서 빅데이터를 데이터 유출 발생 후에 도입하면 큰 장점이 사라진다. 속담에도 있듯이 "지난 후에 다 알 수 있다." 사이버 공격 후 빅데이터를 활용하면 그렇게 된다. 하지만 유출이 발생 중이거나 발생할 것임을 알아차리고 피해가 발생하기 전에 멈출 수 있는 능력은 제공하지 못한다. 이 때문에 빅데이터를 단절된 상태에서 사용하면 시스템, 기업, 기타 민감한 정보를 보호할 수 없다.

빅데이터 신봉자는 이를 근거로 해커가 시스템에 침입할 수 있었던 문제를 해결할 수 있다고 강변할 것이다. 어쨌든 무엇이 잘못되었는지 확인할 수 있으니, 시스템을 패치해 재발을 방지할 수 있다는 논리이다. 물론 '똑같은' 문제가 재발하는 것은 방지할 수도 있을 것이다. 하지만 사이버 보안의 세계는 그리 녹록지 않다. 위협 상황은 역동적이며 매일 새로운 기술과 함께 새로운 취약점이 등장한다.

또한 기본적으로 해커는 다른 범죄자와 같다. 기술에 능하고 적응력이 뛰어나며 인간의 본성을 이용하는 방법을 알고 있다. 그들은 항상 상대방의 약점을 찾아낼 것이며 가장 큰 약점은 바로 신뢰하는 사람, 즉 직원이라는 것도 알고 있다. 실제로 해커 대부분은 백 도어(Back Door)를 통해 시스템에 침투하지 않는다. 그들은 정당한 로그인 계정을 이용해 정문으로 들어온다.

이 경우 사후에 할 수 있는 방법은 대개 이런식이다. 빅데이터 분석과 피싱 이메일 등의 소셜 엔지니어링 스키마를 통해 훔친 직원 비밀번호를 이용해 서버 X(Server X)를 사용해 로그인해 시스템에 접근한 해커를 찾을 수 있다(아니면 악의적인내부자가 그들에게 계정을 제공했을 수도 있다). 이 결론을 근거로 피싱 이메일을 찾는 방법과 의심되는 링크 클릭 위험 등 사이버 보안 우수 사례에 대해 직원 교육을 강화하기로 결정할 수 있다.

물론 직원 사이버 보안 교육은 필수적이며 시스템이 더 안전해지는 데 도움이 된다. 그러나 이것은 만병통치약은 아니다. 인간은 실수할 수 있다. 인간은 피곤할 때, 산만할 때, 서두를 때 실수한다. 또한 아무리 교육을 많이 해도 기업을 배신하기로 결심하거나 다크넷(Dark Net)에서 기밀 데이터를 판매해 손쉽게 돈을 벌고 싶은 불만 많은 직원, 해고된 직원, 하도급업자 등 악의적인 내부자까지 멈출 수는 없다.


다행히도 그 대안이 될 해법이 있다. 바로 머신러닝이다. 컴퓨터가 명시적으로 프로그래밍하지 않고도 학습할 수 있으며 학습해 실시간으로 업데이트하는 수학적 알고리즘에 기초한 첨단 기술이다. 자율 주행 자동차에도 적용되는 이 기술은 해커에게 사용할 수 있는 가장 강력한 무기이다. 즉 머신러닝은 빅데이터 분석에는 없는 '보호'를 제공한다. 유출 사건 발생 후 그 이유를 파악하는 대신 데이터 유출 발생 중 또는 전에 확인할 수 있으며 실제적인 피해가 발생하기 전에 차단한다.

머신러닝 기술은 빅데이터를 해석할 뿐 아니라 인간 또는 집단보다 훨씬 빠른 속도로 분석해 통찰을 뽑아낸다. 그 예측 능력 때문에 반응적이기 보다는 선제적이라고 표현하는 것이 더 적절하다. 예를 들면 실시간 머신러닝 기술은 훔친 계정을 사용하는 해커를 찾아내 시스템 접속을 차단할 수 있다.

이 기술은 네트워크보다는 애플리케이션/데이터에 포함돼 있다. 이 인지 방어책은 모든 애플리케이션 로그인을 감시하고 해당 로그인 ID를 이용하는 사람이 애플리케이션에서 행하는 모든 움직임을 파악해 해당 userid의 로그인 세션의 '행동'이 해당 userid의 정상적인 파라미터 또는 기준에서 벗어나는지를 판단한다.

예를 들어, 특정 직원의 계정이 사외에서 사용되거나 해당 직원이 업무 수행에 필요 없는 시스템에 접근하거나 한밤중에 로그인을 시도하는지 등을 확인한다. 머신러닝 기술은 직원의 정상적인 컴퓨터 사용을 분석하고 기준 패턴을 설정했기 때문에 특정 로그인 시도가 정상이 아니며 잠재적으로 위험하다는 것을 알 수 있고 IT 직원이 해당 상황을 조사할 때까지 사용자를 차단한다.

이처럼 머신러닝은 사용자 데이터에 대한 즉각적이고 필수적이며 조치 가능한 통찰을 제공하며, 빅데이터 분석으로는 불가능한 실시간 보호를 제공한다. 정상과 비정상을 지속적으로 학습하기 때문에 시스템을 보호하는 최선의 방법이며 해커가 시스템에 침투해 수 백 또는 수 천 개의 기록을 훔치기 전에 바로 정보에서 차단할 수 있다.

이 기술은 이미 개발돼 상용화됐으며 민감한 데이터를 훔치는 범죄자를 포획해 데이터 유출 및 프라이버시 위반에 대한 조기 경보를 제공하고 있다. 이 사이버 보안 기술은 데이터를 보호하는 고성능 솔루션의 미래이다. 빅데이터가 CSI라면 머신러닝은 사이버 범죄자로부터 시스템을 보호하고 법을 실행하며 범죄를 막는 경찰관인 것이다.

* Varughese는 머신러닝 인공지능을 이용해 해커나 악의적인 사용자를 감지하는 보안 업체 코그니틱스(Cognetyx)의 대표이다. 
2016.12.29

빅데이터가 'CSI'라면, 머신러닝은 '강력계 형사'

Santosh Varughese | Network World
* 본 기고문은 벤더가 작성한 것으로 네트워크 월드 편집진의 수정을 거쳤지만 일부 벤더의 시각이 남아 있을 수 있다.

사이버 보안 전문가가 빅데이터에 열광하는 것은 이것이 데이터 공학의 'CSI(Crime Scene Investigator)'이기 때문이다. 기업이 해킹을 당해 고객 정보가 유출됐을 때 빅데이터를 활용해 시스템과 정보, 고객에 대한 많은 정보를 수집하면 데이터 분석가가 무엇이 잘못되었는지 통찰력을 얻을 수 있다.


Image Credit: Getty Images Bank

하지만 빅데이터는 범죄 발생 후의 해결에 도움이 될 뿐 예방하는 데는 큰 도움이 되지 못한다. 여전히 화난 고객들, HIPAA 및 PCI DSS 같은 데이터 프라이버시 규정 준수 문제, 정부의 벌금, 집단 소송 등 유출 이후의 혼란은 그대로 숙제로 남는다.

따라서 빅데이터를 데이터 유출 발생 후에 도입하면 큰 장점이 사라진다. 속담에도 있듯이 "지난 후에 다 알 수 있다." 사이버 공격 후 빅데이터를 활용하면 그렇게 된다. 하지만 유출이 발생 중이거나 발생할 것임을 알아차리고 피해가 발생하기 전에 멈출 수 있는 능력은 제공하지 못한다. 이 때문에 빅데이터를 단절된 상태에서 사용하면 시스템, 기업, 기타 민감한 정보를 보호할 수 없다.

빅데이터 신봉자는 이를 근거로 해커가 시스템에 침입할 수 있었던 문제를 해결할 수 있다고 강변할 것이다. 어쨌든 무엇이 잘못되었는지 확인할 수 있으니, 시스템을 패치해 재발을 방지할 수 있다는 논리이다. 물론 '똑같은' 문제가 재발하는 것은 방지할 수도 있을 것이다. 하지만 사이버 보안의 세계는 그리 녹록지 않다. 위협 상황은 역동적이며 매일 새로운 기술과 함께 새로운 취약점이 등장한다.

또한 기본적으로 해커는 다른 범죄자와 같다. 기술에 능하고 적응력이 뛰어나며 인간의 본성을 이용하는 방법을 알고 있다. 그들은 항상 상대방의 약점을 찾아낼 것이며 가장 큰 약점은 바로 신뢰하는 사람, 즉 직원이라는 것도 알고 있다. 실제로 해커 대부분은 백 도어(Back Door)를 통해 시스템에 침투하지 않는다. 그들은 정당한 로그인 계정을 이용해 정문으로 들어온다.

이 경우 사후에 할 수 있는 방법은 대개 이런식이다. 빅데이터 분석과 피싱 이메일 등의 소셜 엔지니어링 스키마를 통해 훔친 직원 비밀번호를 이용해 서버 X(Server X)를 사용해 로그인해 시스템에 접근한 해커를 찾을 수 있다(아니면 악의적인내부자가 그들에게 계정을 제공했을 수도 있다). 이 결론을 근거로 피싱 이메일을 찾는 방법과 의심되는 링크 클릭 위험 등 사이버 보안 우수 사례에 대해 직원 교육을 강화하기로 결정할 수 있다.

물론 직원 사이버 보안 교육은 필수적이며 시스템이 더 안전해지는 데 도움이 된다. 그러나 이것은 만병통치약은 아니다. 인간은 실수할 수 있다. 인간은 피곤할 때, 산만할 때, 서두를 때 실수한다. 또한 아무리 교육을 많이 해도 기업을 배신하기로 결심하거나 다크넷(Dark Net)에서 기밀 데이터를 판매해 손쉽게 돈을 벌고 싶은 불만 많은 직원, 해고된 직원, 하도급업자 등 악의적인 내부자까지 멈출 수는 없다.


다행히도 그 대안이 될 해법이 있다. 바로 머신러닝이다. 컴퓨터가 명시적으로 프로그래밍하지 않고도 학습할 수 있으며 학습해 실시간으로 업데이트하는 수학적 알고리즘에 기초한 첨단 기술이다. 자율 주행 자동차에도 적용되는 이 기술은 해커에게 사용할 수 있는 가장 강력한 무기이다. 즉 머신러닝은 빅데이터 분석에는 없는 '보호'를 제공한다. 유출 사건 발생 후 그 이유를 파악하는 대신 데이터 유출 발생 중 또는 전에 확인할 수 있으며 실제적인 피해가 발생하기 전에 차단한다.

머신러닝 기술은 빅데이터를 해석할 뿐 아니라 인간 또는 집단보다 훨씬 빠른 속도로 분석해 통찰을 뽑아낸다. 그 예측 능력 때문에 반응적이기 보다는 선제적이라고 표현하는 것이 더 적절하다. 예를 들면 실시간 머신러닝 기술은 훔친 계정을 사용하는 해커를 찾아내 시스템 접속을 차단할 수 있다.

이 기술은 네트워크보다는 애플리케이션/데이터에 포함돼 있다. 이 인지 방어책은 모든 애플리케이션 로그인을 감시하고 해당 로그인 ID를 이용하는 사람이 애플리케이션에서 행하는 모든 움직임을 파악해 해당 userid의 로그인 세션의 '행동'이 해당 userid의 정상적인 파라미터 또는 기준에서 벗어나는지를 판단한다.

예를 들어, 특정 직원의 계정이 사외에서 사용되거나 해당 직원이 업무 수행에 필요 없는 시스템에 접근하거나 한밤중에 로그인을 시도하는지 등을 확인한다. 머신러닝 기술은 직원의 정상적인 컴퓨터 사용을 분석하고 기준 패턴을 설정했기 때문에 특정 로그인 시도가 정상이 아니며 잠재적으로 위험하다는 것을 알 수 있고 IT 직원이 해당 상황을 조사할 때까지 사용자를 차단한다.

이처럼 머신러닝은 사용자 데이터에 대한 즉각적이고 필수적이며 조치 가능한 통찰을 제공하며, 빅데이터 분석으로는 불가능한 실시간 보호를 제공한다. 정상과 비정상을 지속적으로 학습하기 때문에 시스템을 보호하는 최선의 방법이며 해커가 시스템에 침투해 수 백 또는 수 천 개의 기록을 훔치기 전에 바로 정보에서 차단할 수 있다.

이 기술은 이미 개발돼 상용화됐으며 민감한 데이터를 훔치는 범죄자를 포획해 데이터 유출 및 프라이버시 위반에 대한 조기 경보를 제공하고 있다. 이 사이버 보안 기술은 데이터를 보호하는 고성능 솔루션의 미래이다. 빅데이터가 CSI라면 머신러닝은 사이버 범죄자로부터 시스템을 보호하고 법을 실행하며 범죄를 막는 경찰관인 것이다.

* Varughese는 머신러닝 인공지능을 이용해 해커나 악의적인 사용자를 감지하는 보안 업체 코그니틱스(Cognetyx)의 대표이다. 
X