2019.04.23

'보안 AI, 거품이 있긴 하지만…' 해야 할 3가지 vs. 하지 말아야 2가지

Paul Shomo | CSO
"인공지능을 광고하는 제품 중 비결이 있다고 할만한 제품은 거의 없다. 사람들은 혁신적인 인공지능이 여전히 매우 기초적인 단계에 있다고 여기고 있으며, 우리는 훨씬 더 발전할 수 있다." 
- 글래스윙 벤처스(Glasswing Ventures) 창업자 겸 경영파트너 릭 그리넬
 
ⓒGetty Images Bank


필자가 칼테크(CalTech) 연구 보조금을 관리한 후 유행어 장사꾼과 데이터 과학자 사이의 태도가 큰 차이를 보였던 2015년부터 인공지능(AI)에 관한 거품이 거슬렸다. 이후 2017년 필자는 폭스뉴스에서 유일하게 AI 활용으로 가짜 뉴스를 해결할 수 있다는 과대광고에 반대했다.

필자는 그러한 과대광고는 싫어하지만, AI에 거는 기대는 크다.

초기 투자자 릭 그리넬은 AI에 대한 과대광고와 실제 활용도에 대한 실질적인 평가를 진행했다. "실제 제품 기술 관점에서 우리는 여전히 초기 단계다. AI라고 선전하는 것 중 실질적인 제품은 거의 없다"라고 그리넬은 말했다. "사람들은 혁신적이라고 자랑하고 있지만, AI는 아직 기본적인 수준이며 훨씬 더 발전할 것이라고 생각한다." 릭은 알고 있을 것이다. 그는 수년 동안 AI 지원 보안 업체에 집중했던 글래스윙 벤처스(Glasswing Ventures)의 설립자 겸 MP(Managing Partner)다.

어떻게 과대광고 속에서 AI와 머신러닝에 투자할 시기를 판단할 수 있을까? 해야 할 일과 하지 말아야 할 일에 대해 살펴보자.

수학에 시간을 낭비하지 말자
AI 과대광고 대부분은 갑작스러운 고급 수학의 유입으로 기계가 사람처럼 생각하게 됐다는 생각에서 기인한다.

필자는 2015년 초기 AI/ML 프로젝트에서 AI를 뒷받침하는 새로운 수학에 흥미를 느꼈다. 세계적인 데이터 과학자들이 CERN에서 20년이나 된 교과서에 나오는 알고리즘인 ‘k-means’와 ‘DBSCAN’ 등의 머신러닝 알고리즘을 사용해 연구를 진행하고 있다는 사실에 놀랐다. 사이버보안의 첫 머신러닝 툴킷 물결은 데이터 레이크에 기초하고 있었기 때문에 필자는 그들의 ML 라이브러리를 열심히 살펴보았다. 거기에도 새로운 수학은 없었다.

사일랜스(Cylance) 덕분에 AI 기반 파일 발견적 교수법이 인기를 얻었다. 이것이 사이버보안 부문에서 가장 성공적인 대규모 머신러닝 이행이었을 것이다. 사일랜스는 그 방법을 상당 부분 공개했다. 새로운 첨단 수학이 아닌 신경망, 딥러닝, 탄탄한 엔지니어링을 실용적으로 활용하는 것이 그들의 비법처럼 보였다.

사이버보안 부문의 데이터 과학에 대해 너무 비판적으로 보일 수 있는 위험을 무릅쓰고 C++ 프로그래밍 언어보다 오래된 수학을 활용할 가능성이 크다. 따라서 MIT와 NSA 출신의 몸값 비싼 데이터 과학자를 확보하기 위해 많은 돈을 써야 한다는 생각을 버리자. 아니면 새로운 알고리즘을 자랑하는 업체에서 구매해야 한다.

머신 비전(Machine Vision)과 자연어 처리에 주목하자
특정 머신 비전과 자연어 처리(NLP) 영역에서 새로운 수학을 발견하게 될 것이다. 둘 다 앞으로 사이버보안에 엄청난 영향을 끼칠 것이다.

이제 자동차는 도로를 볼 수 있으며 소프트웨어는 얼굴과 사물을 인식할 수 있다. 머신 비전은 보안과 관련되어 있다. IoT와 모바일 기기에 카메라와 마이크가 있는 세계에서 인증과 방화벽은 무용지물이 된다. 기기가 물리적으로 가까이 있다면 민감한 데이터를 보고 듣고 수집할 수 있다.

앞으로 사이버보안은 물리적인 보안과 융합될 수밖에 없다. 허가되지 않은 사람과 기기를 감지하기 위해 엔드포인트 원격 측정, 로그, 네트워크 데이터를 보안 카메라와 기기 웹캠으로 보완할 가능성이 크다. 참고로 주위 프라이버시에 대한 논쟁이 엄청날 것이다.

보안은 결국 GDPR과 데이터 라이프사이클 관리의 출현으로 인해 데이터 지향으로 갈 것이다. 현재 업계에서는 우리가 보호하는 데이터의 규모를 직시해야 한다. 조직 내의 모든 데이터를 생성하기 위해 회사 내에 있는 모든 사람을 동원해야 했다. 소규모 팀으로는 이렇게 많은 데이터를 이해하고 권한 수준을 파악하며 미묘한 방어 우선순위를 결정할 수 없다.
 


다행히도 AI는 NLP 등을 사용해 언어 이면의 기본적인 의미를 소프트웨어에 제공하고 있다. 모델링 구조화 콘텐츠에 대한 ML 접근방식 또한 중요한 투자가 될 것이며 약 10년 동안 이디스커버리(eDiscovery) 영역에서 사용되었다. 

 




2019.04.23

'보안 AI, 거품이 있긴 하지만…' 해야 할 3가지 vs. 하지 말아야 2가지

Paul Shomo | CSO
"인공지능을 광고하는 제품 중 비결이 있다고 할만한 제품은 거의 없다. 사람들은 혁신적인 인공지능이 여전히 매우 기초적인 단계에 있다고 여기고 있으며, 우리는 훨씬 더 발전할 수 있다." 
- 글래스윙 벤처스(Glasswing Ventures) 창업자 겸 경영파트너 릭 그리넬
 
ⓒGetty Images Bank


필자가 칼테크(CalTech) 연구 보조금을 관리한 후 유행어 장사꾼과 데이터 과학자 사이의 태도가 큰 차이를 보였던 2015년부터 인공지능(AI)에 관한 거품이 거슬렸다. 이후 2017년 필자는 폭스뉴스에서 유일하게 AI 활용으로 가짜 뉴스를 해결할 수 있다는 과대광고에 반대했다.

필자는 그러한 과대광고는 싫어하지만, AI에 거는 기대는 크다.

초기 투자자 릭 그리넬은 AI에 대한 과대광고와 실제 활용도에 대한 실질적인 평가를 진행했다. "실제 제품 기술 관점에서 우리는 여전히 초기 단계다. AI라고 선전하는 것 중 실질적인 제품은 거의 없다"라고 그리넬은 말했다. "사람들은 혁신적이라고 자랑하고 있지만, AI는 아직 기본적인 수준이며 훨씬 더 발전할 것이라고 생각한다." 릭은 알고 있을 것이다. 그는 수년 동안 AI 지원 보안 업체에 집중했던 글래스윙 벤처스(Glasswing Ventures)의 설립자 겸 MP(Managing Partner)다.

어떻게 과대광고 속에서 AI와 머신러닝에 투자할 시기를 판단할 수 있을까? 해야 할 일과 하지 말아야 할 일에 대해 살펴보자.

수학에 시간을 낭비하지 말자
AI 과대광고 대부분은 갑작스러운 고급 수학의 유입으로 기계가 사람처럼 생각하게 됐다는 생각에서 기인한다.

필자는 2015년 초기 AI/ML 프로젝트에서 AI를 뒷받침하는 새로운 수학에 흥미를 느꼈다. 세계적인 데이터 과학자들이 CERN에서 20년이나 된 교과서에 나오는 알고리즘인 ‘k-means’와 ‘DBSCAN’ 등의 머신러닝 알고리즘을 사용해 연구를 진행하고 있다는 사실에 놀랐다. 사이버보안의 첫 머신러닝 툴킷 물결은 데이터 레이크에 기초하고 있었기 때문에 필자는 그들의 ML 라이브러리를 열심히 살펴보았다. 거기에도 새로운 수학은 없었다.

사일랜스(Cylance) 덕분에 AI 기반 파일 발견적 교수법이 인기를 얻었다. 이것이 사이버보안 부문에서 가장 성공적인 대규모 머신러닝 이행이었을 것이다. 사일랜스는 그 방법을 상당 부분 공개했다. 새로운 첨단 수학이 아닌 신경망, 딥러닝, 탄탄한 엔지니어링을 실용적으로 활용하는 것이 그들의 비법처럼 보였다.

사이버보안 부문의 데이터 과학에 대해 너무 비판적으로 보일 수 있는 위험을 무릅쓰고 C++ 프로그래밍 언어보다 오래된 수학을 활용할 가능성이 크다. 따라서 MIT와 NSA 출신의 몸값 비싼 데이터 과학자를 확보하기 위해 많은 돈을 써야 한다는 생각을 버리자. 아니면 새로운 알고리즘을 자랑하는 업체에서 구매해야 한다.

머신 비전(Machine Vision)과 자연어 처리에 주목하자
특정 머신 비전과 자연어 처리(NLP) 영역에서 새로운 수학을 발견하게 될 것이다. 둘 다 앞으로 사이버보안에 엄청난 영향을 끼칠 것이다.

이제 자동차는 도로를 볼 수 있으며 소프트웨어는 얼굴과 사물을 인식할 수 있다. 머신 비전은 보안과 관련되어 있다. IoT와 모바일 기기에 카메라와 마이크가 있는 세계에서 인증과 방화벽은 무용지물이 된다. 기기가 물리적으로 가까이 있다면 민감한 데이터를 보고 듣고 수집할 수 있다.

앞으로 사이버보안은 물리적인 보안과 융합될 수밖에 없다. 허가되지 않은 사람과 기기를 감지하기 위해 엔드포인트 원격 측정, 로그, 네트워크 데이터를 보안 카메라와 기기 웹캠으로 보완할 가능성이 크다. 참고로 주위 프라이버시에 대한 논쟁이 엄청날 것이다.

보안은 결국 GDPR과 데이터 라이프사이클 관리의 출현으로 인해 데이터 지향으로 갈 것이다. 현재 업계에서는 우리가 보호하는 데이터의 규모를 직시해야 한다. 조직 내의 모든 데이터를 생성하기 위해 회사 내에 있는 모든 사람을 동원해야 했다. 소규모 팀으로는 이렇게 많은 데이터를 이해하고 권한 수준을 파악하며 미묘한 방어 우선순위를 결정할 수 없다.
 


다행히도 AI는 NLP 등을 사용해 언어 이면의 기본적인 의미를 소프트웨어에 제공하고 있다. 모델링 구조화 콘텐츠에 대한 ML 접근방식 또한 중요한 투자가 될 것이며 약 10년 동안 이디스커버리(eDiscovery) 영역에서 사용되었다. 

 


X