'보안 AI, 거품이 있긴 하지만…' 해야 할 3가지 vs. 하지 말아야 2가지

CSO
"인공지능을 광고하는 제품 중 비결이 있다고 할만한 제품은 거의 없다. 사람들은 혁신적인 인공지능이 여전히 매우 기초적인 단계에 있다고 여기고 있으며, 우리는 훨씬 더 발전할 수 있다." 
- 글래스윙 벤처스(Glasswing Ventures) 창업자 겸 경영파트너 릭 그리넬
 
ⓒGetty Images Bank


필자가 칼테크(CalTech) 연구 보조금을 관리한 후 유행어 장사꾼과 데이터 과학자 사이의 태도가 큰 차이를 보였던 2015년부터 인공지능(AI)에 관한 거품이 거슬렸다. 이후 2017년 필자는 폭스뉴스에서 유일하게 AI 활용으로 가짜 뉴스를 해결할 수 있다는 과대광고에 반대했다.

필자는 그러한 과대광고는 싫어하지만, AI에 거는 기대는 크다.

초기 투자자 릭 그리넬은 AI에 대한 과대광고와 실제 활용도에 대한 실질적인 평가를 진행했다. "실제 제품 기술 관점에서 우리는 여전히 초기 단계다. AI라고 선전하는 것 중 실질적인 제품은 거의 없다"라고 그리넬은 말했다. "사람들은 혁신적이라고 자랑하고 있지만, AI는 아직 기본적인 수준이며 훨씬 더 발전할 것이라고 생각한다." 릭은 알고 있을 것이다. 그는 수년 동안 AI 지원 보안 업체에 집중했던 글래스윙 벤처스(Glasswing Ventures)의 설립자 겸 MP(Managing Partner)다.

어떻게 과대광고 속에서 AI와 머신러닝에 투자할 시기를 판단할 수 있을까? 해야 할 일과 하지 말아야 할 일에 대해 살펴보자.

수학에 시간을 낭비하지 말자
AI 과대광고 대부분은 갑작스러운 고급 수학의 유입으로 기계가 사람처럼 생각하게 됐다는 생각에서 기인한다.

필자는 2015년 초기 AI/ML 프로젝트에서 AI를 뒷받침하는 새로운 수학에 흥미를 느꼈다. 세계적인 데이터 과학자들이 CERN에서 20년이나 된 교과서에 나오는 알고리즘인 ‘k-means’와 ‘DBSCAN’ 등의 머신러닝 알고리즘을 사용해 연구를 진행하고 있다는 사실에 놀랐다. 사이버보안의 첫 머신러닝 툴킷 물결은 데이터 레이크에 기초하고 있었기 때문에 필자는 그들의 ML 라이브러리를 열심히 살펴보았다. 거기에도 새로운 수학은 없었다.

사일랜스(Cylance) 덕분에 AI 기반 파일 발견적 교수법이 인기를 얻었다. 이것이 사이버보안 부문에서 가장 성공적인 대규모 머신러닝 이행이었을 것이다. 사일랜스는 그 방법을 상당 부분 공개했다. 새로운 첨단 수학이 아닌 신경망, 딥러닝, 탄탄한 엔지니어링을 실용적으로 활용하는 것이 그들의 비법처럼 보였다.

사이버보안 부문의 데이터 과학에 대해 너무 비판적으로 보일 수 있는 위험을 무릅쓰고 C++ 프로그래밍 언어보다 오래된 수학을 활용할 가능성이 크다. 따라서 MIT와 NSA 출신의 몸값 비싼 데이터 과학자를 확보하기 위해 많은 돈을 써야 한다는 생각을 버리자. 아니면 새로운 알고리즘을 자랑하는 업체에서 구매해야 한다.

머신 비전(Machine Vision)과 자연어 처리에 주목하자
특정 머신 비전과 자연어 처리(NLP) 영역에서 새로운 수학을 발견하게 될 것이다. 둘 다 앞으로 사이버보안에 엄청난 영향을 끼칠 것이다.

이제 자동차는 도로를 볼 수 있으며 소프트웨어는 얼굴과 사물을 인식할 수 있다. 머신 비전은 보안과 관련되어 있다. IoT와 모바일 기기에 카메라와 마이크가 있는 세계에서 인증과 방화벽은 무용지물이 된다. 기기가 물리적으로 가까이 있다면 민감한 데이터를 보고 듣고 수집할 수 있다.

앞으로 사이버보안은 물리적인 보안과 융합될 수밖에 없다. 허가되지 않은 사람과 기기를 감지하기 위해 엔드포인트 원격 측정, 로그, 네트워크 데이터를 보안 카메라와 기기 웹캠으로 보완할 가능성이 크다. 참고로 주위 프라이버시에 대한 논쟁이 엄청날 것이다.

보안은 결국 GDPR과 데이터 라이프사이클 관리의 출현으로 인해 데이터 지향으로 갈 것이다. 현재 업계에서는 우리가 보호하는 데이터의 규모를 직시해야 한다. 조직 내의 모든 데이터를 생성하기 위해 회사 내에 있는 모든 사람을 동원해야 했다. 소규모 팀으로는 이렇게 많은 데이터를 이해하고 권한 수준을 파악하며 미묘한 방어 우선순위를 결정할 수 없다.
 

---------------------------------------------------------------
AI와 사이버보안 인기기사
->'머신 vs. 머신' AI가 주도하는 사이버 전쟁 시대 열린다
->2017년 사이버 보안은 '행동 분석'이 대세
->블로그 | AI가 앞으로 악성코드 위협을 막을 수 있을까
-> AI가 정신줄을 놓으면?··· 오싹하면서도 흥미로운 10가지 이야기
->사람이 놓치는 악성코드, AI는 찾아낸다··· 사일런스 설립자 일문일답
-> "AI 무기는 안 된다" 外··· 인공지능의 위험성에 대한 경고 11선
-> AI가 악성코드 탐지··· 효과는?
-> 사이버공격 막아줄 기대주 '머신러닝'… 왜? 어떻게? 한계는?
---------------------------------------------------------------

다행히도 AI는 NLP 등을 사용해 언어 이면의 기본적인 의미를 소프트웨어에 제공하고 있다. 모델링 구조화 콘텐츠에 대한 ML 접근방식 또한 중요한 투자가 될 것이며 약 10년 동안 이디스커버리(eDiscovery) 영역에서 사용되었다. 

 


AI 혁명에서 데이터의 역할을 과소평가하지 말자
현재 사이버보안에 투입된 AI/ML은 사기 방지 및 군사용 애플리케이션에 30년 동안 사용되었으며 구글 등의 검색 엔진이 수십 년 동안 사용하고 있다. 새로운 수학으로 인해 AI가 유행하고 있다면 그 정체는 무엇일까?

클라우드로의 이전을 통해 저장 비용이 감소했다. 대규모 데이터 큐레이션, 훈련, 실행 알고리즘을 위한 처리 능력을 얻게 되었다. 또한 SaaS와 관리형 데이터의 출현으로 여러 고객사의 데이터가 단일 업체의 데이터스토어에 통합되었다. 그리고 이런 데이터가 풍부한 제공자들은 AI/ML을 통해 새로운 통찰을 제공할 유인을 얻게 되었다.

암호화된 데이터에 대한 프라이버시 보존 분석 및 AI를 제공하는 듀얼리티 테크놀로지스(Duality Technologies)의 공동 설립자 겸 CEO 앨런 카프만은 "불과 10년 또는 5년 만에 높은 품질의 데이터를 많이 보유하게 되었으며 복잡한 알고리즘을 실행할 연산 능력을 확보하게 되었다. 드디어 이런 오래된 알고리즘을 가져다가 대규모로 적용할 수 있게 된 것이다"라고 말했다.

그리고 데이터는 보안 전문가들이 악당들보다 나은 유일한 이점이다. 마이크로소프트의 CISO 브렛 아스널트는 "더 나은 감지를 위해 머신러닝과 인공지능 및 데이터를 활용하면서 동시에 최고의 데이터 신호를 통해 사람들에게 혜택을 제공한다는 점이 비대칭적이다. 상대방에 대해서는 비대칭적이다"라고 주장했다.

지난 4~5년 동안 업체들이 자체 데이터 과학자의 자격 증명과 통찰을 알고리즘에 적용하도록 압박하는 대신에 그들의 데이터에 대한 질문을 던졌어야 했다. 업체의 이상 감지 기술이 사용자의 환경을 학습하는가? 아니면 업체 데이터를 기준으로 훈련받는가? 업체 데이터를 기준으로 훈련받는다면 이런 데이터세트를 분석하여 자신의 네트워크를 대변하는지 확인해야 한다.

차세대 안티바이러스 소프트웨어를 훈련하기 위해 악성코드 파일 샘플을 얻기는 쉽지만 스타트업은 어떻게 짧은 실행 거동에 대한 훈련 세트를 구성할 수 있을까? 이런 질문을 던져야 한다.

유행이 아니더라도 쉽고 효율적으로 수행하자
AI/ML은 확실한 것이 아니다. 전통적인 소프트웨어 개발에는 요건을 작성하는 도메인 전문가와 문제를 해결하기 위해 도메인 로직을 이행하는 프로그래머가 참여했다. 전통적인 소프트웨어 프로젝트 초기에는 버그가 있거나 유려함이 부족하더라도 유용한 기능을 제공하는 소프트웨어를 개발할 가능성을 예측하기가 어렵지 않았다.

데이터 과학은 완전히 다르다. 최고의 인재를 보유하고 있고 모든 것을 제대로 해도 성공의 수준을 예측하기란 어렵다. 데이터가 모델링할 수 있는 패턴으로 통합되지 않을 수 있다. 상관관계가 곧 인과관계는 아니므로 무엇인가를 잘못 예측할 수 있다. 아니면 이미 사실임을 알고 있는 것에 관해 이야기할 수 있다. 카프만은 "놀라운 데이터 과학 프로젝트를 통해 숫자를 분석해 보면 결국 세계 인구의 49.5%는 남성이라는 등의 사소하고 관련성 없는 결과를 얻게 될 수 있다"라고 말했다.

안타깝게도 지난 수년 동안의 보편적인 업체 전략은 이미 규칙이나 기본적인 경험을 통해 수행한 것을 ML로 전환하여 유행을 따라는 수준이었다. 더 많은 돈을 투자해 같은 결과를 제공했을 가능성이 크다.

카프만은 "메커니즘을 알고 있으면 머신러닝을 수행하지 않고 쉽게 프로그래밍할 수 있다. 모를 때에는 머신러닝이 필요하다. 이것이야말로 효과적인 경험을 위한 매우 현명한 방법이다"라고 덧붙였다.

자기 자신을 죽이지 말고 데이터 과학자를 찾으라
사이버보안 부문의 실업률은 0이라는 말이 있다. 사이버보안 경험이 있는 박사 학위 소지 데이터 과학자는 차치하더라도 보안 분석가를 찾기도 어렵다. 그리넬은 "현재 모든 기업이 의무감에 데이터 과학자나 데이터 과학팀을 찾고 있다고 생각한다. 기업 군비 경쟁인 것이다"라고 언급했다.

다행히도 이 업계에서는 데이터를 시각화하고 모델링하기 위한 툴을 개발하여 AI/ML을 더욱더 많은 데이터 엔지니어와 ‘시민 데이터 과학자’에게 제공하기 위해 노력하고 있다. (솔직히 필자의 고용주 오픈텍스트는 ML 및 예측 분석 플랫폼을 개발한다.)

이런 툴을 사용하는 것 외에 보안 업계에서는 학계와 더욱 자주 협력해야 한다. 학계 연구원들은 놀랍도록 구하기 쉽다. 그들은 이미 직업과 급여가 있으므로 컨설턴트를 시간제로 쓰기보다 학계 연구원을 시간제로 고용하기가 더 쉽다. 숙제를 늦게 제출하여 교수들에게 혼났던 기억만 있을 수 있지만 학자들은 사실 협력하기가 꽤 쉽다. 어쨌든 그들은 시간을 들여 이제 막 고등학교를 졸업한 학생들에게 기술에 관해 설명한다.

결론
그리넬의 말처럼, 업체들은 "당장 필요하지 않거나 현시점에서는 보유하고 있지 않더라도 머신러닝에 관한 이야기를 만들어 내는 모습"을 목격했다.

이는 보안에 좋지 못하다.

대신 보안 업계에서는 이제 AI를 통해 사이버보안을 혁신할 수 있는 영역과 아직 노력을 기울이지 않아도 되는 영역을 구분해야 한다.

*Paul Shomo는 보안 및 포렌식, 네트워킹 및 스토리지 분야에서 15년 이상의 경력을 쌓은 소프트웨어 엔지니어로 최근 몇 년간 전략적 파트너십을 관리하며 M&A 활동에 조언하고 있다. ciokr@idg.co.kr