2017.08.16

기고 | AI 노린 적대적 공격, 어떻게 대비할 것인가

James Kobielus | InfoWorld
인공지능 애플리케이션을 노린 적대적 공격에 대한 우려가 높아지고 있다. 그러나 이러한 공격에 대비하는 기술 또한 부상하고 있다.

공격자가 AI 애플리케이션을 속일 목적으로 이미지, 비디오, 연설, 기타 데이터에 거의 보이지 않는 변경을 가하는 경우 이런 정교한 기술을 믿기란 어려워질 것이다.

가령 이런 공격은 AI구동 자율주행 자동차가 장애물을 인지하는 능력, 콘텐츠 필터 성능, 액세스 시스템의 불법침입 억제능력을 약화시킬 수 있다.

일각에서는 오늘날의 AI를 구동하는 신경망 기술의 “심각한 결함”이 바로 여기에 있다고 지적하기도 한다. 어쨌든 전통적인 기호 논리학 회귀 분류자를 포함한 여러 머신러닝 알고리즘이 적대적인 공격에 취약하다는 점이 잘 알려져 있다. 하지만 AI모델을 구축, 훈련, 배치, 평가하는 기업 프로세스의 단점이 문제라고 반박하는 것도 가능하다.

사실 관련된 모든 문제가 AI전문가들에게는 이미 익숙하다. 심지어 적대적인 AI를 막는데 집중하는 캐글(Kaggle)대회라는 것도 있다.

현재 AI 분야에서는 반 적대 방어책을 심층 신경 네트워크에 구축하는 베스트 프랙티스에 대한 명확한 합의가 없다. 하지만 연구 문헌과 업계의 논의를 보면 이런 프레임워크를 구현할 주요 접근방식이 이미 결정되고 있다.

앞으로 AI개발자들은 이런 지침에 따라 반 적대 보호책을 애플리케이션 내에 구축해야 할 것이다.



생산 현장의 모든 AI자산에서 적대적인 공격의 가능성을 가정하라
AI가 비즈니스 곳곳에 배치되고 있다. 개발자들은 자신의 애플리케이션을 적대적인 조작의 공격 대상으로 가정해야 한다.

생산 현장에서 AI는 일반적으로 ‘지능’과 결부시킬 만한 행동을 자동화하기 위해 존재한다. 하지만 AI에 대한 적대적인 공격이 진행될 때 일반적인 인간보다 훨씬 어리석은 인지, 지각, 기타 행동이 발생할 수 있다는 점을 기억해야 한다.

AI 개발에 앞서 적대 위험 평가를 수행하라
AI 앱의 라이프사이클 초기 및 그 전반에 걸쳐 개발자들은 적대적인 공격에 대한 프로젝트의 취약성을 솔직하게 평가해야 한다.

IEEE가 2015 연구논문에서 명시했듯이 개발자들은 승인되지 않은 주체가 신경망 아키텍처, 훈련 데이터, 하이퍼파라미터, 학습 방법론, 사용하는 손실 함수 등과 같은 AI프로젝트의 주요 요소에 직접 접근할 수 있는 가능성을 평가해야 한다.

또한 해당 논문에서는 공격자가 동일한 유입 또는 배포 소스로부터 대리 데이터세트를 AI신경망 모델을 최적화하기 위해 사용하는 훈련 데이터로써 수집할 가능성을 언급했다. 이로 인해 적들이 표적 심화 신경망으로 개발된 분류자 모델을 속일 수 있는 위조 입력 데이터의 종류에 대한 통찰을 얻을 수 있다.

해당 논문에서 설명한 또 다른 공격 접근방식이 있다. 표적 신경망 및 관련 훈련 데이터를 직접적인 확보하거나 확인할 수 없을지라도 공격자가 “적대적인 샘플을 만들기 위해 입력 및 출력의 변화 사이의 관계”를 관찰하는 전략을 활용할 수 있다는 것이다.

AI훈련 파이프라인에서 적대적인 예제를 표준 활동으로 생성하라
AI개발자는 미묘한 적대적인 변화가 CNN(Convolutional Neural Network)이 처리하는 이미지에 적용될 수 있는 여러 방식을 연구해야 한다.

이를 테면 데이터 공학자들은 CNN과 기타 AI모델의 취약성을 시험하기 위해 깃허브(GitHub) 등에서 증가하는 오픈소스 툴에 대해 스스로 파악해야 한다. 아울러 개발자들은 사이버 보안 공격 방어에 직접적으로 관련되지 않는 것들도 좀 더 광범위하게 감안해야 한다. 가령 모든 종류의 훈련 GAN(Generative Adversarial Network)에 대한 적대적인 예를 생성하는 것 등이다.

적대적 사례에 대해 인간 큐레이터와 알고리즘 디스크리미네이터(Discriminator)를 모두 활용할 필요가 있음을 인식하라
적대적인 공격으로부터 입을 수 있는 피해는 AI 앱의 마지막 방어선을 속일 수 있는 능력에 좌우된다.

사람의 눈에는 확실히 구별될 수 있지만 CNN을 속여넘길 수 있는 이미지 인식 공격이 있을 수 있다. 반대로 다른 조작이 인간 큐레이터가 감지하기에 너무 미묘하지만 잘 훈련된 GAN의 디스크리미네이터 알고리즘이 이를 손쉽게 골라낼 수도 있다.

한편 후자와 관련해서는 입력 이미지에 각 데이터 포인트(Data Point)를 변경하는 GAN을 둠으로써 분류 오류를 극대화하려고 시도하면서 대항력 있는 디스크리미네이터 모델을 생성하는 방안이 눈길을 끌고 있다.

여러 AI알고리즘을 사용하는 총체적인 모델을 구축하라
적대적으로 변경된 이미지와 기타 데이터 객체의 존재에 좀 더 민감한 알고리즘이 있을 수 있다. 예를 들어, 캠피나스대학교(University of Campinas)의 연구원들은 피상적인 분류자 알고리즘이 심계층화 CNN보다 적대적인 이미지를 더욱 잘 감지할 수도 있는 시나리오를 발견했다. 또한 그들은 일부 알고리즘이 이미지 전제의 조작을 감지하는데 가장 적합하지만 이미지 중 하나의 작은 섹션에서 미묘한 구성을 더욱 잘 찾아낼 수 있는 것들이 있음을 발견했다.

코넬대학교(Cornell University)의 연구원 아릴드 노클랜드가 말하는 CNN 보호 접근 방식도 있다. “적대적인 기울기”(“adversarial gradient)를 AI모델의 훈련 프로세스 중에 추가하는 것이다. 데이터 공학팀은 개발 및 생산 환경에서 지속적인 A/B시험을 이용해 다양한 알고리즘에 대한 상대적인 적대 감지 이점을 신중하게 시험해야 한다.

방어 지식을 재사용해 위조 입력 예제에 대한 AI민첩성을 개선하라
IEEE가 공개한 2016 연구논문에 명시했듯이 데이터 공학자는 전이-학습기법을 활용해 입력 이미지에서 적대적인 변경에 대한 CNN 또는 기타 모델의 민감도를 줄일 수 있다.

전통적인 전이 학습에는 기본 모델의 통계 지식을 다른 모델에 적용하는 것이 포함되지만 해당 논문에서는 유효한 데이터 세트에 대한 훈련을 통해 얻은 모델의 기존 지식을 “증류”함으로써 적대적인 변경을 찾아내는 방법에 대해 기술했다.

저자들은 “우리는 방어 증류를 통해 모델이 훈련 데이터세트 외의 샘플을 더욱 잘 일반화 할 수 있도록 도움으로서 [분산형 신경망] 아키텍처로부터 학습한 모델을 다듬는다”라고 밝혔다.

그 결과, 모델이 적대적인 예(훈련 세트의 예와 닮은 것들)와 적대적이지 않은 예(훈련 세트의 그것들과 큰 차이를 보일 수 있는 것들) 사이의 차이를 더욱 잘 인지할 수 있게 된다는 설명이다.

앞서 소개한 원칙들을 방법론에 표준으로 포함시키지 않는다면 자동화된 알고리즘 오류가 신경 네트워크에 포함될 수 있다. 우리의 삶이 점차 AI에 의존하게 되면서 이런 적대적인 취약성이 비극으로 치닫을 수 있다. 이 때문에 데이터 공학자와 AI 개발자는 적절한 보호책을 마련하여 AI 앱 개발, 훈련, 관리 방법을 관리해야 한다.

* James Kobielus는 AI와 실리콘앵글 위키본의 데이터 과학, 애플리케이션 부문 수석 애널리스트다. ciokr@idg.co.kr 



2017.08.16

기고 | AI 노린 적대적 공격, 어떻게 대비할 것인가

James Kobielus | InfoWorld
인공지능 애플리케이션을 노린 적대적 공격에 대한 우려가 높아지고 있다. 그러나 이러한 공격에 대비하는 기술 또한 부상하고 있다.

공격자가 AI 애플리케이션을 속일 목적으로 이미지, 비디오, 연설, 기타 데이터에 거의 보이지 않는 변경을 가하는 경우 이런 정교한 기술을 믿기란 어려워질 것이다.

가령 이런 공격은 AI구동 자율주행 자동차가 장애물을 인지하는 능력, 콘텐츠 필터 성능, 액세스 시스템의 불법침입 억제능력을 약화시킬 수 있다.

일각에서는 오늘날의 AI를 구동하는 신경망 기술의 “심각한 결함”이 바로 여기에 있다고 지적하기도 한다. 어쨌든 전통적인 기호 논리학 회귀 분류자를 포함한 여러 머신러닝 알고리즘이 적대적인 공격에 취약하다는 점이 잘 알려져 있다. 하지만 AI모델을 구축, 훈련, 배치, 평가하는 기업 프로세스의 단점이 문제라고 반박하는 것도 가능하다.

사실 관련된 모든 문제가 AI전문가들에게는 이미 익숙하다. 심지어 적대적인 AI를 막는데 집중하는 캐글(Kaggle)대회라는 것도 있다.

현재 AI 분야에서는 반 적대 방어책을 심층 신경 네트워크에 구축하는 베스트 프랙티스에 대한 명확한 합의가 없다. 하지만 연구 문헌과 업계의 논의를 보면 이런 프레임워크를 구현할 주요 접근방식이 이미 결정되고 있다.

앞으로 AI개발자들은 이런 지침에 따라 반 적대 보호책을 애플리케이션 내에 구축해야 할 것이다.



생산 현장의 모든 AI자산에서 적대적인 공격의 가능성을 가정하라
AI가 비즈니스 곳곳에 배치되고 있다. 개발자들은 자신의 애플리케이션을 적대적인 조작의 공격 대상으로 가정해야 한다.

생산 현장에서 AI는 일반적으로 ‘지능’과 결부시킬 만한 행동을 자동화하기 위해 존재한다. 하지만 AI에 대한 적대적인 공격이 진행될 때 일반적인 인간보다 훨씬 어리석은 인지, 지각, 기타 행동이 발생할 수 있다는 점을 기억해야 한다.

AI 개발에 앞서 적대 위험 평가를 수행하라
AI 앱의 라이프사이클 초기 및 그 전반에 걸쳐 개발자들은 적대적인 공격에 대한 프로젝트의 취약성을 솔직하게 평가해야 한다.

IEEE가 2015 연구논문에서 명시했듯이 개발자들은 승인되지 않은 주체가 신경망 아키텍처, 훈련 데이터, 하이퍼파라미터, 학습 방법론, 사용하는 손실 함수 등과 같은 AI프로젝트의 주요 요소에 직접 접근할 수 있는 가능성을 평가해야 한다.

또한 해당 논문에서는 공격자가 동일한 유입 또는 배포 소스로부터 대리 데이터세트를 AI신경망 모델을 최적화하기 위해 사용하는 훈련 데이터로써 수집할 가능성을 언급했다. 이로 인해 적들이 표적 심화 신경망으로 개발된 분류자 모델을 속일 수 있는 위조 입력 데이터의 종류에 대한 통찰을 얻을 수 있다.

해당 논문에서 설명한 또 다른 공격 접근방식이 있다. 표적 신경망 및 관련 훈련 데이터를 직접적인 확보하거나 확인할 수 없을지라도 공격자가 “적대적인 샘플을 만들기 위해 입력 및 출력의 변화 사이의 관계”를 관찰하는 전략을 활용할 수 있다는 것이다.

AI훈련 파이프라인에서 적대적인 예제를 표준 활동으로 생성하라
AI개발자는 미묘한 적대적인 변화가 CNN(Convolutional Neural Network)이 처리하는 이미지에 적용될 수 있는 여러 방식을 연구해야 한다.

이를 테면 데이터 공학자들은 CNN과 기타 AI모델의 취약성을 시험하기 위해 깃허브(GitHub) 등에서 증가하는 오픈소스 툴에 대해 스스로 파악해야 한다. 아울러 개발자들은 사이버 보안 공격 방어에 직접적으로 관련되지 않는 것들도 좀 더 광범위하게 감안해야 한다. 가령 모든 종류의 훈련 GAN(Generative Adversarial Network)에 대한 적대적인 예를 생성하는 것 등이다.

적대적 사례에 대해 인간 큐레이터와 알고리즘 디스크리미네이터(Discriminator)를 모두 활용할 필요가 있음을 인식하라
적대적인 공격으로부터 입을 수 있는 피해는 AI 앱의 마지막 방어선을 속일 수 있는 능력에 좌우된다.

사람의 눈에는 확실히 구별될 수 있지만 CNN을 속여넘길 수 있는 이미지 인식 공격이 있을 수 있다. 반대로 다른 조작이 인간 큐레이터가 감지하기에 너무 미묘하지만 잘 훈련된 GAN의 디스크리미네이터 알고리즘이 이를 손쉽게 골라낼 수도 있다.

한편 후자와 관련해서는 입력 이미지에 각 데이터 포인트(Data Point)를 변경하는 GAN을 둠으로써 분류 오류를 극대화하려고 시도하면서 대항력 있는 디스크리미네이터 모델을 생성하는 방안이 눈길을 끌고 있다.

여러 AI알고리즘을 사용하는 총체적인 모델을 구축하라
적대적으로 변경된 이미지와 기타 데이터 객체의 존재에 좀 더 민감한 알고리즘이 있을 수 있다. 예를 들어, 캠피나스대학교(University of Campinas)의 연구원들은 피상적인 분류자 알고리즘이 심계층화 CNN보다 적대적인 이미지를 더욱 잘 감지할 수도 있는 시나리오를 발견했다. 또한 그들은 일부 알고리즘이 이미지 전제의 조작을 감지하는데 가장 적합하지만 이미지 중 하나의 작은 섹션에서 미묘한 구성을 더욱 잘 찾아낼 수 있는 것들이 있음을 발견했다.

코넬대학교(Cornell University)의 연구원 아릴드 노클랜드가 말하는 CNN 보호 접근 방식도 있다. “적대적인 기울기”(“adversarial gradient)를 AI모델의 훈련 프로세스 중에 추가하는 것이다. 데이터 공학팀은 개발 및 생산 환경에서 지속적인 A/B시험을 이용해 다양한 알고리즘에 대한 상대적인 적대 감지 이점을 신중하게 시험해야 한다.

방어 지식을 재사용해 위조 입력 예제에 대한 AI민첩성을 개선하라
IEEE가 공개한 2016 연구논문에 명시했듯이 데이터 공학자는 전이-학습기법을 활용해 입력 이미지에서 적대적인 변경에 대한 CNN 또는 기타 모델의 민감도를 줄일 수 있다.

전통적인 전이 학습에는 기본 모델의 통계 지식을 다른 모델에 적용하는 것이 포함되지만 해당 논문에서는 유효한 데이터 세트에 대한 훈련을 통해 얻은 모델의 기존 지식을 “증류”함으로써 적대적인 변경을 찾아내는 방법에 대해 기술했다.

저자들은 “우리는 방어 증류를 통해 모델이 훈련 데이터세트 외의 샘플을 더욱 잘 일반화 할 수 있도록 도움으로서 [분산형 신경망] 아키텍처로부터 학습한 모델을 다듬는다”라고 밝혔다.

그 결과, 모델이 적대적인 예(훈련 세트의 예와 닮은 것들)와 적대적이지 않은 예(훈련 세트의 그것들과 큰 차이를 보일 수 있는 것들) 사이의 차이를 더욱 잘 인지할 수 있게 된다는 설명이다.

앞서 소개한 원칙들을 방법론에 표준으로 포함시키지 않는다면 자동화된 알고리즘 오류가 신경 네트워크에 포함될 수 있다. 우리의 삶이 점차 AI에 의존하게 되면서 이런 적대적인 취약성이 비극으로 치닫을 수 있다. 이 때문에 데이터 공학자와 AI 개발자는 적절한 보호책을 마련하여 AI 앱 개발, 훈련, 관리 방법을 관리해야 한다.

* James Kobielus는 AI와 실리콘앵글 위키본의 데이터 과학, 애플리케이션 부문 수석 애널리스트다. ciokr@idg.co.kr 

X