2020.01.06

투명성이 만병통치약?··· 블랙박스 AI의 위험을 완화하는 방법

James Kobielus | Computerworld
머신러닝의 의사결정 과정을 이해할 수 없다면 이를 어떻게 신뢰할 수 있을까? 하지만 그렇다고 해서 설명 가능한 인공지능(XAI)이 모든 불안을 없애 줄까? AI 투명성이 모든 문제를 해결하는 만병통치약은 아니다. 머신러닝 모델의 투명성이 증가하면 AI에 대한 신뢰도 높아지겠지만, 이와 함께 위험도 따라온다.

기업이 머신러닝에 거는 기대가 매우 크다. 그러나 AI의 핵심인 머신러닝은 기업의 법률 및 보안 전문가를 당혹스럽게 만들고 있다. 



AI를 둘러싼 가장 큰 우려 중 하나는 머신러닝 기반 모델이 ‘블랙박스’로 작동한다는 점이다. 다시 말해 머신러닝 모델, 특히 인공 신경망으로 구성된 딥 러닝 모델이 너무 복잡하고 난해해서 AI 설계자조차 자동화된 추론이 어떻게 도출되는지를 이해하기 어렵다. 이로 인해 머신러닝 기반 애플리케이션의 자동화된 결정이 낳은 편향과 여타 부적절한 결과에 대한 책임 소재가 모호해질 수 있다. 

이런 위험을 완화하기 위해 사람들은 머신러닝이 작동하는 방식 그리고 머신러닝 모델이 개발, 학습, 배치되는 워크플로 전체에 걸쳐 투명성이 높아져야 한다고 주장하기 시작했다. 알고리즘 투명성은 설명 가능성, 해석 가능성, 책임성이라고도 알려져 있다. 현직 데이터 과학자들 사이에서 알고리즘 투명성을 위한 새로운 프레임워크가 도입되고 있다. 대표적으로 라임(LIME), 샤플리(Sharpley), 딥라이프트(DeepLIFT), 스케이터(Skater), AI 익스플레인너빌리티 360(AI Explainability 360), 왓-이프 툴(What-If Tool), 액티베이션 아틀라스(Activation Atlases), 인터프리트ML(InterpretML), 룰렉스 익스플레인너블 AI(Rulex Explainable AI) 등이 있다. 

이러한 툴과 기법은 데이터 과학자가 여러 조건 하에서 특정 데이터 입력이 특정 알고리즘적 해석을 어떻게 도출하는가에 대한 ‘사후적 설명(post-hoc explanations)’을 생성할 수 있도록 지원한다. 사후적 설명은 결과를 보고 나서 현상을 분석하는 것을 말한다. 그러나 최근 이러한 프레임워크가 해킹될 수 있다는 연구가 있었다. 따라서 프레임워크가 생성한 사후적 설명의 신뢰성이 떨어질 수 있으며, 기업은 아래와 같은 위험에 노출될 수 있다. 

위험 1. 알고리즘을 조작해 공개 기록에 침투할 수 있다 
악의적인 사람들이 머신러닝 모델에서 형성된 편향을 잘못 전달하거나 모호하게 만들 목적으로 프레임워크가 생성한 설명을 해킹할 수 있다. 다시 말해 섭동(perturbation)을 기반으로 한 라임이나 샤플리 같은 접근법을 조작해 명백한 편향에 관해 악의 없는 사후적 설명을 생성할 수 있다. 

위험 2. 기술 취약점이 부지불식간에 드러날 수 있다
머신러닝 알고리즘의 작동원리에 대한 정보를 모두 노출한다면 이를 노린 적대적 공격에 더 취약해질 수 있다. 이를테면 해커가 머신러닝 모델의 추론 방식을 조작하거나, 학습 단계에서부터 허위 데이터를 주입해 처음부터 악영향을 주는 공격을 할 수 있다. 

위험 3. 지적 재산권 절취가 쉬워질 수 있다
전체 머신러닝 알고리즘과 훈련 데이터 세트를 설명하는 것만으로도 지적 재산권을 도둑맞을 수 있다. API와 여타 기능을 통해서도 마찬가지다. 머신러닝 모델의 작동 방식에 대한 투명한 설명으로 인해 제3자가 기반 모델을 무단 도용할 수 있다. 이와 비슷하게 훈련 데이터 세트 역시 부분적으로 혹은 전체적으로 재구성될 수 있다. 이를 모델 전도(Model Inversion) 공격이라고 한다. 

위험 4. 프라이버시 침해가 만연해질 수 있다 
제3자가 머신러닝 모델의 학습 데이터 세트에서 특정 개인의 데이터가 포함돼 있는지 무단으로 확인할 수도 있다. ‘회원 추론 공격(membership inference attack)’으로 알려진 이 적대적 공격 기법에 의해 해커는 상당한 양의 프라이버시 데이터에 접근할 수 있다.  
 
알고리즘 투명성이 야기할 수 있는 기술적 위험을 완화하려면 기업 데이터 전문가가 아래의 전략을 검토해야 한다. 

• 데이터 전문가가 모델 결과물에 대한 접근을 제어하고 접근 권한이 남용되는지 모니터링한다. 이 과정에서 데이터 전문가는 투명한 머신러닝 모델에 관한 적대적 공격을 파악해 전면적 위협을 차단한다. 

• 투명한 머신러닝 모델의 학습용 데이터에 통제된 양의 무작위한 잡음을 일부러 추가한다. 이러한 잡음을 섭동이라고 한다. 이는 해커가 사후 설명이나 모델 조작을 통해 원본 데이터 자체를 파악하기 어렵게 만든다. 

• 최종 머신러닝 모델과 원본 데이터 사이에 중간 레이어를 삽입한다. 이를테면 개별 원본 데이터로 훈련된 ‘학습자’ 또는 ‘연합’ 모델이라는 중간 레이어를 통해 최종 모델을 학습시킨다. 이는 제 3자가 최종 모델에서 생성된 사후 설명으로부터 전체 학습 데이터를 무단 복구하기 더 어렵게 만든다. 

물론 기술적인 위험만 존재하지는 않는다. 기업이 머신러닝 모델을 구축하고 학습시키는 방법을 모두 공개한다면 법적 소송이나 규제에 노출될 수 있다. 머신러닝 투명성을 희생하지 않으면서 이러한 비즈니스 위험을 완화하려면 사후 알고리즘 설명이 자동으로 생성되는 데이터 과학 데브옵스가 필요할 것이다. 

아울러 기업은 이러한 설명의 이상징후를 끊임없이 모니터링해야 한다. 예를 들면 기업 또는 머신러닝 모델이 해킹되었다는 증거와 같은 것들이다. 이는 중대한 문제다. 머신러닝 모델을 구축하고 학습시킨 기업이 해당 모델의 투명성을 보증할 수 없다면 AI에 대한 신뢰 자체가 무너질 수 있기 때문이다. ciokr@idg.co.kr



2020.01.06

투명성이 만병통치약?··· 블랙박스 AI의 위험을 완화하는 방법

James Kobielus | Computerworld
머신러닝의 의사결정 과정을 이해할 수 없다면 이를 어떻게 신뢰할 수 있을까? 하지만 그렇다고 해서 설명 가능한 인공지능(XAI)이 모든 불안을 없애 줄까? AI 투명성이 모든 문제를 해결하는 만병통치약은 아니다. 머신러닝 모델의 투명성이 증가하면 AI에 대한 신뢰도 높아지겠지만, 이와 함께 위험도 따라온다.

기업이 머신러닝에 거는 기대가 매우 크다. 그러나 AI의 핵심인 머신러닝은 기업의 법률 및 보안 전문가를 당혹스럽게 만들고 있다. 



AI를 둘러싼 가장 큰 우려 중 하나는 머신러닝 기반 모델이 ‘블랙박스’로 작동한다는 점이다. 다시 말해 머신러닝 모델, 특히 인공 신경망으로 구성된 딥 러닝 모델이 너무 복잡하고 난해해서 AI 설계자조차 자동화된 추론이 어떻게 도출되는지를 이해하기 어렵다. 이로 인해 머신러닝 기반 애플리케이션의 자동화된 결정이 낳은 편향과 여타 부적절한 결과에 대한 책임 소재가 모호해질 수 있다. 

이런 위험을 완화하기 위해 사람들은 머신러닝이 작동하는 방식 그리고 머신러닝 모델이 개발, 학습, 배치되는 워크플로 전체에 걸쳐 투명성이 높아져야 한다고 주장하기 시작했다. 알고리즘 투명성은 설명 가능성, 해석 가능성, 책임성이라고도 알려져 있다. 현직 데이터 과학자들 사이에서 알고리즘 투명성을 위한 새로운 프레임워크가 도입되고 있다. 대표적으로 라임(LIME), 샤플리(Sharpley), 딥라이프트(DeepLIFT), 스케이터(Skater), AI 익스플레인너빌리티 360(AI Explainability 360), 왓-이프 툴(What-If Tool), 액티베이션 아틀라스(Activation Atlases), 인터프리트ML(InterpretML), 룰렉스 익스플레인너블 AI(Rulex Explainable AI) 등이 있다. 

이러한 툴과 기법은 데이터 과학자가 여러 조건 하에서 특정 데이터 입력이 특정 알고리즘적 해석을 어떻게 도출하는가에 대한 ‘사후적 설명(post-hoc explanations)’을 생성할 수 있도록 지원한다. 사후적 설명은 결과를 보고 나서 현상을 분석하는 것을 말한다. 그러나 최근 이러한 프레임워크가 해킹될 수 있다는 연구가 있었다. 따라서 프레임워크가 생성한 사후적 설명의 신뢰성이 떨어질 수 있으며, 기업은 아래와 같은 위험에 노출될 수 있다. 

위험 1. 알고리즘을 조작해 공개 기록에 침투할 수 있다 
악의적인 사람들이 머신러닝 모델에서 형성된 편향을 잘못 전달하거나 모호하게 만들 목적으로 프레임워크가 생성한 설명을 해킹할 수 있다. 다시 말해 섭동(perturbation)을 기반으로 한 라임이나 샤플리 같은 접근법을 조작해 명백한 편향에 관해 악의 없는 사후적 설명을 생성할 수 있다. 

위험 2. 기술 취약점이 부지불식간에 드러날 수 있다
머신러닝 알고리즘의 작동원리에 대한 정보를 모두 노출한다면 이를 노린 적대적 공격에 더 취약해질 수 있다. 이를테면 해커가 머신러닝 모델의 추론 방식을 조작하거나, 학습 단계에서부터 허위 데이터를 주입해 처음부터 악영향을 주는 공격을 할 수 있다. 

위험 3. 지적 재산권 절취가 쉬워질 수 있다
전체 머신러닝 알고리즘과 훈련 데이터 세트를 설명하는 것만으로도 지적 재산권을 도둑맞을 수 있다. API와 여타 기능을 통해서도 마찬가지다. 머신러닝 모델의 작동 방식에 대한 투명한 설명으로 인해 제3자가 기반 모델을 무단 도용할 수 있다. 이와 비슷하게 훈련 데이터 세트 역시 부분적으로 혹은 전체적으로 재구성될 수 있다. 이를 모델 전도(Model Inversion) 공격이라고 한다. 

위험 4. 프라이버시 침해가 만연해질 수 있다 
제3자가 머신러닝 모델의 학습 데이터 세트에서 특정 개인의 데이터가 포함돼 있는지 무단으로 확인할 수도 있다. ‘회원 추론 공격(membership inference attack)’으로 알려진 이 적대적 공격 기법에 의해 해커는 상당한 양의 프라이버시 데이터에 접근할 수 있다.  
 
알고리즘 투명성이 야기할 수 있는 기술적 위험을 완화하려면 기업 데이터 전문가가 아래의 전략을 검토해야 한다. 

• 데이터 전문가가 모델 결과물에 대한 접근을 제어하고 접근 권한이 남용되는지 모니터링한다. 이 과정에서 데이터 전문가는 투명한 머신러닝 모델에 관한 적대적 공격을 파악해 전면적 위협을 차단한다. 

• 투명한 머신러닝 모델의 학습용 데이터에 통제된 양의 무작위한 잡음을 일부러 추가한다. 이러한 잡음을 섭동이라고 한다. 이는 해커가 사후 설명이나 모델 조작을 통해 원본 데이터 자체를 파악하기 어렵게 만든다. 

• 최종 머신러닝 모델과 원본 데이터 사이에 중간 레이어를 삽입한다. 이를테면 개별 원본 데이터로 훈련된 ‘학습자’ 또는 ‘연합’ 모델이라는 중간 레이어를 통해 최종 모델을 학습시킨다. 이는 제 3자가 최종 모델에서 생성된 사후 설명으로부터 전체 학습 데이터를 무단 복구하기 더 어렵게 만든다. 

물론 기술적인 위험만 존재하지는 않는다. 기업이 머신러닝 모델을 구축하고 학습시키는 방법을 모두 공개한다면 법적 소송이나 규제에 노출될 수 있다. 머신러닝 투명성을 희생하지 않으면서 이러한 비즈니스 위험을 완화하려면 사후 알고리즘 설명이 자동으로 생성되는 데이터 과학 데브옵스가 필요할 것이다. 

아울러 기업은 이러한 설명의 이상징후를 끊임없이 모니터링해야 한다. 예를 들면 기업 또는 머신러닝 모델이 해킹되었다는 증거와 같은 것들이다. 이는 중대한 문제다. 머신러닝 모델을 구축하고 학습시킨 기업이 해당 모델의 투명성을 보증할 수 없다면 AI에 대한 신뢰 자체가 무너질 수 있기 때문이다. ciokr@idg.co.kr

X