이 문제를 더욱더 복잡하게 만드는 것은 사이버보안 자체에서 AI가 많이 사용된다는 점이다. 따라서 AI 경험이 풍부해질수록 기업들은 사이버보안 위험을 더 걱정한다고 딜로이트의 기술, 미디어, 통신 부문 전무이사 제프 룩스는 전했다.
하지만 그에 따르면 AI 경험이 풍부해지더라도 모든 AI 및 ML 프로젝트 인벤토리 전체를 보호하거나 감사 및 테스트를 수행하는 등의 기본적인 보안 관행을 따르지 않는다. 룩스는 “현재 대부분 기업이 보안을 제대로 구현하지 못하고 있다”라고 지적했다.
AI와 ML 데이터로 인해 초래되는 위험
AI와 ML 시스템은 다음과 같은 3가지 데이터세트가 필요하다.
• 예측 모델을 구축하기 위한 학습 데이터(Training data)
• 모델이 얼마나 잘 작동하는지 평가하기 위한 테스트 데이터(Testing data)
• 모델이 작동할 때 발생하는 실시간 트랜잭션 또는 운영 데이터(Live transactional or operational data)
여기서 실시간 트랜잭션 또는 운영 데이터는 분명히 중요한 기업 자산으로 취급되겠지만 민감한 정보가 포함돼 있는 학습 및 테스트 데이터는 간과하기 쉬운 부분이다.
익명화, 토큰화, 암호화 등 다른 시스템의 데이터를 보호하는 데 사용되는 많은 보안 원칙이 AI 및 ML 프로젝트에도 적용될 수 있다. 물론 데이터 자체가 필요한지 가장 먼저 자문해야 한다. AI와 ML 프로젝트를 시작할 때 가능한 모든 데이터를 수집한 다음, 이것으로 무엇을 할 수 있을지 보려는 경향이 있기 때문이다.
비즈니스 결과에 초점을 맞추면 필요한 데이터를 파악하는 데 도움이 된다. 교육기관용 애널리틱스 솔루션 제공업체 오소트(Othot)의 CTO 존 아바티코는 “오소트의 경우 데이터를 다룰 때 민감한 개인식별정보(Personally Identifiable Information, PII)가 필요하지 않으며, 이것이 팀에 제공되는 데이터에 포함되지 않는다고 명확하게 밝힌다”라고 말했다.
실수가 발생할 순 있다. 사용자가 실수로 한국의 주민등록번호와 같은 미국 사회보장번호(SSN) 등의 민감한 개인정보를 입력하는 경우를 예로 들 수 있겠다. 이 정보는 모델의 성능을 향상시키는 게 아니라 오히려 위험을 초래한다. 오소트는 이에 대응해 PII를 식별하고 모든 시스템에서 제거한 다음, 이를 고객에 알리는 절차가 있다고 덧붙였다.
또한 AI 시스템은 맥락 데이터를 필요로 하기 때문에 이로 인해 위험에 노출될 가능성이 커질 수도 있다. 한 보험사가 고객의 운전 습관을 더욱더 잘 파악하기 위해 고객 계정과 손쉽게 연계하고 매칭할 수 있는 데이터세트(예: 쇼핑, 운전, 위치 데이터 등)를 구매한다고 가정해보자. 이 새롭고 풍부한 데이터세트는 해커들의 집중 타깃이 되기 쉽고, 만약 유출된다면 브랜드 명성에 큰 타격을 입힐 것이다.
설계에 의한 AI 보안(AI security by design)
온라인 파일 공유 플랫폼 박스(Box)는 AI를 사용해 메타데이터를 추출하고 검색, 분류 등의 기능을 개선하고 있다.
박스의 CISO 라크슈미 한스팔은 “이를테면 계약 문서에서 약관, 갱신 일자, 가격 정보 등을 추출할 수 있다. 기존에는 콘텐츠 분류를 하지 않았거나 혹은 사용자가 알아서 분류해야 했다. 하지만 디지털 트랜스포메이션에 유용한 데이터 산더미에 앉아 있다는 사실을 알아야 한다. 만약 콘텐츠가 스스로 분류된다면 말이다”라고 전했다.
데이터 보호도 박스의 핵심 업무 가운데 하나다. 그는 동일한 데이터 보호 표준이 학습 데이터는 물론이고 AI 시스템에도 적용된다면서, “우리가 쌓고 판매하며 유지하는 게 바로 신뢰다. 그리고 이것이 제품 및 서비스에 덧붙여지는 게 아니라 통합돼야 한다고 생각한다”라고 언급했다.
다시 말해, 새로운 AI 프로젝트를 포함해 모든 시스템이 암호화, 로깅, 모니터링, 인증, 액세스 제어 등 핵심 데이터 보안 원칙을 기반으로 구축된다는 게 한스팔의 설명이다. 이어서 그는 “자사 플랫폼 자체에 디지털 신뢰가 내재돼 있다”라고 덧붙였다.
또한 한스팔에 따르면 박스는 기존 코드와 새로운 AI 및 ML 시스템을 지원하는 안전한 개발 프로세스를 갖추고 있다. 그는 “안전한 제품 개발을 위해 ISO 산업 표준을 준수한다. 시스템 개발 단계부터 보안을 고려해야 한다는 ‘설계에 의한 보안’ 원칙이 보장돼 있고, 침투 테스트와 레드팀 평가 등 점검 및 균형 조정 절차도 마련돼 있다. 이는 표준 프로세스이며 AI와 ML 프로젝트라고 이 프로세스가 달라지지 않는다”라고 설명했다.
하지만 수학자와 데이터 과학자는 일반적으로 AI 및 ML 알고리즘 코드를 작성할 때 잠재적인 취약점을 고려하지 않는다. 기업도 비슷한 상황이다. 이들은 AI 시스템을 구축할 때 오픈소스 알고리즘 혹은 상용 ‘블랙박스’ AI 시스템을 사용하거나 처음부터 자체 개발하기도 하는데, 오픈소스 코드의 경우 악성코드가 숨겨져 있거나 취약점 또는 취약한 의존성을 포함하고 있을 가능성이 있다. 상용 시스템이라 할지라도 오픈소스 코드나 기업 고객이 확인할 수 없는 새 코드를 사용한다.
주요 위협이 되는 전도 공격(Inversion Attack)
AI와 ML 시스템은 일반적으로 보안 엔지니어가 아닌 사람들이 만든 오픈소스 라이브러리와 새로 작성된 코드의 조합으로 구성된다. 안전한 AI 알고리즘 작성에 관한 표준 모범 사례도 없다. 게다가 보안 전문가도 부족하고, 데이터 과학자도 부족하기 때문에 두 분야를 모두 전문으로 하는 사람은 더 부족하기 마련이다.
AI 및 ML 알고리즘의 가장 큰 잠재적 위험 요소이자, 라프가 가장 우려하는 장기적인 위협은 전도 공격이다. 즉 학습 데이터가 공격자에게 유출되는 것이다. 그는 “모델 학습에 사용된 데이터를 추출하는 공격이 있다. 만약 어떤 모델이 PII 데이터를 학습했다면 이 민감한 데이터가 잠재적으로 노출될 수 있다는 뜻이다”라고 말했다.
이어서 라프는 “이 영역에 관한 연구가 활발히 진행 중이지만 아직 갈 길이 멀다. 이를테면 일부 도구는 전도 공격에서 학습 데이터를 보호할 수 있지만 너무 비싸다. 이를 막는 방법을 알아도 그렇게 하려면 모델 학습 비용이 100배나 증가한다. 과장하는 게 아니다. 말 그대로 100배 더 비싸고, 시간도 더 오래 걸리기 때문에 아무도 그렇게 하지 않는다”라고 덧붙였다.
회원 전용 콘텐츠입니다. 이 기사를 더 읽으시려면
로그인
이 필요합니다. 아직 회원이 아니신 분은
'회원가입'
을 해주십시오.