Offcanvas

AI / CIO / CSO / 보안

AI 환각은 일각일 뿐··· OWASP가 꼽은 LLM 취약점 10가지

2023.06.12 Michael Hill  |  CSO
국제 웹 보안 분야 비영리 재단 OWASP(The Open Web Application Security Project)가 대규모 언어 모델(Large Language Model, LLM) 애플리케이션에서 자주 보이는 치명적인 취약점 상위 10가지를 발표하고 위험성에 대해 경고했다. 프롬프트 주입, 데이터 유출, 부적절한 샌드박싱, 무단 코드 실행 등이 대표적이다.

OWASP는 이번 취약점 순위 발표의 목적이 개발자, 설계자, 아키텍트, 관리자, 기업을 대상으로 LLM을 배포하고 관리할 때의 잠재적인 보안 위험을 교육함으로써 취약점에 대한 인식을 제고하고 대응 전략을 제안하며, LLM 애플리케이션의 보안 태세를 개선하는 것이라고 밝혔다.
 
ⓒ Gerd Altmann (CC0)

LLM을 기반으로 구축된 생성형 AI 챗봇의 등장과 사이버보안에 미치는 영향은 최근 주요 논란거리가 되고 있다. 새로운 기술로 인한 위험은 발전된 자가 학습 알고리즘을 통해 민감한 비즈니스 정보가 공유될 수 있는 문제부터 악성 공격자가 그런 알고리즘을 활용해 공격을 크게 강화할 가능성까지 범위가 다양하다. 일부 국가와 미국 주정부, 기업은 데이터 보안, 보호, 개인정보 보호를 이유로 챗GPT와 같은 생성형 AI 기술 사용의 금지를 고려 중이거나 이미 금지했다.
 
OWASP에서 발표한 LLM 애플리케이션에 영향을 미치는 치명적인 취약점 상위 10가지를 소개한다.


1. 프롬프트 주입 

OWASP에 따르면, 프롬프트 주입은 신중하게 작성한 프롬프트를 사용해 LLM이 이전 지시를 무시하거나 의도치 않은 동작을 수행하게 함으로써 LLM을 조작하거나 필터를 우회하는 작업이다. OWASP는 “프롬프트 주입 취약점은 데이터 유출, 무단 접근 또는 기타 보안 침해를 비롯한 의도치 않은 결과로 이어질 수 있다”라고 말했다. 

흔히 발생하는 프롬프트 주입 취약점으로는 특정 언어 패턴이나 토큰을 사용한 필터 또는 제한 우회, LLM의 토큰화 또는 인코딩 메커니즘 내 약점 악용, LLM에 오해의 소지가 있는 맥락을 제공해 의도치 않은 동작을 유도하는 것 등이 있다.
 
예를 들어, 악성 사용자는 LLM이 제한된 콘텐츠라고 인식하지 못하는 특정 언어 패턴, 토큰, 또는 인코딩 메커니즘을 사용해 콘텐츠 필터를 우회함으로써 차단되어야 할 동장을 수행할 수 있다. 

예방 조치
  • 사용자가 제공한 프롬프트에 대한 엄격한 입력 검증 및 정제를 시행한다. 
  • 프롬프트 조작을 방지하도록 맥락 인식 필터링과 출력 인코딩을 사용한다. 
  • 악성 입력 내용과 특이 사례에 대한 LLM의 이해를 제고하도록 LLM을 정기적으로 업데이트하고 미세 조정을 실시한다. 


2. 데이터 유출

데이터 유출은 LLM의 답변을 통해 뜻하지 않게 민감 정보, 독점 알고리즘 또는 기타 기밀 세부정보가 드러날 때 발생한다. OWASP는 “민감 데이터나 지적 재산에 대한 무단 접근, 개인정보 침해 등의 보안 침해로 귀결될 수 있다”라고 밝혔다.

불완전/부적절한 민감 정보 필터링, 민감 데이터 과다학습, 오해 또는 오류 등이 흔히 발생하는 데이터 유출 취약점이다. OWASP는 공격자가 LLM이 학습 데이터에서 암기한 민감 정보를 추출하기 위해 신중하게 작성한 프롬프트로 LLM에 의도된 질문을 던지는 경우나 정상적인 사용자가 LLM에 무심코 던진 질문이 민감/기밀 정보를 드러내는 경우가 있을 수 있다고 경고했다.

예방 조치
  • LLM이 민감 정보를 드러내는 일을 방지하도록 엄격한 출력 필터링 및 맥락 인식 메커니즘을 시행한다.
  • LLM의 학습 과정 중에 과다학습 또는 암기의 위험을 줄이도록 차등화된 개인정보 보호 기법 또는 기타 데이터 익명화 방법을 사용한다. 
  • 민감 정보가 무심코 공개되지 않도록 LLM의 답변에 대해 정기적으로 감사 및 검토를 실시한다. 


3. 부적절한 샌드박싱 

외부 리소스나 민감한 시스템에 대한 접근권을 보유한 LLM을 적절히 격리하지 않으면 잠재적인 악용, 무단 접근 또는 의도치 않은 동작으로 이어질 수 있다. LLM 환경이 다른 필수 시스템/데이터 저장소와 충분히 격리되지 않은 상태, LLM이 민감한 리소스에 액세스할 수 있도록 허용하는 부적절한 제한 조치, 시스템 수준의 작업을 수행하거나 다른 프로세스와 상호 작용하는 LLM이 대표적인 샌드박싱 취약점이다.
 
이를 악용해 악성 행위자는 LLM에 기밀 정보의 추출 및 공개를 지시하는 프롬프트를 작성해 LLM의 민감한 데이터베이스에 접근할 수 있다.

예방 조치
  • LLM 환경을 다른 필수 시스템 및 리소스와 격리한다. 
  • 민감한 리소스에 대한 LLM의 접근을 제한하고 LLM의 기능은 의도된 목적에 필요한 최소한의 수준으로 한정한다. 
  • 반드시 적절한 격리가 유지되도록 LLM의 환경과 접근 통제장치에 대해 정기적으로 감사 및 검토를 실시한다. 


4. 무단 코드 실행 

무단 코드 실행은 공격자가 자연어 프롬프트를 통해 LLM이 기반 시스템에 악성 코드, 명령 또는 동작을 실행하도록 악용하는 것이다. 흔히 발생하는 취약점으로는 사용자 입력이 정제되거나 제한되지 않아 공격자의 무단 코드 실행을 유발하는 경우, LLM의 기능이 충분히 제한되지 않은 경우, 시스템 수준 기능 또는 인터페이스가 의도치 않게 LLM에 노출되는 경우 등이다. 

가령 공격자는 LLM이 실행한 명령으로 기반 시스템에서 리버스 셸이 시작되도록 프롬프트를 작성해 무단 접근권을 획득할 수 있으며, 혹은 의도치 않게 LLM이 시스템 수준 API와 상호 작용하도록 허용되고 이를 공격자가 조작해 시스템에 무단 동작을 실행할 수 있다.

예방 조치
  • LLM이 악성 프롬프트나 예기치 않은 프롬프트를 처리하는 일을 방지하도록 엄격한 입력 검증 및 정제 과정을 시행한다. 
  • 적절한 샌드박싱을 확보하고 LLM이 기반 시스템과의 상호 작용만 할 수 있도록 기능을 제한한다. 


5. 서버 측 요청 위조

서버 측 요청 위조(Server-side Request Forgery, SSRF) 취약점은 공격자가 LLM을 악용해 의도치 않은 요청을 수행하거나 내부 서비스, API 또는 데이터 저장소와 같은 제한된 리소스에 접근하도록 할 때 발생한다. OWASP는 입력 검증이 불충분해 공격자가 LLM 프롬프트를 조작하여 무단 요청 및 네트워크 또는 애플리케이션 보안 설정의 오구성을 유발하고, 이로 인해 LLM에 내부 리소스가 노출되는 것 등이 흔히 발생하는 SSRF 취약점이라고 밝혔다.

위협 행위자는 접근 통제 조치를 우회해 민감 정보에 무단 접근할 수 있도록 LLM이 내부 서비스에 요청하는 프롬프트를 작성할 수 있다. 또한 애플리케이션의 보안 설정에서 오구성을 악용함으로써 제한된 API와 LLM의 상호 작용을 통해 민감한 데이터에 접근하거나 이를 수정할 수도 있다. 

예방 조치
  • 악성 프롬프트나 예기치 못한 프롬프트가 무단 요청을 시작하는 일을 방지하도록 철저한 입력 검증 및 정제를 시행한다. 
  • 내부 리소스가 무심코 LLM에 노출되지 않도록 네트워크/애플리케이션 보안 설정에 대해 정기적으로 감사 및 검토를 실시한다. 


6. LLM 생성 콘텐츠에 대한 과도한 의존

OSAWP에 따르면, LLM이 생성한 콘텐츠에 대한 과도한 의존은 오해의 소지가 있거나 부정확한 정보의 확산, 의사 결정 과정에서 사람이 제시하는 의견 감소, 비판적 사고의 축소 등으로 이어질 수 있다. OSAWP는 “기업과 사용자가 LLM이 생성한 콘텐츠를 검증 없이 신뢰하면 오류, 오해 또는 의도치 않는 결과로 이어질 수 있다”라고 지적했다. 

LLM이 생성한 콘텐츠에 대한 과도한 의존과 관련해 흔히 발생하는 문제는 LLM이 생성한 콘텐츠를 검증 없이 사실로 받아들이는 것, LLM이 생성한 콘텐츠에는 편향이나 잘못된 정보가 없다고 가정하는 것, LLM이 생성한 콘텐츠에 의존해 사람의 의견이나 감독 없이 중요한 결정을 내리는 것이 대표적이다. 

예를 들어, 어떤 회사가 LLM에 의존해 보안 보고서 및 분석 자료를 생성하고 이를 기반으로 중대한 보안 결정을 내렸는데 해당 LLM의 답변에 부정확한 정보가 포함되어 있었다면 잘못된 결정으로 인한 파급효과는 상당히 클 수 있다. 

옴디아(Omdia) 사이버보안 담당 선임 수석 애널리스트 릭 터너는 이를 ‘LLM 환각’이라고 지칭한다. 터너는 “LLM 답변 내용이 쓰레기라는 것을 애널리스트가 쉽게 식별할 수 있다면 알고리즘의 추가 학습을 지원할 수 있다. 그러나 환각이 매우 그럴듯해 실제처럼 보이면 어떻게 될까? 즉, 문제나 위험이 아님에도 불구하고 LLM이 잘못된 판단에 대한 신빙성을 높여 애널리스트가 시스템 가동을 중단하거나 순 가치가 높은 고객의 계정을 몇 시간 동안 차단하는 심각한 결과가 초래될 수 있다”라고 지적했다. 


7. 부적절한 AI 정렬 

부적절한 AI 정렬(alignment)은 LLM의 목적과 행동이 의도된 사용 사례와 일치하지 않아 바람직하지 않은 결과나 취약점으로 이어지는 경우다. OWASP는 목적이 제대로 정의되지 않아 LLM이 바람직하지 않거나 해로운 행동을 우선하는 결과를 초래하는 것, 어긋난 보상 기능 혹은 학습 데이터가 의도치 않은 행동을 발생시키는 것, LLM 행동에 대한 테스트와 검증이 충분히 이루어지지 않는 것 등이 흔히 발생하는 문제라고 말했다. 

시스템 관리 작업을 지원하도록 설계된 LLM이 제대로 정렬되지 않으면 시스템 성능이나 보안을 저하하는 동작을 우선하거나 해로운 명령을 실행할 수 있다. 

예방 조치
  • 설계 및 개발 과정 중에 LLM의 목적과 의도된 행동을 정의한다. 
  • 보상 기능과 학습 데이터가 바람직한 결과와 일치하고 바람직하지 않거나 해로운 행동은 권장하지 않도록 조치한다.
  • 정렬 문제를 식별해 해결하도록 광범위한 시나리오, 입력값, 문맥에 걸쳐 LLM의 행동에 대한 테스트와 검증을 정기적으로 실시한다. 


8. 불충분한 접근 통제 조치 

접근 통제 수단이나 인증 메커니즘이 제대로 시행되지 않으면 허가받지 않은 사용자가 LLM과 상호 작용하고 잠재적으로 취약점을 악용할 수 있다. OWASP는 LLM 접근을 위한 인증 요건을 엄격하게 실행하지 않는 것, 부적절한 RBAC(Role-based Access Control) 시행으로 사용자가 의도된 권한 이상의 동작을 수행할 수 있게 되는 것, LLM이 생성한 콘텐츠 및 동작에 대해 적절한 접근 통제 장치를 제공하지 않는 것이 모두 흔히 발생하는 예라고 지적했다.

OWASP이 소개한 공격 사례는 약한 인증 메커니즘 때문에 악성 행위자가 무단 접근권을 획득하여 취약점을 약용하거나 시스템을 조작할 수 있게 되는 경우다. 

예방 조치
  • 허가받은 사용자만 LLM에 접근할 수 있도록 MFA(Multi-factor Authentication)과 같은 강력한 인증 메커니즘을 시행한다. 
  • 무단 접근이나 조작을 예방하기 위해 LLM이 생성한 콘텐츠 및 동작에 대한 적절한 접근 통제 조치를 시행한다. 


9. 부적절한 오류 처리 

부적절한 오류 처리는 오류 메시지나 디버깅 정보를 통해 민감 정보, 시스템 세부 정보 또는 잠재적인 공격 벡터를 위협 행위자에게 드러내는 원인이다. 민감 정보 또는 시스템 세부 정보뿐 아니라 디버깅 정보도 유출될 수 있으며, 오류를 적절하게 처리하지 않아 잠재적으로 예기치 못한 행동이나 시스템 가동 중단을 초래할 수도 있다.

예를 들어, 공격자는 LLM의 오류 메시지를 악용해 민감 정보나 시스템 세부정보를 수집해 표적 공격을 실행하거나 알려진 취약점을 악용할 수 있다. OWASP에 따르면, 개발자가 뜻하지 않게 디버깅 정보를 운영 환경에 노출된 상태로 방치해 공격자가 시스템의 잠재적인 공격 벡터나 취약점을 식별하게 되는 경우도 있다. 

예방 조치
  • 오류가 반드시 감지, 기록, 처리되도록 적절한 오류 처리 메커니즘을 시행한다. 
  • 오류 메시지와 디버깅 정보가 민감한 정보나 시스템 세부정보를 드러내지 않도록 조치한다. 개발자와 관리자를 위해 상세한 오류 정보를 기록하는 한편 사용자를 위해서는 일반적인 오류 메시지 사용을 고려한다. 


10. 학습 데이터 중독

OWASP에 따르면, 학습 데이터 중독(poisoning)이란 공격자가 LLM의 보안, 유효성 또는 윤리적 행동을 손상시키는 것으로, 백도어 또는 편향을 도입하기 위해 LLM의 학습 데이터나 미세조정 절차를 조작하는 경우다. 악의적으로 조작된 훈련 데이터를 통해 LLM에 백도어나 취약점, 혹은 편향되거나 부적절한 답변을 생성하도록 편향을 주입하는 것이 대표적이다.

예방 조치 
  • 믿을 수 있는 출처에서 입수하고 품질을 검증해 학습 데이터의 무결성을 보장한다. 
  • 학습 데이터에서 잠재적인 취약점이나 편향을 제거하도록 강력한 데이터 정제 및 사전 처리 기법을 시행한다. 
  • 모니터링 및 경보 메커니즘을 활용해 학습 데이터 중독일 수 있는 LLM의 이상 행동 또는 성능 문제를 감지한다.


“LLM의 안전한 사용은 기업의 책임”

많은 전문가가 LLM을 사용하는 생성형 AI 챗봇의 안전한 사용은 보안 리더와 보안팀, 소속 기업의 책임이라고 입을 모은다. 기가몬(Gigamon) CSO 차임 마잘은 “보안팀과 법무팀은 소속 기업이 지적 재산이나 보안을 희생하지 않고 이 기술의 기능을 활용할 최선의 길을 찾도록 협력해야 한다”라고 말했다.

AI 기반 챗봇을 안전하고 효과적으로 사용하려면 정기적인 업데이트와 사람의 감독이 필수적이다. 토비 AI(Tovie AI) CEO 조슈아 카이저는 “LLM이 정확한 답변을 제공하고 보안 문제를 감지하려면 맥락적인 이해가 필요하고 잠재적인 취약점을 식별하도록 정기적으로 테스트 및 평가를 실시해야 한다”라고 강조했다.
editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.