Offcanvas
“규제의 불확실성이 생성형 AI 배포 결정에 영향을 미친다”
77
%
자료 제목 :
2023 KPMG 생성형 AI 서베이
2023 KPMG Generative AI Survey
자료 출처 :
KPMG
원본자료 다운로드
발행 날짜 :
2023년 06월 15일

AI / CIO / CSO / How To / 신기술|미래

‘규제 불확실성, 데이터 거버넌스...’ 생성형 AI의 현 과제는? 해결 전략은?

2023.08.28 Maria Korolov  |  CIO
생성형 AI가 AI 확산을 이끄는 갑작스럽고 즉각적인 힘으로 부상했다. 하지만 경고 신호가 없는 것은 아니다. 오늘날 기업들의 생성형 AI 채택을 가로막는 주요 걸림돌에 대해 살펴본다.

생성형 AI는 여러 국가의 데이터 개인정보 보호법과 관련된 위험을 증폭할 확대할 가능성이 있다. 민감한 데이터의 수집, 사용, 공유, 저장 방식을 규율하는 이들 법에 저촉될 여지는 없는지 면밀한 조사가 필요할 수 있다.

예를 들어, 유럽은 불구하고 AI법에 계속해서 업데이트하고 있다. 이 법은 이제 생성형 AI도 다루고 있다. 소송도 여럿 발생한 상태다. 오픈AI, 마이크로소프트, 미드저니, 스테이블 디퓨전 등 여러 생성형 AI 공급업체가 소송을 당했다. 다양한 저작권 소유자가 제기한 이들 소송은 이들 업체가 이미지, 코드, 텍스트 등 저작권이 있는 데이터로 AI를 학습시켰다고 주장하고 있다.

또한, 생성형 AI를 포함한 AI 개발을 중단하라는 청원도 있다. 이러한 청원은 규제기관이나 입법자에게 AI 사용을 제한하도록 압력을 가할 수 있다.

몇몇 지자체가 이러한 움직임에 동참하고 있다. 예를 들어, 뉴욕시는 7월부터 채용 결정에 AI를 사용하는 것에 관한 새로운 규칙을 시행하기 시작했다. 이 규칙에 따르면 자동화된 의사결정 툴은 편견 감사를 거쳐야 하며, 구직자에게 사용 사실을 통보해야 한다. 뉴저지, 메릴랜드, 일리노이, 캘리포니아에서도 비슷한 규칙을 검토 중이다.

로펌인 깁슨 던 앤 크러처의 AI 공동 의장 겸 파트너인 에릭 반데벨데는 “매우 뜨거운 주제다. 고객과 잠재 고객으로부터 AI의 위험에 대한 질문과 문의가 쇄도하고 있다”라고 말했다.

지난 6월 KPMG의 설문조사에 따르면, 규제 측면의 불확실성이 생성형 AI를 구현하는 데 있어 가장 큰 장벽으로 꼽혔다. 대기업 CEO의 77%는 규제 불확실성이 생성형 AI 배포 결정에 영향을 미친다고 답했으며, 41%는 규제 환경을 모니터링하기 위해 3~6개월 동안 잠시 멈춰 있다고 답했다.

규제 불확실성에도 불구하고 조직들이 생성형 AI를 배포하기 위해 사용하는 전략으로는 다음과 같은 것들이 있다.
 
Image Credit : Getty Images Bank

느리게 전진하기 
일부 기업, 특히 규제 대상 산업에 속한 기업들은 위험이 적은 영역에만 생성형 AI를 배포하는 전략을 애용한다.

시카고에 본사를 둔 개인 상해 전문 로펌인 더 파쿠리 펌의 설립자 로버트 파쿠리는 “한 AI 벤더는 고객의 모든 의료 기록과 청구서를 업로드하고 청구서를 작성해 주겠다고 제안했다”라고 말했다. AI를 사용하여 서한을 생성하면 사람이 직접 작성할 필요가 줄어든다는 것이 이 회사의 아이디어였다.

그는 “하지만 추진이 불가하다는 판단을 내렸다. 의료정보를 저장한다는 사실에 대한 두려움이 막대하다. 나는 이 정보를 다른 서비스에 업로드하지 않을 것이다. 위험이 너무 크다”라고 말했다. 이 회사는 또 직원들이 고객에게 편지를 쓸 때 챗GPT를 사용하는 것을 금지하고 있다. 

그러나 위험도가 낮은 한 가지 사용 사례에 대해서는 생성형 AI가 허용된다고 그는 말했다. “나에게 유일한 활용 사례는 소셜 미디어에서 마케팅 전략을 수립하는 과정에서 아이디어를 얻고, 스크립트를 생성하고, 새로운 콘텐츠에 대한 영감으로 무엇을 제공할 수 있는지 확인하는 데 챗GPT를 활용하는 것이다. 특히 의료 기록에 대한 더 많은 법률과 지침이 마련된다면, 사용례를 확대할 수 있다”라고 말했다.

도미노 데이터 랩의 데이터 과학 전략 및 에반젤리즘 책임자인 켈 칼슨은 많은 기업이 위험도가 낮은 사용 사례에 먼저 AI를 배포하고 있다고 전했다.

그는 “이야기를 나눠본 대부분의 회사는 내부 사용자의 업무를 돕는데 주목하고 있었다. 만약 에너지 회사라면, 사람들이 지질 조사 및 보고서 작성에 어려움을 겪지 않고 이를 활용할 수 있도록 하려 한다”라고 말했다.

실제로 AI를 통해 사용자는 매우 똑똑한 조사 보조원을 얻을 수 있다. 그는 “탁월한 요약기, 훌륭한 초안 텍스트 생성기가 출현했다. 이를 통해 하고 싶은 많은 일을 할 수 있게 되었다”라고 말했다.

데이터 거버넌스 확보 
애플리케이션을 개발할 때는 사용자가 권한 없는 데이터에 액세스하지 못하도록 주의해야 한다. 예를 들어, HR 애플리케이션에서 직원은 자신의 급여 정보와 복리후생은 볼 수 있지만 다른 직원의 정보는 볼 수 없어야 한다. 

이러한 툴에 생성형 AI를 접목할 때 문제가 미묘해질 수 있다. HR 챗봇이 직원 데이터베이스에 접근할 수 있어야 하는 동시에, AI가 알고 있는 모든 정보를 질문하는 모든 사람에게 알려주지 않도록 해야 하는 것이다. 이는 고객의 금융 거래나 의료 기록에 대한 질문에 답변해야 하는 고객 대면 챗봇에 특히 중요하다. 

민감한 데이터에 대한 액세스를 보호하는 것은 데이터 거버넌스의 한 부분일 뿐이다. 데이터 컨설팅 회사인 다스42의 CEO인 닉 아마빌은 “데이터의 출처, 데이터의 변환 방식, 데이터의 결과물을 알아야 한다. 일반적으로 기업들은 데이터 거버넌스 문제와 씨름하고 있다”라고 말했다.

대규모 언어 모델(LLM)의 경우, 데이터 거버넌스는 아직 초기 단계에 있다고 그는 지적했다. 아마빌은 “이제 일부 공급업체가 플랫폼에 거버넌스 기능을 어떻게 추가할 것인지에 대해 이야기하기 시작했다. 재교육, 배포, 운영, 테스트 등 많은 기능이 아직 제공되지 않고 있다”라고 말했다.

템피에 본사를 둔 솔루션 통합업체 ‘인사이트’의 북미 지역 CTO인 후안 올란디니는 생성형 AI에 대해 기업들이 안전 장치를 마련해야 한다고 말한다. 여기에는 올바른 제어 장치가 마련되어 있는지, 모델이 격리되어 있는지, 적절하게 사용되고 있는지 확인하는 방법을 배우는 것도 포함될 수 있다고 그는 말했다.

그는 “우리 회사의 경우 자체 생성형 AI 정책을 만들었으며, 자체 챗GPT 인스턴스를 구축하여 전 세계 1만 4,000명의 직원 모두에게 배포했다”라고 말했다. 인사이트는 이를 위해 애저 오픈AI 서비스를 사용했다.

이 회사는 또 직원들에게 AI를 안전하게 사용하는 방법, 특히 아직 점검 받지 않고 보안 사용이 승인되지 않은 툴을 안전하게 사용하는 방법에 대해 교육하고 있다. 

예를 들어, 직원들은 이러한 툴에 대해 누구나 게시물을 볼 수 있는 소셜 미디어 플랫폼처럼 바라보도록 요구받는다. 올란디니는 “고객의 매출 예측을 페이스북에 올리겠는가? 아마 아닐 것이다”라고 말했다.

제어 계층 추가
생성형 AI 모델이 편향되거나 위험한 결과를 생성하지 않을 것이라는 보장은 없다. 동일하게 요청해도 매번 다른 결과가 도출될 수 있다. 생성형 AI의 이러한 특성은 입력에 따라 예측 가능한 출력 세트를 생성하는 기존 소프트웨어와는 매우 다르다.

기술 컨설팅 회사 스타의 기술 디렉터인 마틴 픽스는 “테스트를 이용해 오류를 확인할 수 있다. 그러나 오류가 없는 것은 보여주지 못한다. AI는 블랙박스다. 출력을 관찰하고 측정할 수 있는 통계적 방법만 있을 뿐, AI의 모든 기능 영역을 테스트하는 것은 불가능하다”라고 말했다.

사용자들은 상상할 수 있는 모든 프롬프트를 LLM에 입력할 수 있고, 연구자들은 수개월 동안 AI를 속여 불쾌한 행동을 하도록 유도하는 새로운 방법을 찾아냈다. AI ‘탈옥’이라고 불리는 참신한 활용 방법이 속속 등장하고 있다.

일부 기업에서는 다른 유형의 AI를 사용하여 결과의 위험성을 테스트하거나 데이터 손실 방지 및 기타 보안도구를 사용하여 사용자가 애초에 민감한 데이터를 프롬프트에 입력하지 못하도록 하는 방안도 검토하고 있다.

픽스는 “다양한 기술을 결합하여 안전과 보안의 계층을 만들어 위험을 줄일 수 있다”라고 말했다.

이러한 시도는 AI가 대량의 기업 내부 데이터에 액세스하고 있는 경우 특히 중요할 수 있다. 그는 “AI가 모든 정보에 액세스할 수 있다면 그것이 모든 정보를 공개할 수 있다. 따라서 시스템 보안을 훨씬 더 철저히 하고 필요한 만큼 많은 계층을 구축해야 한다”라고 말했다.

오픈소스 접근법
오픈AI의 챗GPT와 같은 상용 AI 시스템은 픽스가 설명하듯이 블랙박스와 같다. 기업들은 이 시스템에 들어가는 학습 데이터, 미세 조정 방법, 지속적인 학습에 들어가는 정보, AI가 실제로 의사 결정을 내리는 방법, 관련된 모든 데이터가 정확히 어떻게 보호되는지에 대해 제대로 알기 어렵다. 특히 규제가 매우 엄격한 산업에서는 감당해야 할 위험이 더욱 클 수 있다.

한 가지 옵션은 오픈소스 소프트웨어를 사용하는 것이다. 현재 다양한 라이선스의 여러 모델이 대중에게 공개되어 있다. 지난 7월, 메타가 라마2를 출시하면서 이러한 모델의 폭이 크게 넓어졌는데, 라마2는 3가지 크기로 제공되는 엔터프라이즈급 LLM이다. 이는 상업적 사용이 허용되고 월간 활성 사용자 수가 7억 명 미만인 애플리케이션일 경우 기업에서 완전히 무료로 사용할 수 있다. 

즉 기업은 리마 2를 원래 형태 또는 다양한 변형 중 하나로 직접 다운로드, 설치, 미세 조정 및 실행하거나, 리마 2를 기반으로 하는 타사 AI 시스템을 사용할 수 있다. 예를 들어, 환자 의료 서비스 회사인 아이베리는 플랜-T5, 리마 2, 비쿠나 등 맞춤형 오픈소스 모델을 사용한다고 이 회사의 선임 임상 데이터 과학자인 마이클 멀라키는 말했다.

그는 이 모델은 아이베리의 보안 데이터 인프라 내에서 실행되며 회사의 요구 사항을 충족하는 방식으로 작동하도록 미세 조정됐다며, “아직까지는 잘 작동하고 있는 것 같다”라고 말했다.

아이베리에는 이러한 모델을 훈련, 테스트 및 검증하는 데 사용하는 데이터 세트가 있으며, 이 모델은 환자 선별 정보의 평가를 기반으로 임상의가 필요로 하는 것을 예측하고 정보를 미리 제공하려고 시도한다.

멀라키는 “민감한 데이터가 포함되지 않는 워크플로우의 다른 부분에서는 챗GPT, 클로드 및 기타 상용 모델을 사용한다”라고 설명했다.

온프레미스 또는 프라이빗 클라우드에서 오픈소스 소프트웨어를 실행하면 데이터 손실과 같은 위험을 줄일 수 있으며 기업이 데이터 주권 및 개인정보 보호 규정을 준수하는 데 도움이 될 수 있다. 

그러나 오픈소스 소프트웨어에도 위험은 있다. 특히 오픈소스 리포지토리에 AI 프로젝트가 증가함에 따라 자체적인 위험이 증가하고 있다. 일부 규제 대상 산업에서는 기업이 시스템에서 실행하는 오픈소스 코드에 주의를 기울여야 하는데, 이는 데이터침해, 개인정보 위반 또는 편향적이거나 차별적인 결정으로 이어질 수 있기 때문이다.

2월에 발표된 시놉시스 오픈소스 보안 보고서에 따르면, 일반적으로 오픈 소스 코드베이스의 84%에 적어도 하나의 취약점이 포함되어 있는 것으로 나타났다.

포레스터 리서치의 애널리스트인 알라 발렌테는 “오픈소스 코드나 앱이 악용되어 많은 피해가 발생하고있다”라며, 예를 들어, 2021년 말에 패치 된 로그4셸 취약점에 대해서 2022년 말에도 여전히 하루에 50만 건의 공격 요청이 발생하고 있다고 전했다.

오 소스 코드에는 취약점 외에도 악성 코드와 백도어가 포함될 수 있다. 아울러 오픈소스 AI 모델은 잠재적으로 오염된 데이터 세트에서 학습되거나 미세 조정될 수 있다.

발렌테는 “기업이라면 오픈소스에서 찾은 것을 아무런 보호 장치 없이 시스템에 연결해선 안 된다는 점을 잘 알것이다”라고 말했다.

기업은 이미 다른 소프트웨어 프로젝트에 적용하고 있는 것과 유사한 AI 모델에 대한 제어를 설정해야 하며, 정보 보안 및 규정 준수 팀은 데이터 과학 팀이 무엇을 하고 있는지 파악하고 있어야 한다. 

보안 위험 외에도 기업은 모델에 대한 학습 데이터의 소싱에도 주의를 기울여야 한다며, 발렌테는 “이 데이터는 어떻게 입수한 것인가? 합법적이고 윤리적이었는가?”라고 반문했다. 

기업들이 지침을 얻을 수 있는 곳 중 하나는 올여름 FTC가 오픈AI에 보낸 서한이다. 워싱턴 포스트의 보도에 따르면, 이 서한은 오픈AI에 LLM의 학습 데이터 출처를 설명하고, 데이터를 조사하고, 모델이 허위, 오해의 소지가 있거나 비방하는 진술을 생성하는지, 개인에 대한 정확한 개인 식별 정보를 생성하는지 테스트할 것을 요구한다.

발렌테는 연방 정부에서 규정하는 프레임워크가 없는 상황에서 이 서한은 기업들에게 시작점을 제공한다고 말했다.

데이터 보존 문제로 고민하는 기업을 지원하는 데이터 컨설팅 회사인 다스42의 CEO인 닉 아마빌은은 AI의 ‘소재지’를 언급했다. 그에 따르면 AI 툴을 사용하여 고객의 재무 기록이나 의료기록에 관한 서신을 작성하는 경우, 민감한 정보가 포함된 프롬프트 요청은 처리를 위해 AI로 전송될 것이다. 챗GPT나 바드와 같은 공개 챗봇을 사용하면 기업이 이 요청이 정확히 어디에서 처리되는지 알 수 없기 때문에 국가 데이터 보존 요건에 위배될 수 있다.

아마빌은 “많은 신뢰할 수 있는 엔터프라이즈 공급업체가 이 분야에 뛰어들고 있다. 데이터를 AI로 가져오는 것이 아니라 AI를 데이터로 가져오고 있다”라고 말했다.

AWS 및 애저와 같은 클라우드 공급업체는 오랫동안 사용자에게 지리 기반 인프라를 제공해왔다. 예를 들어, 마이크로소프트의 애저 오픈AI 서비스를 사용하면 고객이 지정한 데이터 소스와 위치에 데이터를 저장할 수 있으며, 애저 오픈AI 서비스 자체에는 데이터를 복사하지 않는다. 그동안 데이터 관리의 개인 정보 보호, 보존 및 기타 규정 준수와 관련하여 기업을 지원하는 데 주력해 온 스노우플레이크 및 데이터브릭스와 같은 데이터 공급업체도 생성형 AI 영역에 뛰어들고 있다.

면책제도 활용
일부 공급업체는 기업들이 AI 모델의 위험성을 고민하고 있음을 이해하고 면책제도를 제공하고 있다. 

예를 들어, 언어 모델보다 몇 달 전부터 인기를 끌고 있는 이미지 생성형 AI는 학습 데이터의 저작권을 위반했다고 고소를 당했다. 이로 인해 어도비, 셔터스톡 및 기타 기업 친화적인 플랫폼은 정식 라이선스가 부여된 데이터 또는 공개 도메인에 있는 데이터로만 학습된 AI를 배포하고 있음을 보장하고 있다. 

또한 지난 6월, 어도비는 기업이 AI로 생성한 콘텐츠에 대해 면책을 제공함으로써 조직 전체에 안심하고 배포할 수 있도록 하겠다고 발표했다.

스노우플레이크 및 데이터브릭스를 비롯한 다른 기업 공급업체도 자신들의 고객에게 다양한 수준의 면책제도를 제공한다. 예를 들어, 스노우플레이크는 서비스 약관에서 제3자의 지적 재산권을 침해하는 서비스에 대한 제3자의 클레임에 대해 고객을 보호할 것을 약속한다.

아마빌은 “현재 스노우플레이크 및 데이터브릭스와 같은 기존 공급업체는 고객에게 보호 서비스를 제공하고 있다. 이는 기업에게 정말 혜택이다”라고 말했다. 

이사진급의 관심이 필요하다
깁슨 던 앤 크러처의 반데벨데에 따르면 AI는 최고 경영진의 관심을 필요로 한다. 그는 “이것은 단순히 CIO나 최고 개인정보 보호 책임자만의 문제가 아니다. 이는 이사회에서부터 회사 전체가 함께 고민해야 하는 문제이다”라고 말햇다.

그는 사이버 보안과 개인정보 보호가 걸어온 길과 유사한 궤적이라고 비유했다. 반데벨데는 “15년 전만 해도 이사회에서 개인정보 보호에 대해 생각하고 최고 개인정보 보호 책임자를 두며 제품 및 서비스 설계 단계부터 개인정보 보호를 고려하는 것은 낯선 일이었다. AI에서도 똑같은 일이 벌어질 것이다”라고 말했다. 

단 속도는 더 빠를 수 있다고 그는 덧붙였다. 반데벨데는 “대중도 AI의 잠재력을 인식하고 있다. 이는 규제, 법률, 정부 조치의 모든 측면에서 움직임을 일으키고 있다. 공정하든 공정하지 않든, 데이터 개인정보보호 및 데이터 보안에 관한 규제가 너무 느리다는 비판이 있었기 때문에 규제 당국은 자신과 권한을 확립하기 위해 훨씬 더 빠르게 움직이려고 노력하고 있다”라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.