Offcanvas

AI / 머신러닝|딥러닝

새로운 과제··· '윤리적 AI'를 위한 튜링 테스트 개발하기

2021.02.25 James Kobielus  |  InfoWorld
AI가 새로운 도전과제에 직면했다. ‘윤리’를 프로세스에 접목하도록 AI를 학습시킬 수 있을까? 

AI 개발자는 비유하자면 ‘오즈의 마법사(Wizard of Oz)’ 같은 분위기를 풍긴다. 이 세계의 허수아비(컴퓨터)에 뇌(알고리즘)를 넣어주는 것처럼 보이는 놀라운 일을 하기 때문이다. 그리고 AI를 테스트하는 ‘튜링 테스트’는 이 허수아비가 살과 피를 가진 인간일지도 모른다고 생각하도록 속이는 데 필요한 일종의 마법이다(허수아비의 바지 밖으로 나온 지푸라기를 무시한다면 그렇다는 것이다). 

하지만 아마존 알렉사를 개발하는 수석 과학자 로히트 프라사드는 앨런 튜링의 ‘이미테이션 게임(imitation game)’ 프레임워크가 AI 전문가에게 더 이상 유효하지 않다고 주장한다. 왜일까? 
 
ⓒGetty Images

윤리적 AI(Ethical AI)를 위한 새로운 튜링 테스트 개발하기 
프라사드는 자연어 대화를 흉내 내는 건 더 이상 달성 불가능한 목표가 아니라고 지적했다. 튜링 테스트는 인지 컴퓨팅과 자연어 처리가 달 여행만큼이나 미래적으로 느껴졌던 20세기 초 중요한 개념적 돌파구였다. 물론 이 테스트는 기술적 벤치마크로 고안된 것은 아니었다. 단순히 추상적인 기계가 인지 능력을 어떻게 모방할 수 있는지 보여주기 위한 사고 실험(thought experiment)이었다. 

또한 프리사드는 AI의 가치가 자연어 대화를 모방하는 것 이상의 고급 기능에 있다고 말했다. 그는 특히 인간이 할 수 있는 것보다 훨씬 더 빠른 속도로 방대한 양의 정보를 처리하는 AI의 역량을 강조했다. AI는 텍스트 기반의 데이터 교환에서 나아가 영상, 음성, 이미지, 센서 등의 여러 유형의 데이터를 처리할 수 있다. 이는 대화를 통해서가 아니라, 추론되거나 혹은 미리 설정한 사용자 의도에 따라 자동화된 작업을 수행할 수도 있다. 

이러한 모든 AI 역량을 윤리적 AI에 초점을 맞춘 더 넓은 프레임워크에 통합할 수 있다. 윤리적 의사결정은 AI 시스템이 의도치 않게 프라이버시를 침해하거나 핵심 규범 원칙에서 위반하는 행위를 하지 않도록 이를 어떻게 프로그래밍해야 할지 고민하는 사람들에게 초미의 관심사다. 

한편 윤리적 AI는 공상과학 소설 애호가들의 흥미를 사로잡기도 한다. 이들은 美 작가 아이작 아시모프의 로봇공학 3원칙(Three Laws of Robotics)이 실제 로봇(물리적 로봇 또는 가상 로봇 모두 포함)에 실질적으로 프로그래밍될 수 있는지에 관해 오랫동안 논쟁해왔다. 

만약 AI 기반의 로봇이 ‘도덕 행위자(moral agents; 자신의 행동에 책임을 질 수 있는 자유의지를 가진 인격적 존재)’가 될 것으로 기대한다면, 새로운 튜링 테스트가 필요하다. 

윤리에 초점을 맞춘 새로운 이미테이션 게임은 AI 기반 기기, 봇, 애플리케이션이 인간을 얼마나 잘 설득하는가에 달려있다. 이들의 언어적 반응과 다른 행동이 동일한 환경에 있는 실제 인간에 의해 이뤄진 것처럼 보이게 하는 것이다. 

로봇공학 시대를 위한 윤리적 AI 프레임워크 구축하기 
실용적 관점에서 볼 때 이 새로운 튜링 데스트에서 AI 마법사(개발자)는 ‘허수아비(로봇)’에 지능(알고리즘)을 부여해야 할 뿐만 아니라 (비유하자면) ‘양철나무꾼’에게 윤리적 맥락에서 인간과 교류하기 위한 마음을 갖추도록 해야 하고, ‘겁쟁이 사자’에게 현실 세계에서 윤리적 결과를 달성하는 데 필요한 용기를 제공해야 한다. 

하지만 윤리는 구체적인 AI 성능 지표를 개발하기에 까다로운 속성이다. 심지어 오늘날 가장 포괄적인 기술 벤치마크 모음인 ML 퍼프(ML Perf)조차도 AI가 도덕적인 인간을 그럴듯하게 모방할 수 있는지 측정하는 데 부적절하다. 윤리에 초점을 맞춘 새로운 튜링 테스트에서 AI 개발 관행은 아래의 범주로 나눠진다. 

인지 컴퓨팅(Cognitive Computing): 알고리즘 시스템이 의식적, 비판적, 논리적, 합리적 사고방식을 처리한다. 전문 시스템, NLP 프로그램 등에서 이를 찾을 수 있다. 

감성 컴퓨팅(Affective Computing): 표정, 말, 행동 등을 통해 인간이 표출한 감정 신호를 추론하고 이에 대처한다. 응용 분야로는 소셜 미디어 모니터링, 감정 분석, 감정 애널리틱스, 경험 최적화, 로봇 공감 등이 있다. 

감각 컴퓨팅(Sensory Computing): 감각과 다른 환경적 맥락 정보를 사용해 알고리즘이 얼굴 인식, 음성 인식, 제스처 인식, 컴퓨터 비전, 원격 감지를 실행한다.  

자발적 컴퓨팅(volitional computing): AI 시스템이 인지, 감정 또는 감각적 느낌을 의지적이고 의도적이며 효과적인 행동으로 변환한다. 이는 인텔리전트 로보틱스, 추천 엔진, 로봇 프로세스 자동화(RPA), 자율주행차에서 ‘차선책(next best action)’ 시나리오를 생성한다. 

윤리적 AI 관행을 ML 데브옵스 파이프라인에 적용하기 
윤리는 AI나 애플리케이션에 직접 프로그래밍할 수 있는 것이 아니다. AI 이니셔티브에서 윤리를 적용한 최종 제품을 생산할 수 있도록 데브옵스 파이프라인을 바꾸려는 기업들을 지원하는 AI 솔루션 업체와 컨설팅 업체가 늘어나는 이유이기도 하다. 

새로운 튜링 테스트를 통과할 수 있는 AI를 구축하려면 다음의 윤리적 관행을 보장하도록 설계된 데브옵스 파이프라인에서 애플리케이션을 개발하고 학습시켜야 한다. 

이해관계자 검토: 주제 전문가와 이해관계자의 윤리 관련 피드백을 AI 애플리케이션의 반복적 개발을 둘러싼 협업, 테스트, 평가 프로세스에 통합한다. 

알고리즘 투명성: 관련된 윤리적 제약 또는 목표를 준수한다는 측면에서 모든 AI 데브옵스 작업, 중간 제품, 최종 앱은 쉬운 말로 설명할 수 있어야 한다. 

품질 보증: AI 데브옵스 프로세스 전반에 걸쳐 품질 관리 체크포인트를 생성한다. 추가 진단 및 검토를 통해 윤리적 목표를 훼손할 수 있는 숨겨진 취약점(예: 편향된 2차 기능 상관관계)이 잔류하지 않음을 확인한다. 

위험 완화: 특정 AI 알고리즘이나 모델(예: 얼굴 인식)을 사용하는 것에 따르는 하위 위험을 고려한다. 

액세스 제어: AI 애플리케이션에서 모든 규제 준수 제어 수단이 개인식별정보(PII) 액세스, 사용, 모델링에 통합된다. 

운영 감사: AI 데브옵스 프로세스는 윤리적으로 정렬된 애플리케이션을 구축, 학습, 배포, 관리하는 데 사용된 모든 데이터, 모델 변수, 개발 작업, 운영 프로세스의 가시성을 보장하기 위해 변경 불가능한 감사 로그를 생성한다. 

인간의 삶에서 윤리적 AI 봇을 신뢰하기 
윤리적 AI 봇의 궁극적 테스트는 인간이 이를 삶에서 받아들일 만큼 충분하게 신뢰할 수 있는지 여부다. 

자연어 텍스트는 ML 프로그램에 내장할 수 있는 윤리적 원칙을 찾기에 좋은 수단이지만 이들 데이터세트의 편향은 잘 알려져 있다. 대부분의 사람이 항상 윤리적으로 행동하지 않으며, 모든 맥락에서 항상 윤리적 감정을 표현하지 않는다고 가정하는 게 안전하다. 위선적이든 아니든 대다수의 인간이 이를 지지한다는 이유만으로 의심스러운 윤리 원칙을 AI 봇에 넣는 것은 바람직하지 않다. 

그렇긴 하지만 일부 AI 연구자들은 인간의 윤리적 의사결정과 관련된 행동 패턴을 추론하기 위해 NLP를 기반으로 ML 모델을 구축한다. 이 모델은 텍스트 데이터에서 윤리적 행동의 통계적 패턴을 식별할 수 있다는 믿음에 기초한다. 이론적으로는 텍스트에서 추출된 원칙은 영상, 음성, 기타 미디어 데이터세트에 관한 딥러닝을 통해 추론된 행동 원칙으로 보완할 수 있다. 

윤리적 AI 알고리즘을 위해 학습 데이터를 구축할 때는 신뢰할 수 있는 개인에 의해 제공되는 엄격한 라벨링 및 큐레이션이 필요하다. 신중함, 공감, 동정심, 관용 등의 윤리적 특성을 측정하기 어려울 수 있지만, 인간은 이를 접하는 순간 이해한다. 따라서 아마도 인간 행동의 특정 사례를 모범적인 것으로, 또는 그렇지 않은 것으로 규정할 수 있을 것이다. 

이러한 데이터세트로 학습한 AI 프로그램이 인간 평가자를 속여 이를 양심 있는 진짜 호모 사피엔스라고 생각하도록 하는 것은 가능할지도 모른다. 하지만 그런 경우라도 인간은 AI 봇이 모든 실제 상황에서 가장 윤리적인 행동을 하리라고 완전하게 신뢰할 수는 없을 것이다. 무엇보다도 예외적이거나 비정상적인 시나리오에 대응해 윤리적 AI 모델을 학습시키기에 유효한 실제 사례 데이터가 충분하지 않을 수도 있다.  

마찬가지로, 아무리 잘 학습시킨 윤리적 AI 알고리즘이라도 인간 평가자가 아래와 같은 우발적 시나리오를 고려하는 다차원적 튜링 테스트는 통과하지 못할 수 있다. 

• 각 영역에서 신뢰성을 가진 여러 윤리적 AI 알고리즘이 예측하지 못한 방식으로 상호작용하며 윤리적으로 애매한 결과를 생성한다면 어떻게 될 것인가? 

• 윤리적으로 검증된 AI 알고리즘이 서로 충돌한다면 어떻게 해야 하는가? 해당 상황을 해결하기 위해 이들은 동등하게 유효한 값 사이에서 어떻게 절충할 것인가?

• 각 영역에서 윤리적으로 검증됐지만 서로 충돌하는 AI 알고리즘이 해당 충돌을 해결할 능력이 없다면 어떻게 해야 하는가? 

• 윤리적으로 검증된 AI 알고리즘이 절충하도록 설계됐지만 2개 또는 그 이상의 알고리즘이 서로 충돌한다면 어떻게 되는가? 


이런 복잡한 시나리오에 대답하는 일이 도덕적인 인간(예: 종교 지도자, 법률학자, 엄마 등)에게는 식은 죽 먹기일 수 있다. 하지만 협소한 범위의 시나리오에서 구축되고 학습시킨 AI 봇은 실패할 가능성이 크다. 

결과적으로, 윤리적 의사결정은 언제나 인간을 중심에 둬야 한다. 적어도 인간의 삶에서 AI가 모든 것 혹은 어떠한 것도 할 수 있다고 믿는 영광스럽거나 공포스러운 날이 올 때까지는 그렇다. 따라서 당분간 AI 알고리즘은 특정한 의사결정 영역 내에서만, 그리고 암호화돼 있는 근본적인 가치(윤리)에 능숙한 인간에 의해 개발과 유지관리가 이뤄지는 경우에만 신뢰할 수 있을 것이다. 

물론 AI 커뮤니티는 향후 50~60년 동안 R&D를 안내할 새로운 이미테이션 게임 개발을 고려해야 한다. 이는 세상이 앨런 튜링의 사고 실험을 제대로 다루는 데 걸렸던 시간이다.
 
ciork@idg.co.kr


 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.