2017.11.16

'인공지능 개발의 가장 큰 위협은 편견' AI 전문가들 지적

Nadia Cameron | CMO
세계 최고 AI 전문가들에 따르면, 편견은 인간의 편견이든 데이터 기반 편견이든 인공지능(AI) 개발과 이용에 대한 가장 큰 윤리적 과제다.


왼쪽부터 피터 노르빅 박사, 리처드 소처 박사, 수치 사리아 박사, 포춘지 애덤 라쉰스키

지난주 드림포스(Dreamforce) 회의에 연사로 나선 세일즈포스 최고 과학자이자 스탠퍼드대학교 컴퓨터 과학과 겸임 교수인 리처드 소처 박사는 AI가 빠른 속도로 개발되면서 불가피하게 점점 더 많은 사람들의 삶에 영향을 미치게 됨에 따라 심각한 윤리적 문제가 대두될 것이라고 경고했다.

그는 참석자들에게 “이러한 알고리즘은 선거 결과에 악영향을 미치거나 잘못된 정보를 전파할 수도 있다”고 말했다. 이어서 “예를 들면, 정상적인 자연어 처리 분류 알고리즘을 통해 클릭 수를 최대화하고자 하는 경우, 터미네이터 이미지가 있는 것에 클릭 수가 많다면 기사에 그러한 사진을 더 많이 넣기도 한다”고 설명했다.

그러나 AI 알고리즘 훈련에 사용되는 기존 데이터 모음을 통해 편견이 들어오게 된다. 이것이 바로 각 업계가 직면한 가장 큰 윤리적 문제다.

소처 박사는 “우리의 알고리즘 전체의 품질은 우리가 제공하는 훈련된 데이터의 품질에 좌우된다”며 “훈련 데이터에 성별, 나이, 성적 취향 등에 대한 어떤 편견이 들어 있다면 이를 알고리즘이 알아챌 것이다”고 이야기했다.

“본인이 은행이고 신규 업체 창립자에게 대출 여부를 결정할 대출 신청 선별기를 구축하고자 한다고 가정해 보자. 과거의 대출 신청 승인 건수 중 불과 5%만이 여성 사업주에게 돌아갔다. 알고리즘은 이 사실을 알아채고는 여성 사업주가 되는 것은 안 좋은 일이며 승인을 해 주어서는 안 된다고 말할 것이다. 그래서는 안 되지만 데이터 수집의 과거가 그렇게 말해 준다.

“편견은 존재해 왔다. 인간에게는 편견이 있다. 인간이 만든 데이터 모음을 알고리즘이 갖게 됨에 따라 이를 증폭, 악화시킬 가능성이 있다.”

소처 박사는 버클리(Berkeley)와 같은 교육기관과 구글 등 기술 혁신 업체는 이미 알고리즘 측면에서 편견을 제거할 방법을 연구하기 시작했다고 밝혔다. “그러나 심사숙고해야 할 부분은 데이터 모음 측면”이라고 덧붙였다.

예를 들면 소처 박사 팀은 ‘감정 분류’ 알고리즘을 구축하고자 했다. 개인이 어떤 공간에 들어섰을 때 행복, 슬픔, 놀람, 불만 등 감정을 파악할 수 있는 알고리즘이다.

소처 박사는 “본인은 당장 이 알고리즘의 공개는 불가하다고 말했다. 먼저 보호 계층을 전부 살펴보고 노인들을 모두 불만스럽다고 분류하지 않도록 해야 하기 때문이다. 예컨대 행복한 노인들의 사진은 2가지 밖에 없다. 이런 것들의 실행 방식에 감정 이입을 해야 하며 우리가 제공하는 훈련 데이터에 대해 심사숙고해야 한다”고 말했다.

스탠퍼드대학교의 머신러닝 및 데이터집약 컴퓨팅 그룹과 컴퓨터 생의학 그룹의 조교수 수치 사리아 박사의 입장에서는 머신러닝의 빠른 산업화 때문에 AI 개발이 가속화되었을 뿐만 아니라 새로운 윤리적 문제도 대두되었다. 그녀는 이를 기술 혁신보다는 교육의 문제로 보고 있지만 역시 편견과 연관된 문제다.

그녀는 “3년 전까지만 해도 우리는 소규모 AI 전문가 집단에 불과했다. 장난감을 가지고 노는 어린아이나 마찬가지였다. 아무도 우리를 감시하거나 귀찮게 하지 않았다. 우리는 새로운 아이디어를 발굴해 냈으며 아무런 문제가 없었다. 일부는 성공하고 일부는 실패했다”고 회상했다.

사리아 박사는 “지금 새로운 상황에 처해 있다. 우리가 개발하고 오픈소스로 내놓은 도구들이 많은 사람들에게 공개되는 것이다. 사람들은 실험하기도 하고 자신만의 세상 경험을 결합하기도 한다. 어떨 때는 너무 앞서간 나머지 잘못된 길로 빠지기도 한다”고 말했다.

사리아는 일례로 이미지 인식을 이용해 특정인이 범죄를 저지를지 예측하려는 시도를 지적했다.

사리아는 “이러한 시도의 배경이 되는 과학은 전혀 말이 되지 않는다”며 “대규모 데이터베이스에 무엇인가를 훈련시킨 후 감시 통제를 위한 주석을 달 수는 있겠지만 이미 본 것을 흉내 내는 것에 불과하다”고 설명했다. “사람을 범죄자로 만드는 기제를 이해하기 위한 인과 추론은 전혀 하지 않는다. 단지 행위를 반복하고 있을 뿐이다”며 다음과 같이 말을 이었다.

“무료로 사용할 수 있는 도구들이 있고 이러한 도구를 사용할 수 있는 엔지니어링 경험도 있다. 새로운 영역에서 활용하기가 수월해지고 있다. 반면, 이러한 도구를 어떻게 활용하는 것이 온당한지에 대한 교육은 크게 뒤처지고 있다. 흥미로운 새로운 애플리케이션이 갑자기 쏟아져 나오고 있는데 옳지 않은 것들이 눈에 띌 때가 많다. 틀렸거나 편파적인 것들이다. 이들이 초래할 결과를 감시할 사람이 없다. 우리 그룹은 상호 토론을 통해 어떤 일을 하는 게 옳은지 알아내고 어떤 것이 말이 되지 않을 때는 그렇다고 지적받는 것에 익숙하다. AI의 산업화 때문에 상황이 달라졌다.”


구글 연구 책임자이자 저명한 컴퓨터 과학자 피터 노르빅 박사는 AI의 훈련 및 사용 방식에 대한 투명성 제고를 촉구했다.

그는 “기본 AI로 우리는 데이터를 수집한다. 따라서 우리는 선한 목자가 되어야 한다”고 전제하고 “이것 자체는 AI가 아니지만 같은 맥락”이라고 덧붙였다.

“또한, ‘탈출구’가 있는 더 큰 프로세스에 AI를 포함(embed)해야 한다. AI가 최종 링크가 되어서는 안 된다. 어느 시점에서는 0을 누르고 다시 인간 운영자로 되돌려야 한다. 이들 시스템은 반드시 선하고 새로운 것이라 할 수 없다. 이를 극복할 수 있는 방식으로 설계되어야 한다”고 노르빅 박사는 설명을 이었다.

노르빅 박사는 ‘AI 안전’에 관한 새로운 연구 분야를 모든 AI 응용프로그램에 철저히 포함해야 한다고 강조했다.

그는 “엔지니어링 안전이라는 별도의 분야가 없다. [AI 안전]을 모든 곳에 포함해야 한다. 그래야만 어떤 점이 잘못될 수 있는지 처음부터 알 수 있다”고 강조했다.

“소프트웨어에는 늘 버그가 있게 마련이고 버그를 제거할 수 있는 도구들이 있다. AI는 사회 공학에 존재하는 성공 사례도 모두 활용해야 한다. 그러나 이를 주도하는 학문 연구자들은 그러한 소프트웨어 역사를 함께 해 오지 않은 사람들이다. 또한 새로운 도구들도 개발해야 한다.”

소처 박사는 무엇을 하든지 간에 절대로 AI만 따로 떼어내어 생각해서는 안 된다고 주장했다. 이어서 “AI는 늘 특정 기술이나 사업에 적용되기 마련이기 때문”이라고 설명했다.

소처 박사는 “그 X가 무엇인지에 대해 생각해 본다면 대부분의 경우 목표에 도달하려면 훈련 데이터에서 시작해야 한다. 모든 업무 절차에서 나오는 데이터를 어떻게 수집할 것인지 생각해 보아야 한다. 그래야만 AI를 도입할 때 경쟁우위를 점할 수 있다. 데이터 과학자를 비롯한 다른 업체들과 협업하는 경우 그들은 해당 데이터에 접근할 방법이 필요하고 해당 업체가 그 데이터를 꺼내 줄 방법이 필요하다”고 이야기했다. ciokr@idg.co.kr
   
2017.11.16

'인공지능 개발의 가장 큰 위협은 편견' AI 전문가들 지적

Nadia Cameron | CMO
세계 최고 AI 전문가들에 따르면, 편견은 인간의 편견이든 데이터 기반 편견이든 인공지능(AI) 개발과 이용에 대한 가장 큰 윤리적 과제다.


왼쪽부터 피터 노르빅 박사, 리처드 소처 박사, 수치 사리아 박사, 포춘지 애덤 라쉰스키

지난주 드림포스(Dreamforce) 회의에 연사로 나선 세일즈포스 최고 과학자이자 스탠퍼드대학교 컴퓨터 과학과 겸임 교수인 리처드 소처 박사는 AI가 빠른 속도로 개발되면서 불가피하게 점점 더 많은 사람들의 삶에 영향을 미치게 됨에 따라 심각한 윤리적 문제가 대두될 것이라고 경고했다.

그는 참석자들에게 “이러한 알고리즘은 선거 결과에 악영향을 미치거나 잘못된 정보를 전파할 수도 있다”고 말했다. 이어서 “예를 들면, 정상적인 자연어 처리 분류 알고리즘을 통해 클릭 수를 최대화하고자 하는 경우, 터미네이터 이미지가 있는 것에 클릭 수가 많다면 기사에 그러한 사진을 더 많이 넣기도 한다”고 설명했다.

그러나 AI 알고리즘 훈련에 사용되는 기존 데이터 모음을 통해 편견이 들어오게 된다. 이것이 바로 각 업계가 직면한 가장 큰 윤리적 문제다.

소처 박사는 “우리의 알고리즘 전체의 품질은 우리가 제공하는 훈련된 데이터의 품질에 좌우된다”며 “훈련 데이터에 성별, 나이, 성적 취향 등에 대한 어떤 편견이 들어 있다면 이를 알고리즘이 알아챌 것이다”고 이야기했다.

“본인이 은행이고 신규 업체 창립자에게 대출 여부를 결정할 대출 신청 선별기를 구축하고자 한다고 가정해 보자. 과거의 대출 신청 승인 건수 중 불과 5%만이 여성 사업주에게 돌아갔다. 알고리즘은 이 사실을 알아채고는 여성 사업주가 되는 것은 안 좋은 일이며 승인을 해 주어서는 안 된다고 말할 것이다. 그래서는 안 되지만 데이터 수집의 과거가 그렇게 말해 준다.

“편견은 존재해 왔다. 인간에게는 편견이 있다. 인간이 만든 데이터 모음을 알고리즘이 갖게 됨에 따라 이를 증폭, 악화시킬 가능성이 있다.”

소처 박사는 버클리(Berkeley)와 같은 교육기관과 구글 등 기술 혁신 업체는 이미 알고리즘 측면에서 편견을 제거할 방법을 연구하기 시작했다고 밝혔다. “그러나 심사숙고해야 할 부분은 데이터 모음 측면”이라고 덧붙였다.

예를 들면 소처 박사 팀은 ‘감정 분류’ 알고리즘을 구축하고자 했다. 개인이 어떤 공간에 들어섰을 때 행복, 슬픔, 놀람, 불만 등 감정을 파악할 수 있는 알고리즘이다.

소처 박사는 “본인은 당장 이 알고리즘의 공개는 불가하다고 말했다. 먼저 보호 계층을 전부 살펴보고 노인들을 모두 불만스럽다고 분류하지 않도록 해야 하기 때문이다. 예컨대 행복한 노인들의 사진은 2가지 밖에 없다. 이런 것들의 실행 방식에 감정 이입을 해야 하며 우리가 제공하는 훈련 데이터에 대해 심사숙고해야 한다”고 말했다.

스탠퍼드대학교의 머신러닝 및 데이터집약 컴퓨팅 그룹과 컴퓨터 생의학 그룹의 조교수 수치 사리아 박사의 입장에서는 머신러닝의 빠른 산업화 때문에 AI 개발이 가속화되었을 뿐만 아니라 새로운 윤리적 문제도 대두되었다. 그녀는 이를 기술 혁신보다는 교육의 문제로 보고 있지만 역시 편견과 연관된 문제다.

그녀는 “3년 전까지만 해도 우리는 소규모 AI 전문가 집단에 불과했다. 장난감을 가지고 노는 어린아이나 마찬가지였다. 아무도 우리를 감시하거나 귀찮게 하지 않았다. 우리는 새로운 아이디어를 발굴해 냈으며 아무런 문제가 없었다. 일부는 성공하고 일부는 실패했다”고 회상했다.

사리아 박사는 “지금 새로운 상황에 처해 있다. 우리가 개발하고 오픈소스로 내놓은 도구들이 많은 사람들에게 공개되는 것이다. 사람들은 실험하기도 하고 자신만의 세상 경험을 결합하기도 한다. 어떨 때는 너무 앞서간 나머지 잘못된 길로 빠지기도 한다”고 말했다.

사리아는 일례로 이미지 인식을 이용해 특정인이 범죄를 저지를지 예측하려는 시도를 지적했다.

사리아는 “이러한 시도의 배경이 되는 과학은 전혀 말이 되지 않는다”며 “대규모 데이터베이스에 무엇인가를 훈련시킨 후 감시 통제를 위한 주석을 달 수는 있겠지만 이미 본 것을 흉내 내는 것에 불과하다”고 설명했다. “사람을 범죄자로 만드는 기제를 이해하기 위한 인과 추론은 전혀 하지 않는다. 단지 행위를 반복하고 있을 뿐이다”며 다음과 같이 말을 이었다.

“무료로 사용할 수 있는 도구들이 있고 이러한 도구를 사용할 수 있는 엔지니어링 경험도 있다. 새로운 영역에서 활용하기가 수월해지고 있다. 반면, 이러한 도구를 어떻게 활용하는 것이 온당한지에 대한 교육은 크게 뒤처지고 있다. 흥미로운 새로운 애플리케이션이 갑자기 쏟아져 나오고 있는데 옳지 않은 것들이 눈에 띌 때가 많다. 틀렸거나 편파적인 것들이다. 이들이 초래할 결과를 감시할 사람이 없다. 우리 그룹은 상호 토론을 통해 어떤 일을 하는 게 옳은지 알아내고 어떤 것이 말이 되지 않을 때는 그렇다고 지적받는 것에 익숙하다. AI의 산업화 때문에 상황이 달라졌다.”


구글 연구 책임자이자 저명한 컴퓨터 과학자 피터 노르빅 박사는 AI의 훈련 및 사용 방식에 대한 투명성 제고를 촉구했다.

그는 “기본 AI로 우리는 데이터를 수집한다. 따라서 우리는 선한 목자가 되어야 한다”고 전제하고 “이것 자체는 AI가 아니지만 같은 맥락”이라고 덧붙였다.

“또한, ‘탈출구’가 있는 더 큰 프로세스에 AI를 포함(embed)해야 한다. AI가 최종 링크가 되어서는 안 된다. 어느 시점에서는 0을 누르고 다시 인간 운영자로 되돌려야 한다. 이들 시스템은 반드시 선하고 새로운 것이라 할 수 없다. 이를 극복할 수 있는 방식으로 설계되어야 한다”고 노르빅 박사는 설명을 이었다.

노르빅 박사는 ‘AI 안전’에 관한 새로운 연구 분야를 모든 AI 응용프로그램에 철저히 포함해야 한다고 강조했다.

그는 “엔지니어링 안전이라는 별도의 분야가 없다. [AI 안전]을 모든 곳에 포함해야 한다. 그래야만 어떤 점이 잘못될 수 있는지 처음부터 알 수 있다”고 강조했다.

“소프트웨어에는 늘 버그가 있게 마련이고 버그를 제거할 수 있는 도구들이 있다. AI는 사회 공학에 존재하는 성공 사례도 모두 활용해야 한다. 그러나 이를 주도하는 학문 연구자들은 그러한 소프트웨어 역사를 함께 해 오지 않은 사람들이다. 또한 새로운 도구들도 개발해야 한다.”

소처 박사는 무엇을 하든지 간에 절대로 AI만 따로 떼어내어 생각해서는 안 된다고 주장했다. 이어서 “AI는 늘 특정 기술이나 사업에 적용되기 마련이기 때문”이라고 설명했다.

소처 박사는 “그 X가 무엇인지에 대해 생각해 본다면 대부분의 경우 목표에 도달하려면 훈련 데이터에서 시작해야 한다. 모든 업무 절차에서 나오는 데이터를 어떻게 수집할 것인지 생각해 보아야 한다. 그래야만 AI를 도입할 때 경쟁우위를 점할 수 있다. 데이터 과학자를 비롯한 다른 업체들과 협업하는 경우 그들은 해당 데이터에 접근할 방법이 필요하고 해당 업체가 그 데이터를 꺼내 줄 방법이 필요하다”고 이야기했다. ciokr@idg.co.kr
   
X