2018.11.20

IBM의 인공지능 툴킷, AI 편향을 완화해 줄까

Laurie Clarke | Techworld
AI의 발전이 가속됨에 따라 우리의 일상적 삶의 더 많은 부분이 눈에 보이지 않는 알고리즘의 영향을 받고 있다. 그러나 중요한 결정을 소프트웨어에 맡기면 맡길수록 이들이 작용하는 방식과 이들이 내린 결론의 이유를 조사할 필요성은 더욱 커진다.



우려는 서서히 부상 중이다. 케이시 오닐은 <수학 살상 무기(Weapons of Math Destruction)>라는 저서에서 알고리즘이 대출 여부, 채용 여부, 대학 입학, 보석 결정 등의 중대한 결정에 어떻게 영향을 줄 수 있는지를 중점적으로 다루었다. 알고리즘의 가장 큰 위험이라면 의도적 및 비의도적 편향을 수용하고 영속화하는 것이다.

레이첼 벨래미는 주로 인지 편향과 인지 편향이 AI에 코드화되는 방법을 조사하는 IBM 리서치 휴먼-에이전트 컬레보레이션 그룹을 지휘한다. 현재 벨래미는 알고리즘이 어떻게 특정 집단에 차별 효과를 줄 수 있는지, 개발자는 어떻게 이러한 잠재적 문제를 우회할 수 있는지에 관해 광범위한 연구를 벌이고 있다.

벨레미는 AI가 인간보다 더 논리적이고 정확하다는 것을 전제로 왜 AI가 인간의 변덕스러운 추론의 대안으로서 반갑게 등장했는지를 설명하면서 “문제는 인간이 결정을 내리는 데 매우 서툴다는 것이다”고 말했다. 이어서 “그러나 AI는 데이터를 기반으로 하고, 데이터에는 편향이 있기 때문에 AI 역시 편향에서 벗어나지 못한 것이 분명하다”고 덧붙였다.

중요한 연구들에서는 알고리즘의 무분별한 이용의 확연한 문제를 발견했다. 예를 들어 2016년의 프로퍼블리카 조사에서는 미국의 형사 법원에서 사용한 알고리즘이 흑인에게 편향적이었음이 드러났다. 흑인이 백인보다 재범 확률이 높다고 틀리게 예측할 가능성이 더 높다는 것이다.

보다 최근에는 아마존의 채용 프로세스에 사용된 알고리즘에서 여성을 차별하며, ‘여성 체스 클럽’이라든지 ‘여자 대학’과 같은 말을 한 응시자를 감점한 것으로 밝혀지면서 분노를 자아냈다. 아울러 익일 배송을 제공해야 할 지역에 대해 조언하는 또 다른 알고리즘이 가난한 동네를 부자 동네보다 높은 확률로 차별한 것으로 밝혀졌다. 이러한 동네는 흑인 또는 여타 소수 민족의 거주지일 확률이 높았다. 사람들은 이를 ‘인종차별주의’라고 비난했다.

이러한 문제를 완화하는 것을 돕기 위해, IBM은 머신러닝 툴이 이러한 편향에 걸려드는 것을 우려하는 개발자를 위한 오픈소스 툴킷을 개발하였다.


IBM의 개발자용 AI 툴킷은 무엇인가?
AI 페어니스 360은 데이터 세트 및 모델의 편향성을 시험할 지표들, 이러한 지표들에 대한 설명, 데이터 세트 및 모델의 편향을 완화하는 알고리즘, 그리고 강좌 및 여타 연구 자료를 제공한다.

벨래미는 툴의 일부만 IBM이 개발했고 대부분을 이 분야의 개발자 커뮤니티의 개발자들이 개발했다고 말했다. 그는 “이 툴킷은 방대하고 개방적이다. 연구 커뮤니티가 머신러닝 모델의 편향을 검사하고 완화하는 실무적 방법을 도출하는 데 도움을 주는 것을 목표로 한다”고 말했다.

벨래미가 이끄는 그룹은 머신러닝 알고리즘에 의해 특정 예측이 왜 나왔는지를 개발자에게 설명하는 데 도움을 주려는 의도로 다수의 이용자 연구를 수행하였다.

벨래미는 “특정 예측과 다른 예측 사이의 일반적 관계, 그리고 좀더 보편적으로 모델의 작용을 사람들이 이해하는 데 도움을 준다”고 말했다.

이 연구는 특정 결과를 도출하는 데 어떤 요인이 가장 중요한가를 조사하는 것을 포함한다. 예컨대 보석 결정 알고리즘의 경우, 인종 등의 특정 요소는 불균형하게 가중치가 적용되고 있었다.

알고리즘이 선택하는 지표는 모델이 무엇을 확정하려고 시도하고 있느냐에 따라 달라질 것이다.

벨래미는 “예를 들어, 대출의 경우 사람들은 아마도 평균 확률 차이 지표를 선택할 것이다. 왜냐하면 이 지표는 허위 부정을 원하는 만큼 많이 선택할 수 있기 때문이다. 허위 부정은 실적을 악화시킨다”고 지적했다.

이 경우 허위 부정이란 누군가가 대출을 갚지 않을 것으로 예측되었지만, 사실 이를 갚았을 경우를 의미한다. 따라서 수익의 상실로 이어진다.

개발자는 모델이 편향될 수 있는지, 그리고 어떤 식으로 편향될 수 있는지를 확인한 후에야 편향의 완화를 시도할 수 있을 것이다.

벨래미는 “편향을 완화하는 몇 가지 선택지가 있다. 이는 여러 요소에 따라 달라진다. 편향의 원인이 데이터라면 ‘가중치 재설정’ 등을 선택할 수 있을 것이다”고 말했다.

벨래미는 현재 이들은 산업 표준이라기보다는 그냥 지침에 불과하다고 언급했다. 그러나 이러한 연구는 알고리즘을 개발하고 전개할 때 좀더 의식적인 접근을 촉진하며 알고리즘 개발에서 절실히 요구된다. ciokr@idg.co.kr



2018.11.20

IBM의 인공지능 툴킷, AI 편향을 완화해 줄까

Laurie Clarke | Techworld
AI의 발전이 가속됨에 따라 우리의 일상적 삶의 더 많은 부분이 눈에 보이지 않는 알고리즘의 영향을 받고 있다. 그러나 중요한 결정을 소프트웨어에 맡기면 맡길수록 이들이 작용하는 방식과 이들이 내린 결론의 이유를 조사할 필요성은 더욱 커진다.



우려는 서서히 부상 중이다. 케이시 오닐은 <수학 살상 무기(Weapons of Math Destruction)>라는 저서에서 알고리즘이 대출 여부, 채용 여부, 대학 입학, 보석 결정 등의 중대한 결정에 어떻게 영향을 줄 수 있는지를 중점적으로 다루었다. 알고리즘의 가장 큰 위험이라면 의도적 및 비의도적 편향을 수용하고 영속화하는 것이다.

레이첼 벨래미는 주로 인지 편향과 인지 편향이 AI에 코드화되는 방법을 조사하는 IBM 리서치 휴먼-에이전트 컬레보레이션 그룹을 지휘한다. 현재 벨래미는 알고리즘이 어떻게 특정 집단에 차별 효과를 줄 수 있는지, 개발자는 어떻게 이러한 잠재적 문제를 우회할 수 있는지에 관해 광범위한 연구를 벌이고 있다.

벨레미는 AI가 인간보다 더 논리적이고 정확하다는 것을 전제로 왜 AI가 인간의 변덕스러운 추론의 대안으로서 반갑게 등장했는지를 설명하면서 “문제는 인간이 결정을 내리는 데 매우 서툴다는 것이다”고 말했다. 이어서 “그러나 AI는 데이터를 기반으로 하고, 데이터에는 편향이 있기 때문에 AI 역시 편향에서 벗어나지 못한 것이 분명하다”고 덧붙였다.

중요한 연구들에서는 알고리즘의 무분별한 이용의 확연한 문제를 발견했다. 예를 들어 2016년의 프로퍼블리카 조사에서는 미국의 형사 법원에서 사용한 알고리즘이 흑인에게 편향적이었음이 드러났다. 흑인이 백인보다 재범 확률이 높다고 틀리게 예측할 가능성이 더 높다는 것이다.

보다 최근에는 아마존의 채용 프로세스에 사용된 알고리즘에서 여성을 차별하며, ‘여성 체스 클럽’이라든지 ‘여자 대학’과 같은 말을 한 응시자를 감점한 것으로 밝혀지면서 분노를 자아냈다. 아울러 익일 배송을 제공해야 할 지역에 대해 조언하는 또 다른 알고리즘이 가난한 동네를 부자 동네보다 높은 확률로 차별한 것으로 밝혀졌다. 이러한 동네는 흑인 또는 여타 소수 민족의 거주지일 확률이 높았다. 사람들은 이를 ‘인종차별주의’라고 비난했다.

이러한 문제를 완화하는 것을 돕기 위해, IBM은 머신러닝 툴이 이러한 편향에 걸려드는 것을 우려하는 개발자를 위한 오픈소스 툴킷을 개발하였다.


IBM의 개발자용 AI 툴킷은 무엇인가?
AI 페어니스 360은 데이터 세트 및 모델의 편향성을 시험할 지표들, 이러한 지표들에 대한 설명, 데이터 세트 및 모델의 편향을 완화하는 알고리즘, 그리고 강좌 및 여타 연구 자료를 제공한다.

벨래미는 툴의 일부만 IBM이 개발했고 대부분을 이 분야의 개발자 커뮤니티의 개발자들이 개발했다고 말했다. 그는 “이 툴킷은 방대하고 개방적이다. 연구 커뮤니티가 머신러닝 모델의 편향을 검사하고 완화하는 실무적 방법을 도출하는 데 도움을 주는 것을 목표로 한다”고 말했다.

벨래미가 이끄는 그룹은 머신러닝 알고리즘에 의해 특정 예측이 왜 나왔는지를 개발자에게 설명하는 데 도움을 주려는 의도로 다수의 이용자 연구를 수행하였다.

벨래미는 “특정 예측과 다른 예측 사이의 일반적 관계, 그리고 좀더 보편적으로 모델의 작용을 사람들이 이해하는 데 도움을 준다”고 말했다.

이 연구는 특정 결과를 도출하는 데 어떤 요인이 가장 중요한가를 조사하는 것을 포함한다. 예컨대 보석 결정 알고리즘의 경우, 인종 등의 특정 요소는 불균형하게 가중치가 적용되고 있었다.

알고리즘이 선택하는 지표는 모델이 무엇을 확정하려고 시도하고 있느냐에 따라 달라질 것이다.

벨래미는 “예를 들어, 대출의 경우 사람들은 아마도 평균 확률 차이 지표를 선택할 것이다. 왜냐하면 이 지표는 허위 부정을 원하는 만큼 많이 선택할 수 있기 때문이다. 허위 부정은 실적을 악화시킨다”고 지적했다.

이 경우 허위 부정이란 누군가가 대출을 갚지 않을 것으로 예측되었지만, 사실 이를 갚았을 경우를 의미한다. 따라서 수익의 상실로 이어진다.

개발자는 모델이 편향될 수 있는지, 그리고 어떤 식으로 편향될 수 있는지를 확인한 후에야 편향의 완화를 시도할 수 있을 것이다.

벨래미는 “편향을 완화하는 몇 가지 선택지가 있다. 이는 여러 요소에 따라 달라진다. 편향의 원인이 데이터라면 ‘가중치 재설정’ 등을 선택할 수 있을 것이다”고 말했다.

벨래미는 현재 이들은 산업 표준이라기보다는 그냥 지침에 불과하다고 언급했다. 그러나 이러한 연구는 알고리즘을 개발하고 전개할 때 좀더 의식적인 접근을 촉진하며 알고리즘 개발에서 절실히 요구된다. ciokr@idg.co.kr

X