2019.04.02

"혐오·차별 게시글 탐지 머신러닝 정교화하려면..." 구글의 이색 시도

Brian Cheon | CIO KR
온라인 게시글에서 '악성' 단어를 탐지하기 위해 머신러닝 모델을 훈련시킨다면, 암울한 결론에 도달하기 십상이다. 

구글은 악성 게시글을 탐지하기 위해 머신러닝을 이용하는 API 작업을 수행하던 중 '게이', '레즈비언', '트랜스젠더'와 같은 단어를 악의적으로 사용하는 문장을  규명하는 모델을 개발하고자 했다. 

지난주 시드니 대학에서 열린 데이터 과학 윤리 컨퍼런스에서 구글의 AI 시니어 소프트웨어 엔지니어 벤 허친슨은 "애석하게도 '나는 자랑스러운 게이다'라는 문장을 입력했을 때 해당 모델은 이를 악성 게시글로 분류했다"라고 말했다. 

그에 따르면 이유가 있다. 이 모델이 훈련된 장소인 인터넷에서는 '게이'라는 단어를 대개 혐어와 차별의 의미로 사용된다. 따라서 해당 모델은 '게이'라는 단어가 유독한 의미를 지닌다고 판단했던 것이다. 

허친슨은 온라인 조정 도구가 오히려 해악을 끼칠 수 있다고 지적했다. 그는 "웹사이트에 이러한 모델을 배치한다면 '나는 HIV와 공존하는 자랑스러운 게이 남성이다'와 같은 온라인 코멘트가 차단될 것이며, 이는 소수자 커뮤니티의 목소리를 가리게 될 것"이라고 말했다. 

그에 따르면 이는 모델의 잘못이 아니다. 골렘이나 정령(genies, jinns)와 같은 단어와 유사하다. 인간이 아닌 존재를 뜻하는 이들 단어는 자체적으로 딱히 선하거나 악함의 의미를 담고 있지만 않지만 그런 뉘앙스로 이용되곤 한다. 

허친슨은 "중요한 질문은 모델이 데이터로부터 올바르게 학습하고 있느냐가 아닐 수 있다. 우리의 시스템이 사람들에게 어떤 영향을 주기를 원하느냐는 질문이 오히려 중요할 수 있다"라고 말했다. 

구글은 훈련 데이터의 다양성을 보완하기 위해 작년 3월 소외 계층이 자신과 주변인들을 묘사하는 진술을 수집했다. 

시드니 게이 앤 레즈비언 마디그라스, 오클랜드 프라이드, 샌프란시스코 프라이드 이벤트와 같은 소수자 행사에서 구글은 참석자들에게 스스로에게 부여하는 신원 라벨을 작성하도록 요청했다. 또 자신에 대해, 그리고 자신이 사랑하는 이들에 대해 묘사하는 문장을 생성하도록 권고했다. 구글은 또 온라인에서도 이러한 라벨과 문장을 수집했다. 

허친슨은 "외부로 나가 필요한 데이터를 얻는 것이 몹시 중요하다. 우리는 모델이 해로운 편견을 가졌는지 테스트할 수 있는 표적화된 데이터 세트를 얻고자 했다"라고 말했다. 

그와 그의 팀은 이제 '콘셉트 액티베이션 벡터'(Concept Activation Vectors)라는 방법을 사용해 신경망 중 어느 지점에서 신원 라벨을 악성이라고 평가하는지에 대해 좀더 잘 이해할 수 있다고 허친슨은 설명했다. 

구글은 이렇게 수집했고 수집하고 있는 라벨과 문장을 '프로젝트 리스펙트'(Project Respect)의 일환으로 올해 연말께 오픈소스 데이터세트로 공개할 예정이다. 이를 이용해 개발자들은 자신의 머신러닝 모델을 편견없이 훈련시킬 수 있을 것이라는 설명이다. 

허친슨은 "트레이닝 데이터의 다양성을 확장함으로써 유독한 문장과 유독하지 않은 문장을 더 잘 구분할 수 있게 될 것"이라고 말했다. ciokr@idg.co.kr



2019.04.02

"혐오·차별 게시글 탐지 머신러닝 정교화하려면..." 구글의 이색 시도

Brian Cheon | CIO KR
온라인 게시글에서 '악성' 단어를 탐지하기 위해 머신러닝 모델을 훈련시킨다면, 암울한 결론에 도달하기 십상이다. 

구글은 악성 게시글을 탐지하기 위해 머신러닝을 이용하는 API 작업을 수행하던 중 '게이', '레즈비언', '트랜스젠더'와 같은 단어를 악의적으로 사용하는 문장을  규명하는 모델을 개발하고자 했다. 

지난주 시드니 대학에서 열린 데이터 과학 윤리 컨퍼런스에서 구글의 AI 시니어 소프트웨어 엔지니어 벤 허친슨은 "애석하게도 '나는 자랑스러운 게이다'라는 문장을 입력했을 때 해당 모델은 이를 악성 게시글로 분류했다"라고 말했다. 

그에 따르면 이유가 있다. 이 모델이 훈련된 장소인 인터넷에서는 '게이'라는 단어를 대개 혐어와 차별의 의미로 사용된다. 따라서 해당 모델은 '게이'라는 단어가 유독한 의미를 지닌다고 판단했던 것이다. 

허친슨은 온라인 조정 도구가 오히려 해악을 끼칠 수 있다고 지적했다. 그는 "웹사이트에 이러한 모델을 배치한다면 '나는 HIV와 공존하는 자랑스러운 게이 남성이다'와 같은 온라인 코멘트가 차단될 것이며, 이는 소수자 커뮤니티의 목소리를 가리게 될 것"이라고 말했다. 

그에 따르면 이는 모델의 잘못이 아니다. 골렘이나 정령(genies, jinns)와 같은 단어와 유사하다. 인간이 아닌 존재를 뜻하는 이들 단어는 자체적으로 딱히 선하거나 악함의 의미를 담고 있지만 않지만 그런 뉘앙스로 이용되곤 한다. 

허친슨은 "중요한 질문은 모델이 데이터로부터 올바르게 학습하고 있느냐가 아닐 수 있다. 우리의 시스템이 사람들에게 어떤 영향을 주기를 원하느냐는 질문이 오히려 중요할 수 있다"라고 말했다. 

구글은 훈련 데이터의 다양성을 보완하기 위해 작년 3월 소외 계층이 자신과 주변인들을 묘사하는 진술을 수집했다. 

시드니 게이 앤 레즈비언 마디그라스, 오클랜드 프라이드, 샌프란시스코 프라이드 이벤트와 같은 소수자 행사에서 구글은 참석자들에게 스스로에게 부여하는 신원 라벨을 작성하도록 요청했다. 또 자신에 대해, 그리고 자신이 사랑하는 이들에 대해 묘사하는 문장을 생성하도록 권고했다. 구글은 또 온라인에서도 이러한 라벨과 문장을 수집했다. 

허친슨은 "외부로 나가 필요한 데이터를 얻는 것이 몹시 중요하다. 우리는 모델이 해로운 편견을 가졌는지 테스트할 수 있는 표적화된 데이터 세트를 얻고자 했다"라고 말했다. 

그와 그의 팀은 이제 '콘셉트 액티베이션 벡터'(Concept Activation Vectors)라는 방법을 사용해 신경망 중 어느 지점에서 신원 라벨을 악성이라고 평가하는지에 대해 좀더 잘 이해할 수 있다고 허친슨은 설명했다. 

구글은 이렇게 수집했고 수집하고 있는 라벨과 문장을 '프로젝트 리스펙트'(Project Respect)의 일환으로 올해 연말께 오픈소스 데이터세트로 공개할 예정이다. 이를 이용해 개발자들은 자신의 머신러닝 모델을 편견없이 훈련시킬 수 있을 것이라는 설명이다. 

허친슨은 "트레이닝 데이터의 다양성을 확장함으로써 유독한 문장과 유독하지 않은 문장을 더 잘 구분할 수 있게 될 것"이라고 말했다. ciokr@idg.co.kr

X