2020.04.28

칼럼 | 인공지능 편향성을 확인하는 것은 인간의 몫

인공지능(AI)의 근본적 문제는 ‘인공’이라는 부분과 ‘지능’ 부분이다. 우리는 로봇 지능이 인간의 편견에서 벗어났다고 생각하지만, 실제로는 AI가 오히려 인간의 단점을 반복하는 경우가 많다. 한 번에 하나의 데이터 세트로 말이다.
 
ⓒ Getty Images Bank

데이터 과학자인 한나 데이비스에 따르면, ‘데이터 세트는 세계관’이고 주관적인 의미로 가득 차 있다. 그렇다고 AI를 포기할 수는 없다. 대신 AI에 영향을 주는 데이터를 개선할 수 있는 몇 가지 방법을 살펴보자. 데이비스가 지적한 것은 다음과 같다.
 

AI는 항상 사람에 관한 것이었다

우리가 얼마나 ‘데이터 중심적’인지 가식적으로 보여주는 것이 바로 AI다. 데이터의 사용에 전적으로 의존한다고 해도 과언이 아니다. 예를 들어, 머신러닝 알고리즘의 놀라운 점은 패턴을 찾아 반응하기 위해 산더미 같은 방대한 데이터를 놀랍도록 빠르게 걸러낸다는 사실이다. 그러나 이러한 모델은 반드시 학습시켜야 하는데, 데이터 과학자가 고품질 데이터 세트에 관심을 두는 이유다. 그러나 데이비스에 따르면, 데이터 세트는 중립적이지 않다.

"(하나의) 데이터 세트는 하나의 세계관이다. 연구원이든 예술가든 기업이든 상관없이 데이터를 긁어모으고 수집하는 사람의 세계관을 반영한다. 이름을 붙이는 사람(labeler)의 세계관도 포괄한다. 수동으로 혹은 자신도 모르는 사이 반영되거나, 메커니컬 터크(Mechanical Turk) 같은 제3자 서비스를 통해 반영된다. 이 경우 데이터셋에는 해당 서비스 업체의 고유 분류법에 대한 세계관까지 망라하는데, 이들 기업의 활동 목표가 높은 삶의 질과 직접적으로 양립할 수 없는 경우가 종종 있다"

문제가 파악되는가? 머신러닝 모델은 이를 제공하는 데이터 세트의 수준만큼만 똑똑할 뿐이며, 이 데이터 세트는 이를 만드는 사람에 큰 영향을 받는다. 가디언에 따르면, 기계는 인간과 같은 실수를 단지 더 빠르게 저지른다. AI는 데이터에서 유형을 특정할 수 있는 능력을 기계에 불어넣어서 인간보다 더 빠르게 결정할 수 있도록 한다. 그런데 만약 이 결정이 더 나쁜 쪽이라면, 나쁜 결정을 더 빨리 내리는 것이 돼버린다.

문제를 더 복잡하게 만드는 것은, 인간의 오류와 편견이 머신러닝 모델에 의해 형성된다는 점이다. 만주나쓰 바트는 “사람들은 자료의 형태로 사실을 소비하는데, 데이터는 소비하기 쉽다는 이유로 변이, 변환, 변경된다. 결국, 우리는 매우 문맥화된 세계관의 테두리 안에서 사는 것 외에는 선택의 여지가 없다”라고 말했다. 즉, 우리는 데이터를 명확하게 보지 못하고 있으며, 우리의 편견이 우리가 만드는 모델을 머신러닝으로 만들고 그에 따라 우리가 소비하고 해석할 수 있는 데이터가 형성되는 악순환이라는 것이다.
 

데이터 문제는 사람의 문제다

그렇다면 이제는 희망을 버릴 때일까? 꼭 그런 것은 아니다. 데이비스가 계속해서 지적하는 것처럼, 우리가 할 수 있는 가장 중요한 작업은 데이터 세트가 만료되도록 설정하는 것이다.

"보통 머신러닝 데이터 세트는 객관적으로 취급된다. 머신러닝 알고리즘과 창조자 모두 기본적인 진실로 취급된다. 또한, 데이터 세트는 만들기 어렵고, 시간이 오래 걸리고, 비용이 많이 들기 때문에 데이터 세트를 한번 만들면 오랫동안 사용하는 경우가 많다. 그러나 어떤 사회가 발전해 나갈 때 과거의 가치에 지나치게 집착할 이유는 없다. 마찬가지로, 미래 사회를 현재 상황에 맞출 이유도 없다. 따라서 데이터 세트에는 만료 날짜가 있을 수 있으며, 있어야만 한다"

어느 특정 시점에서든, 사람과 장소, 또는 가장 우선적인 것이 우리의 데이터 세트에 담기는 경향이 있다. 데이비스는 2009년에 만들어진 이미지 세트의 예를 든다. 즉, ‘휴대전화’를 검색하면 플립 폰을 보여주는 것이다. 이런 경우에 데이터 세트가 만료되도록 설정하면, 휴대전화 모델이 사회와 보조를 맞추도록 강제할 수 있다.

매켄지는 연구를 또다른 선택지를 제안한다. 사람들을 AI에 '다시' 투입하는 것이다. 즉, 데이터의 전처리든 후처리든 인간이 머신러닝 모델을 교정하기 위해 개입하는 것이다. 모델에 관련된 수학은 흠잡을 데 없을 수도 있지만, 여기에 인간을 추가하면(그렇다, 편견을 추가하는 것이다) 모델의 결과를 고려하는 데 도움이 될 수 있고 편견이 억제되지 않은 채 작동하는 것을 막을 수 있다.

데이비스는 "우리가 AI의 편향성을 조심하지 않는 한 데이터를 수집하고 데이터에 라벨을 붙이는 작업을 통해 인간 사회에 '우연히' 해를 끼치기 쉽다”라고 경고했다. 반면 각별한 주의를 기울이면 AI의 많은 이점을 최대한 활용할 수 있을 뿐만 아니라, 기계가 인간으로부터 물려받을 수 있는 잠재적인 편견과 다른 단점을 최소화할 수 있다. editor@itworld.co.kr



2020.04.28

칼럼 | 인공지능 편향성을 확인하는 것은 인간의 몫

인공지능(AI)의 근본적 문제는 ‘인공’이라는 부분과 ‘지능’ 부분이다. 우리는 로봇 지능이 인간의 편견에서 벗어났다고 생각하지만, 실제로는 AI가 오히려 인간의 단점을 반복하는 경우가 많다. 한 번에 하나의 데이터 세트로 말이다.
 
ⓒ Getty Images Bank

데이터 과학자인 한나 데이비스에 따르면, ‘데이터 세트는 세계관’이고 주관적인 의미로 가득 차 있다. 그렇다고 AI를 포기할 수는 없다. 대신 AI에 영향을 주는 데이터를 개선할 수 있는 몇 가지 방법을 살펴보자. 데이비스가 지적한 것은 다음과 같다.
 

AI는 항상 사람에 관한 것이었다

우리가 얼마나 ‘데이터 중심적’인지 가식적으로 보여주는 것이 바로 AI다. 데이터의 사용에 전적으로 의존한다고 해도 과언이 아니다. 예를 들어, 머신러닝 알고리즘의 놀라운 점은 패턴을 찾아 반응하기 위해 산더미 같은 방대한 데이터를 놀랍도록 빠르게 걸러낸다는 사실이다. 그러나 이러한 모델은 반드시 학습시켜야 하는데, 데이터 과학자가 고품질 데이터 세트에 관심을 두는 이유다. 그러나 데이비스에 따르면, 데이터 세트는 중립적이지 않다.

"(하나의) 데이터 세트는 하나의 세계관이다. 연구원이든 예술가든 기업이든 상관없이 데이터를 긁어모으고 수집하는 사람의 세계관을 반영한다. 이름을 붙이는 사람(labeler)의 세계관도 포괄한다. 수동으로 혹은 자신도 모르는 사이 반영되거나, 메커니컬 터크(Mechanical Turk) 같은 제3자 서비스를 통해 반영된다. 이 경우 데이터셋에는 해당 서비스 업체의 고유 분류법에 대한 세계관까지 망라하는데, 이들 기업의 활동 목표가 높은 삶의 질과 직접적으로 양립할 수 없는 경우가 종종 있다"

문제가 파악되는가? 머신러닝 모델은 이를 제공하는 데이터 세트의 수준만큼만 똑똑할 뿐이며, 이 데이터 세트는 이를 만드는 사람에 큰 영향을 받는다. 가디언에 따르면, 기계는 인간과 같은 실수를 단지 더 빠르게 저지른다. AI는 데이터에서 유형을 특정할 수 있는 능력을 기계에 불어넣어서 인간보다 더 빠르게 결정할 수 있도록 한다. 그런데 만약 이 결정이 더 나쁜 쪽이라면, 나쁜 결정을 더 빨리 내리는 것이 돼버린다.

문제를 더 복잡하게 만드는 것은, 인간의 오류와 편견이 머신러닝 모델에 의해 형성된다는 점이다. 만주나쓰 바트는 “사람들은 자료의 형태로 사실을 소비하는데, 데이터는 소비하기 쉽다는 이유로 변이, 변환, 변경된다. 결국, 우리는 매우 문맥화된 세계관의 테두리 안에서 사는 것 외에는 선택의 여지가 없다”라고 말했다. 즉, 우리는 데이터를 명확하게 보지 못하고 있으며, 우리의 편견이 우리가 만드는 모델을 머신러닝으로 만들고 그에 따라 우리가 소비하고 해석할 수 있는 데이터가 형성되는 악순환이라는 것이다.
 

데이터 문제는 사람의 문제다

그렇다면 이제는 희망을 버릴 때일까? 꼭 그런 것은 아니다. 데이비스가 계속해서 지적하는 것처럼, 우리가 할 수 있는 가장 중요한 작업은 데이터 세트가 만료되도록 설정하는 것이다.

"보통 머신러닝 데이터 세트는 객관적으로 취급된다. 머신러닝 알고리즘과 창조자 모두 기본적인 진실로 취급된다. 또한, 데이터 세트는 만들기 어렵고, 시간이 오래 걸리고, 비용이 많이 들기 때문에 데이터 세트를 한번 만들면 오랫동안 사용하는 경우가 많다. 그러나 어떤 사회가 발전해 나갈 때 과거의 가치에 지나치게 집착할 이유는 없다. 마찬가지로, 미래 사회를 현재 상황에 맞출 이유도 없다. 따라서 데이터 세트에는 만료 날짜가 있을 수 있으며, 있어야만 한다"

어느 특정 시점에서든, 사람과 장소, 또는 가장 우선적인 것이 우리의 데이터 세트에 담기는 경향이 있다. 데이비스는 2009년에 만들어진 이미지 세트의 예를 든다. 즉, ‘휴대전화’를 검색하면 플립 폰을 보여주는 것이다. 이런 경우에 데이터 세트가 만료되도록 설정하면, 휴대전화 모델이 사회와 보조를 맞추도록 강제할 수 있다.

매켄지는 연구를 또다른 선택지를 제안한다. 사람들을 AI에 '다시' 투입하는 것이다. 즉, 데이터의 전처리든 후처리든 인간이 머신러닝 모델을 교정하기 위해 개입하는 것이다. 모델에 관련된 수학은 흠잡을 데 없을 수도 있지만, 여기에 인간을 추가하면(그렇다, 편견을 추가하는 것이다) 모델의 결과를 고려하는 데 도움이 될 수 있고 편견이 억제되지 않은 채 작동하는 것을 막을 수 있다.

데이비스는 "우리가 AI의 편향성을 조심하지 않는 한 데이터를 수집하고 데이터에 라벨을 붙이는 작업을 통해 인간 사회에 '우연히' 해를 끼치기 쉽다”라고 경고했다. 반면 각별한 주의를 기울이면 AI의 많은 이점을 최대한 활용할 수 있을 뿐만 아니라, 기계가 인간으로부터 물려받을 수 있는 잠재적인 편견과 다른 단점을 최소화할 수 있다. editor@itworld.co.kr

X