2018.02.19

인종차별하고 막말하는 AI, 원인은 '불량 데이터'에

Maria Korolov | CIO
인공지능과 머신러닝은 수많은 산업에 큰 변화를 가져올 수 있다. 그러나 심각한 위험들을 초래할 수도 있다. 이제 막 도입되기 시작한 기술이기 때문에 아직은 알려지지 않은 위험들이 많다. 인공지능에서 불량 데이터는 큰 문제며, 기업이 AI를 더 많이 채택함에 따라 이 문제는 더 커질 것이다.



이미 AI가 ‘타락’했을 때 무슨 일어나는지 보여주는 사례가 있다. 예를 들어, 마이크로소프트 테이(Tay)는 트위터 트롤들이 ‘타락’시키는 바람에 단 며칠 만에 ‘순진한’ 챗봇에서 무개념 인종 차별주의 AI로 전락했다. 구글은 2년 전 이미지 검색에서 고릴라와 침팬지라는 키워드를 검열해야 했다. 아프리카계 미국인의 사진을 검색 결과로 제시했기 때문이다. 구글 사진 앱에서 아직도 이 문제가 완전히 수정되지 않은 상태다.

기업들이 AI를 점차 더 많이 수용하면서, 이런 문제가 계속 커질 전망이다.

의료 데이터에 AI를 적용하는 사업을 추진하고 있는 시애틀 소재 신생벤처인 켄사이(KenSci)의 앤커 테레데사이 대표는 “밤에 잠을 설친다. 진짜 환자, 진짜 생명과 직결된 문제기 때문이다”고 말했다.

켄사이의 AI 플랫폼은 의사와 보험회사에 의료와 관련된 추천, 권장사항을 제시한다. 의료 기록, 예측 모델 생성에 사용하는 트레이닝 세트에 오류가 있다면 중대한 문제가 초래될 수 있다. 이는 AI에서 아주 중요하고 중대한 위험 요소 한 가지를 알려주는 사례다. 다름 아닌 데이터와 처리에 있어 품질이다.

AI가 잘못되는 것을 막는 방호책
켄사이는 전세계 파트너 기업, 기관의 환자 의료 기록 수백만 개를 처리한다. 언어와 기준, 형식, 분류 체계가 각각 다른 정보들이다.

켄사이는 이와 관련된 도전과제를 극복하기 위해 자체 개발한 도구, 다른 회사의 도구를 사용하고, 파트너 의료기관의 도움을 받는다.

그는 “의료 및 건강 분야는 올바른 프로토콜, 규제 준수, 그리고 데이터 자산을 가능한 ‘클린’하게 만드는 데 큰 노력을 기울였다. 5~10년 전 아주 큰 문제였기 때문이다. 지금은 서구와 아시아, 호주에서 디지털화가 성숙기에 접어들면서, 이질적인 코딩 문제가 크게 줄었다. 많은 것들이 표준화됐기 때문이다”고 말했다.

켄사이는 AI에 의존하는 위험을 경감하기 위해 3중으로 안전 ‘방어선’을 구축했다. 첫째, 오류를 방지하는 ‘방어선’이다. 의사가 직접 환자를 치료하는 것을 의미한다.

테레데사이는 “우리는 인공지능을 믿지 않는다. 인공지능이 아닌 ‘보조’ 지능을 믿는다. 의사결정은 훈련된 전문가, 즉 의사 같은 전문가의 몫이다”고 강조했다.

다시 말해, 켄사이 플랫폼은 추천만 할 뿐이다. 더 나아가, 치료에 대한 추천은 아예 하지 않는 때가 대부분이다. 테레데사이는 “비용 예측, 워크플로 분석, 워크플로 최적화에 초점이 맞춰져 있다. 우리가 임상 관련 의사결정에서 몇 걸음 물러나 있는 경우가 대부분이다”고 설명했다.

두 번째 ‘방어선'은 회사 소속 의료 전문가들이 제공한다. 이들은 획득한 데이터, 활용에 있어 제한과 한계를 검토한다. 예를 들면, 남성 환자를 치료한 결과에 해당되는 데이터를 여성 환자에 적용할 수 없을지 모른다.

그는 “기초 데이터가 모델에 적합하지 않으면 해당 모델을 적용하지 않도록 엄격한 프로세스를 적용하고 있다. 쓰레기가 들어가면 쓰레기가 나오기 때문이다”고 말했다.

마지막으로 켄사이 모델의 아웃풋을 대상으로 외부 피어 평가를 한다. 플랫폼 의사결정에 반영되는 요소들이다.

그는 “우리 연구원들은 AI의 투명성과 공평성이라는 변화를 선도하고 있다. 우리는 모델의 의사결정 근거인 파라미터를 배포하고, 자료를 공개해야 한다고 믿는다. 전문가들이 모델의 아웃풋은 물론 그 근거와 요소들을 검토 및 평가할 수 있어야 하기 때문이다. 켄사이 플랫폼의 개방성, 투명성, 조사에 있어 개방성을 유지하려 만전을 기하고 있다”고 언급했다.

켄사이의 접근법은 AI 의존도가 높아지면서 기업들이 구현해야 할 프로세스를 보여준다.


데이터가 가장 중요
AI에 기반을 둔 사이버보안 신생벤처인 자스크(Jask)의 제이제이 가이에 따르면, AI의 99%는 데이터 로지스틱스다. 그는 데이터 세트의 발전이 AI의 중요한 발전에 원동력을 제공했다고 강조했다.

가이는 “알고리즘은 쉽고 흥미롭다. 깨끗하고, 단순하며, 분리된 문제들이기 때문이다. 정말 힘든 부분은 알고리즘 훈련에 사용할 데이터를 수집, 분류, 표시하는 것이다. 특히 데이터 세트가 실제를 반영할 수 있을 정도로 종합적이어야 하므로 어렵다”고 설명했다.

단계별로 길 찾기 정보를 제공하는 앱을 예로 들자. 이런 앱들은 수십 년 전 처음 등장했다. 그러나 최근 들어 기능이 크게 발전했다. 데이터가 개선된 덕분이다.

그는 “구글은 미국의 모든 도로를 디지털 지도로 만들기 위해 많은 차량을 동원하고, 많은 투자를 했다. 여기에 위성 사진과 다른 데이터 소스를 결합했다. 그런 후, 사람이 모든 도로와 교차로, 신호등이 표시되도록 데이터를 다듬었다. AI를 광범위한 문제에 적용하면, 알고리즘이 아닌 데이터 수집과 처리가 성공을 견인하는 역할을 할 것이다”고 말했다.

하지만 AI 프로젝트에 착수한 이후에야 양질의 데이터가 중요하다는 점을 깨닫는 기업들이 많다.

포레스터 리서치의 애널리스트 미셀 고츠는 “이를 문제로 인식하지 못하는 기업이 많다. AI와 관련된 도전과제를 물었을 때, AI 트레이닝을 위한 체계적인 데이터 수집은 순위의 맨 아래에 위치해 있다”고 언급했다.

포레스터가 지난해 시행한 조사 결과에 따르면, AI 시스템을 훈련할 때 사용하는 체계적인 데이터 수집이 가장 큰 도전 과제라고 대답한 비율은 17%에 불과하다.

하지만 고츠는 “기업들이 AI 프로젝트를 추진하면, 이것이 개념 증명과 파일럿 단계를 생산화 단계로 발전시키지 못하도록 방해하는 장벽이자 가장 큰 약점이 된다”고 지적했다.

451리서치 창업자 겸 조사 담당 VP인 닉 페이션스에 따르면, 가장 큰 문제 중 하나는 데이터는 많지만 잠겨 있거나, 접근이 어렵다는 것이다.

그는 “데이터가 ‘사일로’라면 머신러닝에 도움이 되지 않을 것이다. 재무 데이터는 오라클에, HR 데이터는 워크데이(Workday)에, 연락처는 도큐멘텀(Documentum) 리파지토리에 각각 기반을 두고 있다. 그런데 이런 사일로를 연결하지 않았고, 그런 노력도 하지 않았다고 가정하자. 그렇다면 AI에 대해 준비돼 있지 않은 것이다”고 설명했다.

그는 “여기에 더해, 각 사일로에서 표준 분석 도구를 사용하고 있을 수도 있다”고 덧붙였다.




2018.02.19

인종차별하고 막말하는 AI, 원인은 '불량 데이터'에

Maria Korolov | CIO
인공지능과 머신러닝은 수많은 산업에 큰 변화를 가져올 수 있다. 그러나 심각한 위험들을 초래할 수도 있다. 이제 막 도입되기 시작한 기술이기 때문에 아직은 알려지지 않은 위험들이 많다. 인공지능에서 불량 데이터는 큰 문제며, 기업이 AI를 더 많이 채택함에 따라 이 문제는 더 커질 것이다.



이미 AI가 ‘타락’했을 때 무슨 일어나는지 보여주는 사례가 있다. 예를 들어, 마이크로소프트 테이(Tay)는 트위터 트롤들이 ‘타락’시키는 바람에 단 며칠 만에 ‘순진한’ 챗봇에서 무개념 인종 차별주의 AI로 전락했다. 구글은 2년 전 이미지 검색에서 고릴라와 침팬지라는 키워드를 검열해야 했다. 아프리카계 미국인의 사진을 검색 결과로 제시했기 때문이다. 구글 사진 앱에서 아직도 이 문제가 완전히 수정되지 않은 상태다.

기업들이 AI를 점차 더 많이 수용하면서, 이런 문제가 계속 커질 전망이다.

의료 데이터에 AI를 적용하는 사업을 추진하고 있는 시애틀 소재 신생벤처인 켄사이(KenSci)의 앤커 테레데사이 대표는 “밤에 잠을 설친다. 진짜 환자, 진짜 생명과 직결된 문제기 때문이다”고 말했다.

켄사이의 AI 플랫폼은 의사와 보험회사에 의료와 관련된 추천, 권장사항을 제시한다. 의료 기록, 예측 모델 생성에 사용하는 트레이닝 세트에 오류가 있다면 중대한 문제가 초래될 수 있다. 이는 AI에서 아주 중요하고 중대한 위험 요소 한 가지를 알려주는 사례다. 다름 아닌 데이터와 처리에 있어 품질이다.

AI가 잘못되는 것을 막는 방호책
켄사이는 전세계 파트너 기업, 기관의 환자 의료 기록 수백만 개를 처리한다. 언어와 기준, 형식, 분류 체계가 각각 다른 정보들이다.

켄사이는 이와 관련된 도전과제를 극복하기 위해 자체 개발한 도구, 다른 회사의 도구를 사용하고, 파트너 의료기관의 도움을 받는다.

그는 “의료 및 건강 분야는 올바른 프로토콜, 규제 준수, 그리고 데이터 자산을 가능한 ‘클린’하게 만드는 데 큰 노력을 기울였다. 5~10년 전 아주 큰 문제였기 때문이다. 지금은 서구와 아시아, 호주에서 디지털화가 성숙기에 접어들면서, 이질적인 코딩 문제가 크게 줄었다. 많은 것들이 표준화됐기 때문이다”고 말했다.

켄사이는 AI에 의존하는 위험을 경감하기 위해 3중으로 안전 ‘방어선’을 구축했다. 첫째, 오류를 방지하는 ‘방어선’이다. 의사가 직접 환자를 치료하는 것을 의미한다.

테레데사이는 “우리는 인공지능을 믿지 않는다. 인공지능이 아닌 ‘보조’ 지능을 믿는다. 의사결정은 훈련된 전문가, 즉 의사 같은 전문가의 몫이다”고 강조했다.

다시 말해, 켄사이 플랫폼은 추천만 할 뿐이다. 더 나아가, 치료에 대한 추천은 아예 하지 않는 때가 대부분이다. 테레데사이는 “비용 예측, 워크플로 분석, 워크플로 최적화에 초점이 맞춰져 있다. 우리가 임상 관련 의사결정에서 몇 걸음 물러나 있는 경우가 대부분이다”고 설명했다.

두 번째 ‘방어선'은 회사 소속 의료 전문가들이 제공한다. 이들은 획득한 데이터, 활용에 있어 제한과 한계를 검토한다. 예를 들면, 남성 환자를 치료한 결과에 해당되는 데이터를 여성 환자에 적용할 수 없을지 모른다.

그는 “기초 데이터가 모델에 적합하지 않으면 해당 모델을 적용하지 않도록 엄격한 프로세스를 적용하고 있다. 쓰레기가 들어가면 쓰레기가 나오기 때문이다”고 말했다.

마지막으로 켄사이 모델의 아웃풋을 대상으로 외부 피어 평가를 한다. 플랫폼 의사결정에 반영되는 요소들이다.

그는 “우리 연구원들은 AI의 투명성과 공평성이라는 변화를 선도하고 있다. 우리는 모델의 의사결정 근거인 파라미터를 배포하고, 자료를 공개해야 한다고 믿는다. 전문가들이 모델의 아웃풋은 물론 그 근거와 요소들을 검토 및 평가할 수 있어야 하기 때문이다. 켄사이 플랫폼의 개방성, 투명성, 조사에 있어 개방성을 유지하려 만전을 기하고 있다”고 언급했다.

켄사이의 접근법은 AI 의존도가 높아지면서 기업들이 구현해야 할 프로세스를 보여준다.


데이터가 가장 중요
AI에 기반을 둔 사이버보안 신생벤처인 자스크(Jask)의 제이제이 가이에 따르면, AI의 99%는 데이터 로지스틱스다. 그는 데이터 세트의 발전이 AI의 중요한 발전에 원동력을 제공했다고 강조했다.

가이는 “알고리즘은 쉽고 흥미롭다. 깨끗하고, 단순하며, 분리된 문제들이기 때문이다. 정말 힘든 부분은 알고리즘 훈련에 사용할 데이터를 수집, 분류, 표시하는 것이다. 특히 데이터 세트가 실제를 반영할 수 있을 정도로 종합적이어야 하므로 어렵다”고 설명했다.

단계별로 길 찾기 정보를 제공하는 앱을 예로 들자. 이런 앱들은 수십 년 전 처음 등장했다. 그러나 최근 들어 기능이 크게 발전했다. 데이터가 개선된 덕분이다.

그는 “구글은 미국의 모든 도로를 디지털 지도로 만들기 위해 많은 차량을 동원하고, 많은 투자를 했다. 여기에 위성 사진과 다른 데이터 소스를 결합했다. 그런 후, 사람이 모든 도로와 교차로, 신호등이 표시되도록 데이터를 다듬었다. AI를 광범위한 문제에 적용하면, 알고리즘이 아닌 데이터 수집과 처리가 성공을 견인하는 역할을 할 것이다”고 말했다.

하지만 AI 프로젝트에 착수한 이후에야 양질의 데이터가 중요하다는 점을 깨닫는 기업들이 많다.

포레스터 리서치의 애널리스트 미셀 고츠는 “이를 문제로 인식하지 못하는 기업이 많다. AI와 관련된 도전과제를 물었을 때, AI 트레이닝을 위한 체계적인 데이터 수집은 순위의 맨 아래에 위치해 있다”고 언급했다.

포레스터가 지난해 시행한 조사 결과에 따르면, AI 시스템을 훈련할 때 사용하는 체계적인 데이터 수집이 가장 큰 도전 과제라고 대답한 비율은 17%에 불과하다.

하지만 고츠는 “기업들이 AI 프로젝트를 추진하면, 이것이 개념 증명과 파일럿 단계를 생산화 단계로 발전시키지 못하도록 방해하는 장벽이자 가장 큰 약점이 된다”고 지적했다.

451리서치 창업자 겸 조사 담당 VP인 닉 페이션스에 따르면, 가장 큰 문제 중 하나는 데이터는 많지만 잠겨 있거나, 접근이 어렵다는 것이다.

그는 “데이터가 ‘사일로’라면 머신러닝에 도움이 되지 않을 것이다. 재무 데이터는 오라클에, HR 데이터는 워크데이(Workday)에, 연락처는 도큐멘텀(Documentum) 리파지토리에 각각 기반을 두고 있다. 그런데 이런 사일로를 연결하지 않았고, 그런 노력도 하지 않았다고 가정하자. 그렇다면 AI에 대해 준비돼 있지 않은 것이다”고 설명했다.

그는 “여기에 더해, 각 사일로에서 표준 분석 도구를 사용하고 있을 수도 있다”고 덧붙였다.


X