Offcanvas

AI / CIO / 디지털 트랜스포메이션 / 라이프 / 로봇|자동화 / 머신러닝|딥러닝 / 분쟁|갈등 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 신기술|미래 / 인문학|교양

'알고리즘 따라 부동산 샀더니...' AI·애널리틱스에서 비롯된 재난 6선

2021.11.25 Thor Olavsrud  |  CIO
2017년 이코노미스트는 데이터가 석유를 넘어서 가장 가치 있는 자원이 됐다고 선언했다. 비슷한 후렴구가 그 이후로 반복되고 있다. 모든 업종에 걸쳐 각 기업들이 데이터 및 애널리틱스에 크게 투자해오고 있다. 그러나 석유와 마찬가지로 데이터와 애널리틱스에도 어두운 면이 있다.

IDG의 2021 CIO 현황 보고서에 따르면, IT 리더 중 39%는 데이터 애널리틱스에 대한 투자가 올해 IT 투자를 주도할 것이라고 응답했다. 머신러닝(ML) 알고리즘에 의한 애널리틱스 및 조치를 통해 얻은 통찰력은 조직에 경쟁적 우위를 제공할 수 있다는 판단에서 일 것이다. 그러나 애널리틱스에서 비롯된 실수 또한 명성, 수익 또는 생명 측면에서 큰 대가를 치르게 할 수 있다.

데이터가 말해주는 것을 이해하는 것도 중요하지만 툴을 이해하고 데이터를 파악하며 조직의 가치를 확실히 염두에 두는 것도 중요하다. 다음은 지난 10년간 세간의 이목을 끈 애널리틱스 및 인공지능(AI) 관련 사고들이다.



알고리즘으로 인한 주택 구입 실수로 인해 질로우는 수억 달러의 손해를 봤고 결국 인력을 감축했다
2021년 11월 온라인 부동산 시장업체인 질로우는 주주총회에서 질로우 오퍼스의 운영을 중단하고 향후 몇 분기에 걸쳐 인력의 25%에 달하는 약 2,000명의 직원을 감원할 것이라고 밝혔다. 부동산업체인 질로우의 문제는 주택가격을 예측하기 위해 사용했던 머신러닝 알고리즘의 오류 비율이었다.

‘질로우 오퍼스’는 머신러닝 알고리즘에서 파생된 주택 가치인 ‘제스티메이트(Zestimate)’를 기반으로 해 부동산에 대해 현금 거래를 제안하는 프로그램이다. 그 아이디어는 부동산을 빠르게 개조하고 개량하는 것이었다. 그러나 질로우 대변인이 CNN에 밝한 내용에 따르면 이 알고리즘은 1.9%의 중간 오류율을 가지고 있으며, 시장에 나와있지 않은 주택의 경우 오류율이 6.9%까지 치솟을 수 있었다. 

질로우는 2018년 4월 질로우 오퍼스를 가동한 이후 이를 통해 2만 7,000채의 주택을 구매했다. 그러나 이 중 2021년 9월 말까지 판매된 수치는 1만 7,000채에 그쳤다. 코로나 19 팬데믹과 주택 수선 노동력 부족과 같은 블랙 스완 사건들이 알고리즘의 정확성 문제를 야기했다.

질로우는 알고리즘이 의도치 않게 더 높은 가격에 집을 구매하게 만들어 2021년 3분기에 3억 400만 달러의 재고상각을 초래했다고 말했다.

질로우의 공동 창업자이자 CEO인 리치 바톤은 성명 발표 후 투자자와의 컨퍼런스 콜에서 알고리즘을 조정할 수 있을지 모르지만 기본적으로 너무 위험스러운 조치였다고 본다고 말했다.

영국은 스프레드시트 데이터 제한을 초과하여 수천 명의 코로나 환자를 누락했다
2020년 10월, 신규 코로나 19 감염자 집계를 담당하는 영국 정부기관인 공공보건국(PHE)은 9월 25일부터 10월 2일 사이에 거의 1만 6,000명의 코로나바이러스 환자가 보고되지 않았다고 밝혔다. 범인이 누구였을까? 바로 마이크로소프트 엑셀의 데이터 제한이었다.

PHE는 코로나 19 양성 실험실 결과를, 접촉 추적을 위한 엑셀 템플릿에 CSV 파일로 자동 전송하는 프로세스를 구축했다. 그러나 엑셀 스프레드시트는 워크시트당 최대 1,04만 8,576개의 행과 1만 6,384개의 열을 가질 수 있다. 게다가 PHE는 환자를 행이 아닌 열로 나열하고 있었다. 건수가 1만 6,384열 한계를 넘어서자 엑셀은 가장 밑에 있던 1만 5,841개의 기록을 잘라버렸다. 

이러한 사고는 접촉 추적 노력을 방해해 영국 NHS가 감염 환자와 밀접 접촉한 개인을 파악해 통보하는 것을 더 어렵게 만들었다. 마이클 브로디 PHE 임시 국장은 10월 4일 성명에서 NHS 테스트 앤 트레이스와 PHE가 이 문제를 신속하게 해결하고 미결 사례를 즉시 NHS 테스트 앤 트레이스 접촉 추적 시스템으로 전송했다고 말했다.

PHE는 대용량 파일을 쪼개는 ‘급속 완화’ 조치를 시행하고 향후 유사한 사고가 발생하지 않도록 모든 시스템에 대한 전면적인 검토를 실시했다.

헬스케어 알고리즘이 흑인 환자들을 표시하지 못하다 
2019년 사이언스에 발표된 한 연구에 따르면, 미국 전역의 병원과 보험사가 ‘고위험 진료 관리’ 프로그램이 필요한 환자를 식별하기 위해 사용하는 헬스케어 예측 알고리즘이 흑인 환자를 골라낼 가능성이 아주 낮다.

고위험 관리 프로그램은 심각한 합병증을 예방하기 위한 노력으로 만성 질환 환자에게 훈련된 간호 인력 및 1차 진료 모니터링 기능을 제공한다. 그러나 이 알고리즘은 흑인 환자보다 백인 환자를 프로그램에 추천할 가능성이 더 높았다.

이 연구는 알고리즘이 개인의 헬스케어 필요를 결정하는 요소 중 하나로 헬스케어 지출을 사용한다는 것을 발견했다. 그러나 사이언티픽 아메리칸에 따르면, 더 아픈 흑인 환자들의 헬스케어 비용은 더 건강한 백인들의 비용과 동등한 수준이었다. 이는 그들이 더 낮은 위험 점수를 받았다는 것을 의미했다.

그 연구의 연구진은 이에 대해 몇 가지 요인이 작동했을 수 있다고 분석했다. 첫째, 유색인종은 소득이 더 낮을 가능성이 높으며, 이 때문에 심지어 보험에 가입되어 있을 때에도 의료 서비스에 접근할 가능성이 더 낮을 수 있다. 암묵적 편견도 유색인종이 낮은 품질의 치료를 받도록 할 수 있다.

이 연구는 알고리즘이나 개발자의 이름을 밝히지 않았지만, 연구진은 이 상황을 해결하기 위해 개발자와 함께 일하고 있다고 사이언티픽 아메리칸에 말했다.

데이터세트는 마이크로소프트 챗봇이 인종 차별적인 트윗을 뱉어 내도록 교육했다
2016년 3월, 마이크로소프트는 트위터 상호작용을 머신러닝 알고리즘의 훈련 데이터로 사용하는 것이 실망스러운 결과를 가져올 수 있다는 것을 뼈저리게 배웠다.

마이크로소프트는 소셜 미디어 플랫폼에 인공지능 챗봇인 테이를 출시했다. 이 회사는 그것을 ‘대화적 이해’에서의 실험이라고 설명했다. 이 아이디어는 챗봇이 10대 소녀의 인격을 가장하고 머신러닝과 자연어 처리를 결합하여 트위터를 통해 개인들과 상호작용하는 것이었다. 

마이크로소프트는 익명의 공개 데이터와 코미디언들이 미리 작성한 자료들을 씨앗으로 삼은 다음 소셜 네트워크에서의 상호 작용으로부터 배우고 발전할 수 있도록 풀어놓았다.

16시간 만에 챗봇은 9만 5,000개가 넘는 트윗을 올렸고, 그 트윗들은 순식간에 인종차별, 여성 혐오, 반유대주의로 변해버렸다. 마이크로소프트는 조정을 위해 재빨리 서비스를 중단했고 결국 철수시켰다.

피터 리 마이크로소프트 리서치 앤 인큐베이션스 기업 부사장(당시에는 마이크로소프트 헬스케어 기업 부사장)은 사고 후 마이크로소프트 공식 블로그에 올린 글에서 “우리는 테이의 의도하지 않은 불쾌하고 상처주는 트윗에 대해 진심으로 사과한다. 그런 트윗은 우리가 누구인지, 우리가 무엇을 지지하는지, 테이를 어떻게 디자인했는지를 대변하지 않는다”라고 적었다.

리에 따르면 2014년 마이크로소프트가 중국에서 공개한 테이의 이전 버전인 샤오이스는 테이의 출시 이전 2년 동안 4,000만 명이 넘는 사람들과 성공적으로 대화를 나눴다. 마이크로소프트가 고려하지 못한 것은 트위터 사용자 그룹이 즉시 테이에게 인종 차별적이고 여성 혐오적인 발언을 트윗 하기 시작할 것이라는 것이었다. 그 봇은 그러한 자료로부터 빠르게 배웠고 그것을 자신의 트윗에 수용했다.

리는 “많은 종류의 시스템 남용에 대비했지만, 이 특정한 공격에 대해서는 크게 간과했다. 그 결과, 테이는 부적절하고 비난받을 만한 단어와 이미지를 트윗 했다”라고 적었다.
 
아마존의 AI 채용 툴은 남성만 추천했다
많은 대기업들과 마찬가지로, 아마존은 입사 후보자들의 지원서를 심사하는 툴에 굶주려 있다. 2014년, 아마존은 바로 그것을 하기 위해 AI를 이용한 채용 소프트웨어를 개발하기 시작했다. 그런데 한 가지 문제가 있었다. 그 시스템이 남성 후보자를 크게 선호했던 것이다. 2018년 로이터는 아마존이 프로젝트를 폐기했다는 뉴스를 전했다.

아마존의 시스템은 후보자들에게 1에서 5까지 별점을 매겼다. 그러나 이 시스템의 핵심인 머신러닝 모델들은 아마존에 제출된 10년 치의 이력서를 바탕으로 훈련됐는데 대부분이 남성들이 제출한 것들이었다. 그 훈련 자료 때문에, 이 시스템은 ‘여성의’라는 단어를 포함한 이력서의 문구들에 벌점을 주기 시작했고 심지어 모든 여자 대학 출신의 지원자들에게 하향등급을 부여했다.

당시 아마존은 이 툴을 아마존 채용 담당자들이 후보자를 평가하는 데 사용한 적이 없다고 밝혔다.

회사는 툴을 중립적으로 만들기 위해 편집하려고 했지만, 결국 다른 차별적인 후보 분류 방법을 배우지 않을 것이라고 장담할 수 없다고 판단하여 프로젝트를 종료했다.

타겟의 애널리틱스가 개인정보보호를 위반했다 
2012년, 소매 기업 타겟의 애널리틱스 프로젝트는 기업이 데이터를 통해 고객에 대해 얼마나 많은 것을 배울 수 있는지를 보여주었다. 뉴욕타임스에 따르면 2002년 타겟의 마케팅 부서는 어떻게 하면 고객의 임신 여부를 판단할 수 있을지 궁금해하기 시작했다. 이러한 일련의 의문은 예측 애널리틱스 프로젝트로 이어졌는데, 이 때문에 타겟이 한 10대 소녀의 가족에게 그녀가 임신했다는 것을 무심코 밝히게 된 것으로 유명하다.

타겟의 마케팅 부서는 사람들이 구매 습관을 급격하게 바꿀 가능성이 가장 높은 특정 시기가 있으며 그 중 가장 중요한 것이 임신이기기 때문에 임신한 개인을 식별하기를 원했다. 만약 타겟이 그 기간 동안 고객에게 접근할 수 있다면, 예를 들어, 고객에게 새로운 행동을 부추겨서 식료품, 의류 또는 기타 상품에 대해 타겟을 찾도록 만들 수 있을 것이라고 기대했다.

다른 대형 소매업체와 마찬가지로 타겟도 쇼핑 코드, 신용카드, 설문조사 등을 통해 고객에 대한 데이터를 수집하고 있었다. 이 데이터는 인구통계학적 데이터와 타겟이 구매한 타사 데이터를 함께 통합해서 만들어졌다. 

이 모든 데이터를 분석함으로써 타겟의 애널리틱스 팀은 ‘임신 예측’ 점수를 생성하기 위해 분석대상이 될 만한 타겟에서 판매한 제품이 약 25개라는 것을 파악할 수 있었다. 그 다음 마케팅 부서는 쿠폰과 마케팅 메시지로 점수가 높은 고객을 공략할 수 있었다.

뉴욕타임즈에 따르면, 이 회사는 목표한 마케팅을 철회하지 않았으며, 대신 다른 꼼수를 이용했다. (기저귀 광고 옆에 잔디 깎는 기계 광고를 두는 것을 비롯해) 임산부가 사지 않을 품목에 대한 광고를 섞기 시작해서 고객들이 랜덤으로 광고에 노출된다고 느끼도록 했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.