인종차별하고 막말하는 AI, 원인은 '불량 데이터'에

2018.02.19 Maria Korolov | CIO

AI를 방해할 수 있는 데이터 문제
데이터가 있더라도 품질 문제는 있을 수 있다. 또 트레이닝 세트가 편향되어 있을 가능성도 있다.

최근 몇몇 연구 및 조사 결과에 따르면, 이미지 인식 AI 훈련에 사용되는 인기 데이터 세트들이 성별과 관련해 편향된 것으로 드러났다. 예를 들면, 트레이닝 데이터에서 요리하는 사람은 여자였기 때문에 요리하는 남자 사진을 여자로 잘못 인식한다.

스프링보드닷에이아이(SpringBoard.ai)의 CEO 브루스 몰로이는 “성별, 인종, 연령 등 차이점에 대한 편향이 데이터에 반영될 수 있다”고 지적했다.

AI시스템을 구축하는 기업들은 데이터를 분석하는 알고리즘과 데이터가 조직의 원칙, 목표, 가치와 일치하는지 확인할 필요가 있다.

그는 “AI에 대한 가치, 윤리(도덕), 판단을 아웃소싱할 수는 없다”고 강조했다.

이것이 내부, 외부 감사자, 평가 위원회가 AI의 의사결정 방식을 이해하도록 도움을 주는 분석 툴들에서 비롯될 수도 있다.

데이터 소스와 관련된 규제 준수도 문제다. 정보에 접근할 수 있다고 해서 원하는 대로 이용할 수 있다는 의미는 아니다.

IDC의 인지 및 인공지능 시스템 조사 담당 이사 데이빗 슈멜은 기업과 기관이 이미 머신러닝 모델을 감사하기 시작했으며, 여기에 투입되는 데이터도 조사하고 있다고 말했다.

독립 감사 회사들도 이 부분을 주시하기 시작한 상태다.

그는 “감사 프로세스의 일부로 정착되기 시작했다고 판단한다. 그러나 다른 것과 마찬가지로 새로운 부분이다. 아직은 베스트 프랙티스를 파악하려 하는 단계다”고 설명했다.

기업은 베스트 프랙티스를 파악하기까지 속도를 내지 않을 전망이다.

그는 “AI나 머신러닝 모델이 스스로 처리하는 대신, 숙련된 전문가를 지원하고 추천하는 시대의 초기에 진입했다고 생각한다. 사람들이 데이터를 올바르게 준비하고 통합하려 시도하면서, 또 적합한 데이터와 데이터 세트를 획득하려 시도하면서 AI 애플리케이션 구축에 더 많은 시간이 소요되고 있다”고 말했다.

프라이스워터하우스쿠퍼스(PwC)의 파트너 겸 글로벌 AI 리더 아난드 라오에 따르면, 아주 정확한 데이터에도 편향이 존재할 가능성이 있다. 예를 들면, 미국 중서부에 있는 보험회사가 그곳의 역사적 데이터로 AI시스템을 훈련한 후 플로리다 지역으로 사업을 확장하는 경우 허리케인 관련 위험을 예측하지 못하는 상황이 있을 수 있다.

그는 “역사도 유효하고, 데이터도 유효하다. 모델을 사용하는 장소와 모델을 사용하는 방법이 문제다”고 지적했다.

가짜 데이터 증가
이런 종류의 편향은 파악하기 매우 어려울 수 있다. 그러나 일부러 결과를 엉망으로 만들려는 데이터 소스는 예외다. 예를 들어, 소셜 미디어에 가짜 뉴스가 확산되면서 문제가 계속 악화되는 실정이다.

라오는 ‘군비 경쟁’이라고 언급했다.

소셜 미디어 기업은 이 문제를 근절하기 위해 노력하고 있다. 하지만 다른 쪽에서는 해커들이 AI를 이용해, 소셜 미디어에 영향을 주거나 광고주들이 진짜 소비자로 생각할 만큼 사람으로 가장하는 봇을 만들고 있다.

루시드웍스(Lucidworks)의 CEO 윌 헤이스는 “이미 그 영향을 보고 있다. 봇, 기타 다양한 조작자가 메시지를 증폭한 사례, 선거와 관련된 사례를 예로 들 수 있다”고 설명했다.

러시아나 중국만 이런 조작자가 되는 것이 아니다.

그는 “브랜드가 소셜 미디어에서 메시지를 증폭하는 방법을 찾고, 마케팅 회사가 고객의 참여가 확대되었음을 증명하려 시도한다고 가정하자. 엔지니어를 데려와 데이터를 조작하는 방법을 찾도록 만들지 않아도 된다”고 이야기했다.

여기에는 주제 전문성과 상식이 중요한 역할을 한다.

기업이 다양한 소스의 데이터를 처리할 수 있도록 도움을 주는 마케팅 회사인 개리건 리먼 그룹(Garrigan Lyman Group)의 CTO 크리스 게이저는 “수학과 패턴을 이해하는 것만으로는 불충분하다. 개별 데이터 소스를 모두 파악하고 이해하는 것이 가장 중요하다. 데이터, 달성하려는 목표, 핵심 성과 지표에 대한 이해가 높아야 올바른 방향으로 나아갈 수 있다”고 설명했다.

데이터 소스 ‘3각 측량’
기업이 여러 소스의 데이터를 이용하고 있다면, 머신러닝에 적용하기 전에 소스별로 데이터를 비교해 확인하는 것이 매우 중요하다.

세계 최대 통신회사 중 하나인 NTT그룹은 네트워크 인프라에서 수많은 데이터가 생성된다.

NTT시큐리티의 글로벌 보안 연구 담당 VP인 켄지 타카하시는 “보안 목적에서 네트워크 흐름 데이터를 분석하기 위해 머신러닝을 사용하고 있다. 궁극적으로 네트워크에 숨어 있는 악성 봇넷 인프라를 완전히 파악하는 것이 목적이다”고 말했다.

이 회사는 머신러닝용 트레이닝 데이터의 품질을 높이는 기술에 투자하고 있다. NTT는 이를 위해 여러 데이터 소스의 데이터 분석 결과를 가중 평가하는 ‘앙상블(Ensemble)’ 기법을 활용하고 있다.

이후 머신러닝 트레이닝 데이터로 준비를 시키는 하이퍼스케일 데이터베이스로 옮긴다.

그는 “교실 수업과 마찬가지다. 오류가 많은 저품질의 교과서로 학습하는 것은 재앙이다. 트레이닝 데이터의 품질이 머신러닝 시스템의 성능을 결정한다”고 설명했다.

문제를 해결할 도구와 팀을 구축
인포시스(Infosys)가 1월 발표한 조사 결과에 따르면, IT 의사 결정권자 중 데이터가 준비돼 있지 않아 원하는 AI를 구현할 수 없다고 말한 응답자가 49%에 달했다.

인포시스의 제품 관리 및 전략 책임자 겸 SVP인 슈디르 즈하는 “AI가 비즈니스 전략의 중심이 되고 있지만, 여전히 데이터 관리가 장애물로 남아 있다”고 지적했다.

최고 데이터 책임자(CDO)가 데이터를 더 효과적으로 관리하는 SAP의 레오나르도(Leonardo) 및 AI 사업 부문 글로벌 VP 마크 티어링크에 따르면, 리더십이 매우 중요하다. 이에 일부 조직은 AI를 추진하면서 가장 먼저 CDO를 임명하는 추세다.

그는 “쓰레기가 들어가면 쓰레기가 나온다. 데이터 품질, 소유 및 책임 의식, 거버넌스가 차이를 가져온다”고 강조했다.

현재 많은 기업이 AI와 머신러닝 시스템에 사용할 데이터를 준비하기 위해 독자적인 기술을 개발해야 한다. 이를 위해서는 데이터 과학자가 필요하다. PwC의 라오는 내부에 이런 인재가 없으면 컨설턴트를 채용해야 한다고 밝혔다.

블루스템 브랜드(Bluestem Brans)같이 선견지명이 있는 회사는 다른 AI시스템에 사용할 데이터 처리에 AI를 사용하고 있다. 핑거허트(Fingerhut)와 베드포드(Bedford) 등 13개 소매 브랜드를 보유한 이 회사는 이런 방법으로 고객을 돕고 있다. 예를 들어, 고객이 검은색 드레스를 검색할 경우 ‘검은색’, ‘블랙’, ‘미드나이트’, ‘디프 미라지’, ‘다크 차콜’ 등 개별 업체가 자체적으로 지정한 유사 색상이 검색되도록 만들고 있다.

이 회사의 IT담당 이사인 제이콥 와그너는 “아티스트의 창의력은 무한대이기 때문에 기본 색상은 같지만 음영에 따라 수많은 유사 색상으로 나뉜다. 이는 색상에만 국한된 이야기가 아니다. 사람이 해석하는 모든 속성에 이런 동일한 문제가 존재한다”고 설명했다.

블루스템은 가용한 기술들로 데이터 준비 시스템을 독자적으로 구축했다.

와그너는 “검색 기술이 ‘상품화’되는 추세다. 렉시컬 파싱(어휘 구문 분석), 텍스트 매칭 등 모든 기술이 정립된 상태며, 오픈소스 알고리즘은 사유 패키지만큼 효과적이다”고 설명했다.

꼭 박사 학위를 보유한 데이터 과학자가 있어야 하는 것은 아니다.

그는 “유능한 엔지니어가 있다면, 데이터 스트림과 연결하는 방법을 찾을 수 있다”고 말했다.

와그너는 아파치 스파크(Apache Spark)를 높이 평가했다. 여러 다양한 소스에서 데이터를 가져와 체계화할 수 있는 빅데이터 엔진이다. 오픈소스 검색 엔진인 아파치 솔르(Apache Solr)도 마찬가지다. 블루스템은 고객을 대상으로, 또한 동시에 내부적으로 편집 워크플로에 이를 활용하고 있다.

여기에 더해 비즈니스 사용자가 추가 비즈니스 로직을 이용해 검색 환경을 맞춤화할 수 있는 루시드웍스 퓨전(Lucidworks Fusion) 같은 상용 제품도 사용한다. 이를 통해 IT의 관여 없이, 발렌타인데이와 관련된 쿼리를 적절히 추천으로 변환시켜 처리한다.

적절한 관리 전략, 도구, 인적자원이 있다면, AI를 성공시킬 확률을 크게 높일 수 있다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

구글 CDO 트롤 최고 데이터 책임자 451리서치 아파치 스파크 테이 인종차별 NTT그룹 봇넷 프라이스워터하우스쿠퍼스 IDC 마이크로소프트 트위터 데이터 과학자 포레스터 리서치 인포시스 PwC 인공지능 데이터 편향

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점