Offcanvas
2018.02.19 Maria Korolov  |  CIO


AI를 방해할 수 있는 데이터 문제
데이터가 있더라도 품질 문제는 있을 수 있다. 또 트레이닝 세트가 편향되어 있을 가능성도 있다.

최근 몇몇 연구 및 조사 결과에 따르면, 이미지 인식 AI 훈련에 사용되는 인기 데이터 세트들이 성별과 관련해 편향된 것으로 드러났다. 예를 들면, 트레이닝 데이터에서 요리하는 사람은 여자였기 때문에 요리하는 남자 사진을 여자로 잘못 인식한다.

스프링보드닷에이아이(SpringBoard.ai)의 CEO 브루스 몰로이는 “성별, 인종, 연령 등 차이점에 대한 편향이 데이터에 반영될 수 있다”고 지적했다.

AI시스템을 구축하는 기업들은 데이터를 분석하는 알고리즘과 데이터가 조직의 원칙, 목표, 가치와 일치하는지 확인할 필요가 있다.

그는 “AI에 대한 가치, 윤리(도덕), 판단을 아웃소싱할 수는 없다”고 강조했다.

이것이 내부, 외부 감사자, 평가 위원회가 AI의 의사결정 방식을 이해하도록 도움을 주는 분석 툴들에서 비롯될 수도 있다.

데이터 소스와 관련된 규제 준수도 문제다. 정보에 접근할 수 있다고 해서 원하는 대로 이용할 수 있다는 의미는 아니다.

IDC의 인지 및 인공지능 시스템 조사 담당 이사 데이빗 슈멜은 기업과 기관이 이미 머신러닝 모델을 감사하기 시작했으며, 여기에 투입되는 데이터도 조사하고 있다고 말했다.

독립 감사 회사들도 이 부분을 주시하기 시작한 상태다.

그는 “감사 프로세스의 일부로 정착되기 시작했다고 판단한다. 그러나 다른 것과 마찬가지로 새로운 부분이다. 아직은 베스트 프랙티스를 파악하려 하는 단계다”고 설명했다.

기업은 베스트 프랙티스를 파악하기까지 속도를 내지 않을 전망이다.

그는 “AI나 머신러닝 모델이 스스로 처리하는 대신, 숙련된 전문가를 지원하고 추천하는 시대의 초기에 진입했다고 생각한다. 사람들이 데이터를 올바르게 준비하고 통합하려 시도하면서, 또 적합한 데이터와 데이터 세트를 획득하려 시도하면서 AI 애플리케이션 구축에 더 많은 시간이 소요되고 있다”고 말했다.

프라이스워터하우스쿠퍼스(PwC)의 파트너 겸 글로벌 AI 리더 아난드 라오에 따르면, 아주 정확한 데이터에도 편향이 존재할 가능성이 있다. 예를 들면, 미국 중서부에 있는 보험회사가 그곳의 역사적 데이터로 AI시스템을 훈련한 후 플로리다 지역으로 사업을 확장하는 경우 허리케인 관련 위험을 예측하지 못하는 상황이 있을 수 있다.

그는 “역사도 유효하고, 데이터도 유효하다. 모델을 사용하는 장소와 모델을 사용하는 방법이 문제다”고 지적했다.

가짜 데이터 증가
이런 종류의 편향은 파악하기 매우 어려울 수 있다. 그러나 일부러 결과를 엉망으로 만들려는 데이터 소스는 예외다. 예를 들어, 소셜 미디어에 가짜 뉴스가 확산되면서 문제가 계속 악화되는 실정이다.

라오는 ‘군비 경쟁’이라고 언급했다.

소셜 미디어 기업은 이 문제를 근절하기 위해 노력하고 있다. 하지만 다른 쪽에서는 해커들이 AI를 이용해, 소셜 미디어에 영향을 주거나 광고주들이 진짜 소비자로 생각할 만큼 사람으로 가장하는 봇을 만들고 있다.

루시드웍스(Lucidworks)의 CEO 윌 헤이스는 “이미 그 영향을 보고 있다. 봇, 기타 다양한 조작자가 메시지를 증폭한 사례, 선거와 관련된 사례를 예로 들 수 있다”고 설명했다.

러시아나 중국만 이런 조작자가 되는 것이 아니다.

그는 “브랜드가 소셜 미디어에서 메시지를 증폭하는 방법을 찾고, 마케팅 회사가 고객의 참여가 확대되었음을 증명하려 시도한다고 가정하자. 엔지니어를 데려와 데이터를 조작하는 방법을 찾도록 만들지 않아도 된다”고 이야기했다.

여기에는 주제 전문성과 상식이 중요한 역할을 한다.

기업이 다양한 소스의 데이터를 처리할 수 있도록 도움을 주는 마케팅 회사인 개리건 리먼 그룹(Garrigan Lyman Group)의 CTO 크리스 게이저는 “수학과 패턴을 이해하는 것만으로는 불충분하다. 개별 데이터 소스를 모두 파악하고 이해하는 것이 가장 중요하다. 데이터, 달성하려는 목표, 핵심 성과 지표에 대한 이해가 높아야 올바른 방향으로 나아갈 수 있다”고 설명했다.

데이터 소스 ‘3각 측량’
기업이 여러 소스의 데이터를 이용하고 있다면, 머신러닝에 적용하기 전에 소스별로 데이터를 비교해 확인하는 것이 매우 중요하다.

세계 최대 통신회사 중 하나인 NTT그룹은 네트워크 인프라에서 수많은 데이터가 생성된다.

NTT시큐리티의 글로벌 보안 연구 담당 VP인 켄지 타카하시는 “보안 목적에서 네트워크 흐름 데이터를 분석하기 위해 머신러닝을 사용하고 있다. 궁극적으로 네트워크에 숨어 있는 악성 봇넷 인프라를 완전히 파악하는 것이 목적이다”고 말했다.

이 회사는 머신러닝용 트레이닝 데이터의 품질을 높이는 기술에 투자하고 있다. NTT는 이를 위해 여러 데이터 소스의 데이터 분석 결과를 가중 평가하는 ‘앙상블(Ensemble)’ 기법을 활용하고 있다.

이후 머신러닝 트레이닝 데이터로 준비를 시키는 하이퍼스케일 데이터베이스로 옮긴다.

그는 “교실 수업과 마찬가지다. 오류가 많은 저품질의 교과서로 학습하는 것은 재앙이다. 트레이닝 데이터의 품질이 머신러닝 시스템의 성능을 결정한다”고 설명했다.

문제를 해결할 도구와 팀을 구축
인포시스(Infosys)가 1월 발표한 조사 결과에 따르면, IT 의사 결정권자 중 데이터가 준비돼 있지 않아 원하는 AI를 구현할 수 없다고 말한 응답자가 49%에 달했다.

인포시스의 제품 관리 및 전략 책임자 겸 SVP인 슈디르 즈하는 “AI가 비즈니스 전략의 중심이 되고 있지만, 여전히 데이터 관리가 장애물로 남아 있다”고 지적했다.

최고 데이터 책임자(CDO)가 데이터를 더 효과적으로 관리하는 SAP의 레오나르도(Leonardo) 및 AI 사업 부문 글로벌 VP 마크 티어링크에 따르면, 리더십이 매우 중요하다. 이에 일부 조직은 AI를 추진하면서 가장 먼저 CDO를 임명하는 추세다.

그는 “쓰레기가 들어가면 쓰레기가 나온다. 데이터 품질, 소유 및 책임 의식, 거버넌스가 차이를 가져온다”고 강조했다.

현재 많은 기업이 AI와 머신러닝 시스템에 사용할 데이터를 준비하기 위해 독자적인 기술을 개발해야 한다. 이를 위해서는 데이터 과학자가 필요하다. PwC의 라오는 내부에 이런 인재가 없으면 컨설턴트를 채용해야 한다고 밝혔다.

블루스템 브랜드(Bluestem Brans)같이 선견지명이 있는 회사는 다른 AI시스템에 사용할 데이터 처리에 AI를 사용하고 있다. 핑거허트(Fingerhut)와 베드포드(Bedford) 등 13개 소매 브랜드를 보유한 이 회사는 이런 방법으로 고객을 돕고 있다. 예를 들어, 고객이 검은색 드레스를 검색할 경우 ‘검은색’, ‘블랙’, ‘미드나이트’, ‘디프 미라지’, ‘다크 차콜’ 등 개별 업체가 자체적으로 지정한 유사 색상이 검색되도록 만들고 있다.

이 회사의 IT담당 이사인 제이콥 와그너는 “아티스트의 창의력은 무한대이기 때문에 기본 색상은 같지만 음영에 따라 수많은 유사 색상으로 나뉜다. 이는 색상에만 국한된 이야기가 아니다. 사람이 해석하는 모든 속성에 이런 동일한 문제가 존재한다”고 설명했다.

블루스템은 가용한 기술들로 데이터 준비 시스템을 독자적으로 구축했다.

와그너는 “검색 기술이 ‘상품화’되는 추세다. 렉시컬 파싱(어휘 구문 분석), 텍스트 매칭 등 모든 기술이 정립된 상태며, 오픈소스 알고리즘은 사유 패키지만큼 효과적이다”고 설명했다.

꼭 박사 학위를 보유한 데이터 과학자가 있어야 하는 것은 아니다.

그는 “유능한 엔지니어가 있다면, 데이터 스트림과 연결하는 방법을 찾을 수 있다”고 말했다.

와그너는 아파치 스파크(Apache Spark)를 높이 평가했다. 여러 다양한 소스에서 데이터를 가져와 체계화할 수 있는 빅데이터 엔진이다. 오픈소스 검색 엔진인 아파치 솔르(Apache Solr)도 마찬가지다. 블루스템은 고객을 대상으로, 또한 동시에 내부적으로 편집 워크플로에 이를 활용하고 있다.

여기에 더해 비즈니스 사용자가 추가 비즈니스 로직을 이용해 검색 환경을 맞춤화할 수 있는 루시드웍스 퓨전(Lucidworks Fusion) 같은 상용 제품도 사용한다. 이를 통해 IT의 관여 없이, 발렌타인데이와 관련된 쿼리를 적절히 추천으로 변환시켜 처리한다.

적절한 관리 전략, 도구, 인적자원이 있다면, AI를 성공시킬 확률을 크게 높일 수 있다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.