AI
2019.07.17

윔블던 하이라이트 '자동 생성 AI'의 편향성을 제거한 방법

Scott Carey | Computerworld UK
IBM이 윔블던 테니스 대회 기간 동안 AI를 이용해 하이라이트 영상을 자동 생성해 보여주는 서비스를 제공하고 있는 것은 널리 알려져 있다. 여기에 사용하는 AI는 다양한 요소를 고려해 경기 중 가장 중요한 순간을 자동으로 골라 전세계 테니스 팬에게 공유한다.



당초 이 서비스는 윔블던과 IBM의 협업 30주년을 즈음해 시작됐다. 지난 2017년부터 하이라이트 영상에 최고의 순간을 찾아 추가하는 AI 시스템을 사용하고 있다. IBM의 스포츠와 엔터테인먼트 담당 임원 샘 스내든은 2019년 대회를 운영하는 기술 센터 투어 중 컴퓨터월드 UK와의 인터뷰에서 "전 세계 미디어 기업보다 더 훌륭한 하이라이트를 제공하는 것이 목표다"라고 말했다.

실제로 IBM은 매초 선수의 움직임을 추적해 데이터화한 후 머신러닝과 딥러닝 알고리즘에 추가한다. 노박 조코비치와 로저 패더러의 5시간에 걸친 남자부 결승이나 시모나 할렙이 신속하게 세레나 윌리엄스 제압한 여자부 결승 모두 이런 과정을 거쳤다. 그 결과 5~10분 분량으로 중요한 장면만 모은 하이라이트 영상이 만들어진다.

이때 왓슨 시스템은 선수의 몸짓과 관중의 반응, 실시간 선수의 위치와  등 39개 요소를 고려해 분석한 후 '자극 점수(excitement score)'를 계산한다. 이러한 연산을 위해 수집하는 데이터 포인트가 토너먼트 당 450만 개에 달한다. 이후 모아진 정보를 포함해 미디어 기업과 공유하거나 윔블던 자체 디지털 채널을 통해 서비스한다. 이렇게 만들어진 하이라이트 동영상은 2017년 기준 250여개 였고 총 1400만 회 재생됐다. 전년 대비 252% 늘어난 수치다.

IBM의 스포츠 CTO 스테판 해머는 컴퓨터월드 UK와의 이메일 인터뷰에서 "2019년에는 경기시간, 경기코트 등 다양한 요소를 추가로 고려해 더 정교하게 장면을 선택한다"라고 말했다.

이번 대회의 가장 큰 변화는 알고리즘 인사이트 툴 왓슨 오픈스케일(Watson OpenScale)을 도입한 것이다. 트레이닝 데이터의 편견을 없애기 위한 작업이다. IBM은 2018년 테니스 경기 영상 600개을 이용해 시스템을 학습시킨 후 이를 오픈스케일에 넣기 전에 수작업으로 지명도의 순위를 매겼다.

구체적인 작업 내용은 최근 공개된 블로그에서 확인할 수 있다. 이 글에서 IBM의 유명 엔지니어 애런 버만와 그의 동료는 "편견을 없애는 디바이어스 파이썬 애플리케이션을 IBM 클라우드 기반의 클라우드 파운드리(Cloud Foundry) 애플리케이션으로 개발해 사용했다. 이 애플리케이션은 클라우던트(Cloudant) 컨텍스트 큐의 기록을 조사해 의도하지 않은 편향성을 제거하고 잠재적인 비윤리적인 자극 수준을 조정한다. 실시간 대규모로 디바이어스 기능을 사용할 수 있도록 4개 인스턴스로 확장해 운영했다"라고 말했다.

그들이 AI의 편견을 줄이기 위해 작업한 내용을 간단히 정리하면 2가지 변수를 측정해 반영한 것이었다. 바로 선수의 평균 순위와 실제 경기가 진행되는 테니스 코트 번호다. 해머는 "중앙 코트에서 만드는 영상의 음성과 동작 속성은 14번 코트에서 진행된 것과 큰 차이가 있다. 이런 조정을 거친 결과 하이라이트 영상에서 정확성이 개선되고 더 좋은 영상을 선정할 수 있게 됐다"라고 말했다.

예를 들어 7월 4일 외부 코트에서 경기 중인 선수가 하이라이트에 포함되지 않을 위험이 있다면 이를 보정한다. 마찬가지로 모든 선수가 감정을 드러내는 방식이 다르므로, 코트에서 격렬하게 감정적 반응을 보이지 않았다고 해서 그것이 곧 하이라이트에 넣을 가치가 없다는 것을 의미하지는 않는다. 그는 "일부 선수가 더 감정 표현이 풍부한 것이 사실이다. 또 일부 선수는 특히 관중의 주목을 받는다. 이런 차이 때문에 우리는 관중 함성이나 선수 몸짓 같은 개별 지수 하나하나에 초점을 맞추지 않는다. 대신 여러가지 다양한 입력값을 고려해 각 테니스 경기 장면에 대한 전체적인 점수를 계산한다"라고 말했다.

바맨의 블로그에 더 상세한 내용이 나와 있다. 이에 따르면, AI의 잠재적인 선입견을 없애기 위해 파이썬 애플리케이션이 훈련된 서포트 벡터 머신(Support Vector Machine)을 적용해 전체적인 맥락의 자극 점수를 만든다. 이 벡터 머신은 왓슨 머신러닝에 적용된 것이기도 하다. 계산된 각 점수는 오픈스케일로 전송돼 지속적으로 선입견 여부를 검사하고 조정한다. 이러한 디바이어스 과정을 통해 앞으로 사용할 새 디바이어스 모델을 훈련한다. 이렇게 새로 훈련된 모델은 다시 '기존에 수집된' 속성 값에 대한 선입견에서 더 자유로워진다.

바맨은 "오랫동안 낮은 수준의 경기의 자극 점수로 매겨진 선수는 선수 순위에 기반한 선입견을 제거하기 위해 약간 가중치를 뒀다. 또한 더 낮은 순위의 선수의 경기 하이라이트에는 순위가 높은 선수를 포함시켜 그룹 단위로 일정한 점수대를 유지하도록 했다"라고 말했다. 또한 IBM은 일명 '데이터 인티그리티 팀(data integrity team)'이라 불리는 소수의 전문가팀도 구성했다. 이들은 대회 기간동안 통계 분석에 사용된 수치를 수작업으로 한번 더 검증한다. 이 프로젝트에 대한 더 자세한 내용은 IBM 블로그에서 확인할 수 있다. ciokr@idg.co.kr



AI
2019.07.17

윔블던 하이라이트 '자동 생성 AI'의 편향성을 제거한 방법

Scott Carey | Computerworld UK
IBM이 윔블던 테니스 대회 기간 동안 AI를 이용해 하이라이트 영상을 자동 생성해 보여주는 서비스를 제공하고 있는 것은 널리 알려져 있다. 여기에 사용하는 AI는 다양한 요소를 고려해 경기 중 가장 중요한 순간을 자동으로 골라 전세계 테니스 팬에게 공유한다.



당초 이 서비스는 윔블던과 IBM의 협업 30주년을 즈음해 시작됐다. 지난 2017년부터 하이라이트 영상에 최고의 순간을 찾아 추가하는 AI 시스템을 사용하고 있다. IBM의 스포츠와 엔터테인먼트 담당 임원 샘 스내든은 2019년 대회를 운영하는 기술 센터 투어 중 컴퓨터월드 UK와의 인터뷰에서 "전 세계 미디어 기업보다 더 훌륭한 하이라이트를 제공하는 것이 목표다"라고 말했다.

실제로 IBM은 매초 선수의 움직임을 추적해 데이터화한 후 머신러닝과 딥러닝 알고리즘에 추가한다. 노박 조코비치와 로저 패더러의 5시간에 걸친 남자부 결승이나 시모나 할렙이 신속하게 세레나 윌리엄스 제압한 여자부 결승 모두 이런 과정을 거쳤다. 그 결과 5~10분 분량으로 중요한 장면만 모은 하이라이트 영상이 만들어진다.

이때 왓슨 시스템은 선수의 몸짓과 관중의 반응, 실시간 선수의 위치와  등 39개 요소를 고려해 분석한 후 '자극 점수(excitement score)'를 계산한다. 이러한 연산을 위해 수집하는 데이터 포인트가 토너먼트 당 450만 개에 달한다. 이후 모아진 정보를 포함해 미디어 기업과 공유하거나 윔블던 자체 디지털 채널을 통해 서비스한다. 이렇게 만들어진 하이라이트 동영상은 2017년 기준 250여개 였고 총 1400만 회 재생됐다. 전년 대비 252% 늘어난 수치다.

IBM의 스포츠 CTO 스테판 해머는 컴퓨터월드 UK와의 이메일 인터뷰에서 "2019년에는 경기시간, 경기코트 등 다양한 요소를 추가로 고려해 더 정교하게 장면을 선택한다"라고 말했다.

이번 대회의 가장 큰 변화는 알고리즘 인사이트 툴 왓슨 오픈스케일(Watson OpenScale)을 도입한 것이다. 트레이닝 데이터의 편견을 없애기 위한 작업이다. IBM은 2018년 테니스 경기 영상 600개을 이용해 시스템을 학습시킨 후 이를 오픈스케일에 넣기 전에 수작업으로 지명도의 순위를 매겼다.

구체적인 작업 내용은 최근 공개된 블로그에서 확인할 수 있다. 이 글에서 IBM의 유명 엔지니어 애런 버만와 그의 동료는 "편견을 없애는 디바이어스 파이썬 애플리케이션을 IBM 클라우드 기반의 클라우드 파운드리(Cloud Foundry) 애플리케이션으로 개발해 사용했다. 이 애플리케이션은 클라우던트(Cloudant) 컨텍스트 큐의 기록을 조사해 의도하지 않은 편향성을 제거하고 잠재적인 비윤리적인 자극 수준을 조정한다. 실시간 대규모로 디바이어스 기능을 사용할 수 있도록 4개 인스턴스로 확장해 운영했다"라고 말했다.

그들이 AI의 편견을 줄이기 위해 작업한 내용을 간단히 정리하면 2가지 변수를 측정해 반영한 것이었다. 바로 선수의 평균 순위와 실제 경기가 진행되는 테니스 코트 번호다. 해머는 "중앙 코트에서 만드는 영상의 음성과 동작 속성은 14번 코트에서 진행된 것과 큰 차이가 있다. 이런 조정을 거친 결과 하이라이트 영상에서 정확성이 개선되고 더 좋은 영상을 선정할 수 있게 됐다"라고 말했다.

예를 들어 7월 4일 외부 코트에서 경기 중인 선수가 하이라이트에 포함되지 않을 위험이 있다면 이를 보정한다. 마찬가지로 모든 선수가 감정을 드러내는 방식이 다르므로, 코트에서 격렬하게 감정적 반응을 보이지 않았다고 해서 그것이 곧 하이라이트에 넣을 가치가 없다는 것을 의미하지는 않는다. 그는 "일부 선수가 더 감정 표현이 풍부한 것이 사실이다. 또 일부 선수는 특히 관중의 주목을 받는다. 이런 차이 때문에 우리는 관중 함성이나 선수 몸짓 같은 개별 지수 하나하나에 초점을 맞추지 않는다. 대신 여러가지 다양한 입력값을 고려해 각 테니스 경기 장면에 대한 전체적인 점수를 계산한다"라고 말했다.

바맨의 블로그에 더 상세한 내용이 나와 있다. 이에 따르면, AI의 잠재적인 선입견을 없애기 위해 파이썬 애플리케이션이 훈련된 서포트 벡터 머신(Support Vector Machine)을 적용해 전체적인 맥락의 자극 점수를 만든다. 이 벡터 머신은 왓슨 머신러닝에 적용된 것이기도 하다. 계산된 각 점수는 오픈스케일로 전송돼 지속적으로 선입견 여부를 검사하고 조정한다. 이러한 디바이어스 과정을 통해 앞으로 사용할 새 디바이어스 모델을 훈련한다. 이렇게 새로 훈련된 모델은 다시 '기존에 수집된' 속성 값에 대한 선입견에서 더 자유로워진다.

바맨은 "오랫동안 낮은 수준의 경기의 자극 점수로 매겨진 선수는 선수 순위에 기반한 선입견을 제거하기 위해 약간 가중치를 뒀다. 또한 더 낮은 순위의 선수의 경기 하이라이트에는 순위가 높은 선수를 포함시켜 그룹 단위로 일정한 점수대를 유지하도록 했다"라고 말했다. 또한 IBM은 일명 '데이터 인티그리티 팀(data integrity team)'이라 불리는 소수의 전문가팀도 구성했다. 이들은 대회 기간동안 통계 분석에 사용된 수치를 수작업으로 한번 더 검증한다. 이 프로젝트에 대한 더 자세한 내용은 IBM 블로그에서 확인할 수 있다. ciokr@idg.co.kr

X