2017.02.03

'포커'마저 정복··· AI, 불완전 정보의 신세계에 진입하다

Thor Olavsrud | CIO
인공 지능(AI, Artificial Intelligence)이 또 하나의 발걸음을 내디뎠다. 카네기 멜론 대학(CMU, Carnegie Mellon University)이 개발한 AI 리브라투스(Libratus)가 헤즈업 무제한 텍사스 홀덤 규칙으로 20일간 치러진 포커 게임에서 세계 최고의 플레이어 4인을 꺾으며 우승자로 등극했다.

20일 간 총 12만 판이 진행된 이번 이벤트에서 리브라투스는 총 176만 6,250 달러의 칩을 획득하며 프로 선수들을 꺾었다.

이벤트에 참가한 텍사스 홀덤 전문 플레이어 제이슨 레스는 31일 아침 진행된 언론 간담회에서 “리브라투스의 포커 실력은 놀라웠다. 개발진이 구축한 알고리즘은 우리보다 더 능숙하게 게임을 진행했다. 우리는 리브라투스가 전개하는 전략의 취약점을 찾아내려 노력했다. 평소 헤즈업 무제한 게임을 진행하며 활용해온 모든 시도를 해봤지만, AI의 힘은 너무도 강력했다”라고 평가했다.

전체 게임에서 레스는 리브라투스에 총 88만 87 달러 가치의 칩을 잃었으며, 참가한 또 다른 플레이어인 지미 초우(Jimmy Chou)의 경우 52만 2,857 달러의 손실을 입었다. 레스는 “이번 토너먼트는 내 생에 최대의 도전 중 하나였다”라고 이야기했다.

스코틀랜드 출신의 프로 플레이어로 이번 대전에서 리브라투스에 22만 7,657 달러의 손실을 기록한 다니엘 맥컬리(Daniel McAuley)는 “즐거운 승부였다. 그리고 우리는 확실히 패배했다”라고 말했다.

동 김(Dong Kim)은 리브라투스와 가장 치열한 승부를 벌인 선수로, 20일 간의 토너먼트에서 단 8만 5,649 달러의 칩만을 잃었다. 김은 리브라투스의 플레이에 대해 “포커 커뮤니티 내부에서도 눈에 띄는 실력이다”라고 평가했다.



AI의 두번째 도전
토너먼트는 ‘두뇌 vs. 인공 지능: 판돈을 올려라’라는 이름을 걸고 1월 11일-30일 총 20일 간 피츠버그 리버스 카지노에서 진행됐다. 이에 앞서 18개월 전에도 같은 카지노에서 인간 대 인공 지능의 제1회 포커 토너먼트가 진행된 바 있다.

당시에는 동 김, 제이슨 레스, 비요른 리(Bjorn Li), 도우 폴크(Doug Polk) 4 명의 프로가 CMU의 전세대 AI 클로디코(Claudico)를 상대했는데, 총 8만 게임이 진행된 토너먼트에서 레스를 제외한 폴크, 김, 리 세 선수가 클로디코보다 많은 칩을 획득해 승리를 거뒀다.

클로디코의 공동 개발자인 CMU 컴퓨터 과학과 투오마스 샌드홀름(Toumas Sandholm) 교수와 노암 브라운(Noam Brown) 박사는 당시의 토너먼트 결과가 통계적으로 무의미하다는 결론을 내린 바 있다. 클로디코와 인간 프로들 간의 경기 횟수가 충분하지 않았다는 것이다.

CIO닷컴과의 인터뷰에서 샌드홀름 교수는 “인간은 승리했다. 그들은 분명 클로디코를 이겼다. 하지만 우리는 그에 관해 통계적으로 유의미한 결과를 얻지 못했다. 명실상부한 일류 선수들과의 경기에서 클로디코는 통계적으로 대등한 수준의 역량을 보여줬다. 그러나 AI가 인간 지능에 비해 ‘더 나은’ 것은 분명히 아니었다”라고 이야기했다.

샌드홀름과 브라운은 이번 리브라투스의 대전에서는 경기 수를 늘려 결과의 통계적 유의도를 높이고자 했다. 이를 위해 브라운은 승리 조건을 게임 당 77마일 빅 블라인드(big blind)로 요청하기도 했다. 리브라투스의 성능 자체 역시 많은 진보가 있었다. 브라운의 분석 결과 리브라투스는 게임 당 147 마일 빅 블라인드로 승리를 거둔 것이 확인됐다.

샌드홀름은 “완벽하지 않은 정보를 이용해 논리적인 추론을 하는 역량 측면에서 AI가 인간을 마침내 월등히 뛰어넘었다”라고 말했다.

게임의 영역으로 들어선 AI
지난 수십 년 간 인공 지능은 다양한 게임 분야에서 인간에게 도전해왔다. 1997년에는 IBM의 체스 컴퓨터 딥 블루(Deep Blue)가 세계 체스 챔피언 게리 카스파로프(Garry Kasparov)를 꺾었고, 2011년에는 IBM 왓슨(Watson)이 제퍼디(Jeopardy) 퀴즈쇼의 최강자로 평가 받아온 켄 제닝스(Ken Jennings)와 브래드 루트너(Brad Ruttner)를 상대로 승리를 거뒀다. 그리고 2015년에는 바둑 세계 최고수 가운데 한 명인 한국의 이세돌이 구글 딥마인드(DeepMind)가 개발한 알파고(AlphaGo)에 패배하기도 했다.

그러나 헤즈업 무제한 텍사스 홀덤은 앞선 사례와는 큰 차이가 있다. 다른 게임들과 달리 이는 불완전한 정보에 의존하는 게임이다. 플레이어에게 노출되는 정보는 게임 카드 중 일부에 불과하며, 그밖에 블러핑 등 상대방을 속이는 전략 역시 다양하게 활용된다. 때문에 게임의 복잡도 역시 차원이 다르다. 게임이 구현하는 정보 세트는 10160(1에 0이 160개 붙는 숫자다) 건에 이르며, 각 세트는 턴을 맞은 플레이어의 선택에 의해 구현된다. 게임이 내제한 10160이라는 정보 세트의 수는 우주에 존재하는 원자보다도 훨씬 많은 규모다.

AI는 게임에 이용되는 모든 카드를 알지 못한 상태에서, 상대 플레이어의 블러핑까지 추측하며 게임에 임하게 된다.

리브라투스의 승리가 지니는 의미
CMU 컴퓨터 과학 대학의 컴퓨터 과학 학과장 프랭크 페닝은 31일 발표한 성명에서 “리브라투스의 승리는 AI 개발사에 새로운 지평을 열어줬다. 불완전한 정보, 그리고 인간의 혼란 유발이라는 걸림돌을 넘어 기능하는 AI가 탄생한 것이다. 이제 AI는 비즈니스 협상, 군사 전략, 사이버 보안, 의료 치료 등 다양한 영역으로 영향력을 넓혀나갈 것”이라고 이야기했다.

페닝 학과장은 또 “리브라투스가 승리할 수 있었던 배경에는 자신 역시 블러핑을 구사할 수 있었다는 사실이 있다. 허세를 부릴 수 있는 AI를 개발하는 일은 많은 과학적 노력을 필요로 하는 작업이었고, 또한 수많은 애플리케이션을 통해 구현이 가능했던 부분이다. 미래에는 주인을 위해 자동차 가격을 협상해주는 스마트폰 역시 등장할 것이다. 우리의 성과는 시작에 불과하다”라는 설명도 덧붙였다.

물론 리브라투스에 투입된 컴퓨팅 파워는 오늘날의 스마트폰과는 비교가 불가능한 규모다. 게임에 필요한 전략 계산을 위해 리브라투스는 피츠버그 슈퍼컴퓨팅 센터의 브릿지스(Bridges) 컴퓨터의 힘을 빌렸다. 계산 과정에서 리브라투스는 브릿지스의 컴퓨트 노드 846개 가운데 약 600개를 이용했다. 브릿지스의 총 속도는 하이엔드 랩탑의 7,250배 수준인 1.35 페타플롭이며, 메모리는 일반적인 노트북의 1만 7,500배 규모인 274 테라바이트다.

피츠버그 슈퍼컴퓨팅 센터(PSC, Pittsburgh Supercomputing Center)에서 국립 과학 재단 출자 브릿지스 시스템 수석 조사관 겸 선임 연구 디렉터를 역임하고 있는 닉 나이스트롬에 따르면 토너먼트 기간 동안 리브라투스는 약 1,900만 코어 시간의 컴퓨팅과 2,600TB 규모의 정보 지식 기반을 이용했다. 이는 브릿지스가 지닌 계산 기능의 46% 수준이다.

나이스트롬은 “브릿지스는 고성능 컴퓨팅과 인공 지능을 융합하는 목적으로 설계됐다. 리브라투스의 승리는 AI를 이용해 현실세계의 복잡한 문제들을 해결할 가능성을 보여준 중요한 분기점이다. 동시에 브릿지스에게는 이번 도전이 물리 과학, 생물학, 사회 과학, 비즈니스, 인류학 등 다양한 영역을 탐구할 잠재력을 증명해준 계기가 됐다. 앞으로 브릿지스의 용례를 발굴할 다양한 새로운 프로젝트를 제의해온다면 반갑게 검토할 것”이라고 이야기했다.

한편 리브라투스의 알골리즘은 브릿지스의 컴퓨트 파워를 이용해 자신이 지닌 약점을 파악, 자가 개선하는 작업을 병행했다.

샌드홀름은 “매일 플레이를 마친 후 리브라투스의 메타-알고리즘은 상대 플레이어에 의해 포착된 허점 분석한 뒤 그것을 다시 리브라투스의 전략에 적용하는 과정을 거쳤다. 알고리즘은 발견된 허점들의 우선순위를 메기고, 슈퍼컴퓨터를 이용해 이 가운데 상위 3개에 매일 밤 패치를 적용했다. 이러한 학습 전략은 기존의 포커에서는 전혀 사용되지 않던 방식이다. 일반적으로 연구자들이 개발하는 알고리즘은 상대방의 약점을 파악하는데 그 초점을 두고 있다. 이와 반대로 우리는 매일 자신이 지닌 허점을 일 단위로 개선하는 알고리즘을 운영했다”라고 설명했다.

이제 경기는 모두 끝났고, 샌드홀름은 리브라투스 AI가 지닌 모든 비밀을 공유해나갈 예정이다. 2월 4일-9일 샌프란시스코에서 진행될 ‘인공 지능 발전을 위한 협의회’에서의 강연을 시작으로, 각종 과학 컨퍼런스 및 매체에 기고될 공저 논문 등을 통해 샌드홀름의 연구와 비전을 접할 수 있을 것으로 관측된다.

샌드홀름은 향후 불완전 정보 게임 해결과 관련한 핵심 테크놀로지를 연구하고 이를 실제 세계의 문제에 적용할 방법을 지속적으로 연구해나갈 것이라는 계획을 밝혔다. 그가 설립한 협상 자동화 솔루션 업체 옵티마이즈드 마켓(Optimized Markets)의 결과물 역시 시장의 기대를 모으고 있다. ciokr@idg.co.kr



2017.02.03

'포커'마저 정복··· AI, 불완전 정보의 신세계에 진입하다

Thor Olavsrud | CIO
인공 지능(AI, Artificial Intelligence)이 또 하나의 발걸음을 내디뎠다. 카네기 멜론 대학(CMU, Carnegie Mellon University)이 개발한 AI 리브라투스(Libratus)가 헤즈업 무제한 텍사스 홀덤 규칙으로 20일간 치러진 포커 게임에서 세계 최고의 플레이어 4인을 꺾으며 우승자로 등극했다.

20일 간 총 12만 판이 진행된 이번 이벤트에서 리브라투스는 총 176만 6,250 달러의 칩을 획득하며 프로 선수들을 꺾었다.

이벤트에 참가한 텍사스 홀덤 전문 플레이어 제이슨 레스는 31일 아침 진행된 언론 간담회에서 “리브라투스의 포커 실력은 놀라웠다. 개발진이 구축한 알고리즘은 우리보다 더 능숙하게 게임을 진행했다. 우리는 리브라투스가 전개하는 전략의 취약점을 찾아내려 노력했다. 평소 헤즈업 무제한 게임을 진행하며 활용해온 모든 시도를 해봤지만, AI의 힘은 너무도 강력했다”라고 평가했다.

전체 게임에서 레스는 리브라투스에 총 88만 87 달러 가치의 칩을 잃었으며, 참가한 또 다른 플레이어인 지미 초우(Jimmy Chou)의 경우 52만 2,857 달러의 손실을 입었다. 레스는 “이번 토너먼트는 내 생에 최대의 도전 중 하나였다”라고 이야기했다.

스코틀랜드 출신의 프로 플레이어로 이번 대전에서 리브라투스에 22만 7,657 달러의 손실을 기록한 다니엘 맥컬리(Daniel McAuley)는 “즐거운 승부였다. 그리고 우리는 확실히 패배했다”라고 말했다.

동 김(Dong Kim)은 리브라투스와 가장 치열한 승부를 벌인 선수로, 20일 간의 토너먼트에서 단 8만 5,649 달러의 칩만을 잃었다. 김은 리브라투스의 플레이에 대해 “포커 커뮤니티 내부에서도 눈에 띄는 실력이다”라고 평가했다.



AI의 두번째 도전
토너먼트는 ‘두뇌 vs. 인공 지능: 판돈을 올려라’라는 이름을 걸고 1월 11일-30일 총 20일 간 피츠버그 리버스 카지노에서 진행됐다. 이에 앞서 18개월 전에도 같은 카지노에서 인간 대 인공 지능의 제1회 포커 토너먼트가 진행된 바 있다.

당시에는 동 김, 제이슨 레스, 비요른 리(Bjorn Li), 도우 폴크(Doug Polk) 4 명의 프로가 CMU의 전세대 AI 클로디코(Claudico)를 상대했는데, 총 8만 게임이 진행된 토너먼트에서 레스를 제외한 폴크, 김, 리 세 선수가 클로디코보다 많은 칩을 획득해 승리를 거뒀다.

클로디코의 공동 개발자인 CMU 컴퓨터 과학과 투오마스 샌드홀름(Toumas Sandholm) 교수와 노암 브라운(Noam Brown) 박사는 당시의 토너먼트 결과가 통계적으로 무의미하다는 결론을 내린 바 있다. 클로디코와 인간 프로들 간의 경기 횟수가 충분하지 않았다는 것이다.

CIO닷컴과의 인터뷰에서 샌드홀름 교수는 “인간은 승리했다. 그들은 분명 클로디코를 이겼다. 하지만 우리는 그에 관해 통계적으로 유의미한 결과를 얻지 못했다. 명실상부한 일류 선수들과의 경기에서 클로디코는 통계적으로 대등한 수준의 역량을 보여줬다. 그러나 AI가 인간 지능에 비해 ‘더 나은’ 것은 분명히 아니었다”라고 이야기했다.

샌드홀름과 브라운은 이번 리브라투스의 대전에서는 경기 수를 늘려 결과의 통계적 유의도를 높이고자 했다. 이를 위해 브라운은 승리 조건을 게임 당 77마일 빅 블라인드(big blind)로 요청하기도 했다. 리브라투스의 성능 자체 역시 많은 진보가 있었다. 브라운의 분석 결과 리브라투스는 게임 당 147 마일 빅 블라인드로 승리를 거둔 것이 확인됐다.

샌드홀름은 “완벽하지 않은 정보를 이용해 논리적인 추론을 하는 역량 측면에서 AI가 인간을 마침내 월등히 뛰어넘었다”라고 말했다.

게임의 영역으로 들어선 AI
지난 수십 년 간 인공 지능은 다양한 게임 분야에서 인간에게 도전해왔다. 1997년에는 IBM의 체스 컴퓨터 딥 블루(Deep Blue)가 세계 체스 챔피언 게리 카스파로프(Garry Kasparov)를 꺾었고, 2011년에는 IBM 왓슨(Watson)이 제퍼디(Jeopardy) 퀴즈쇼의 최강자로 평가 받아온 켄 제닝스(Ken Jennings)와 브래드 루트너(Brad Ruttner)를 상대로 승리를 거뒀다. 그리고 2015년에는 바둑 세계 최고수 가운데 한 명인 한국의 이세돌이 구글 딥마인드(DeepMind)가 개발한 알파고(AlphaGo)에 패배하기도 했다.

그러나 헤즈업 무제한 텍사스 홀덤은 앞선 사례와는 큰 차이가 있다. 다른 게임들과 달리 이는 불완전한 정보에 의존하는 게임이다. 플레이어에게 노출되는 정보는 게임 카드 중 일부에 불과하며, 그밖에 블러핑 등 상대방을 속이는 전략 역시 다양하게 활용된다. 때문에 게임의 복잡도 역시 차원이 다르다. 게임이 구현하는 정보 세트는 10160(1에 0이 160개 붙는 숫자다) 건에 이르며, 각 세트는 턴을 맞은 플레이어의 선택에 의해 구현된다. 게임이 내제한 10160이라는 정보 세트의 수는 우주에 존재하는 원자보다도 훨씬 많은 규모다.

AI는 게임에 이용되는 모든 카드를 알지 못한 상태에서, 상대 플레이어의 블러핑까지 추측하며 게임에 임하게 된다.

리브라투스의 승리가 지니는 의미
CMU 컴퓨터 과학 대학의 컴퓨터 과학 학과장 프랭크 페닝은 31일 발표한 성명에서 “리브라투스의 승리는 AI 개발사에 새로운 지평을 열어줬다. 불완전한 정보, 그리고 인간의 혼란 유발이라는 걸림돌을 넘어 기능하는 AI가 탄생한 것이다. 이제 AI는 비즈니스 협상, 군사 전략, 사이버 보안, 의료 치료 등 다양한 영역으로 영향력을 넓혀나갈 것”이라고 이야기했다.

페닝 학과장은 또 “리브라투스가 승리할 수 있었던 배경에는 자신 역시 블러핑을 구사할 수 있었다는 사실이 있다. 허세를 부릴 수 있는 AI를 개발하는 일은 많은 과학적 노력을 필요로 하는 작업이었고, 또한 수많은 애플리케이션을 통해 구현이 가능했던 부분이다. 미래에는 주인을 위해 자동차 가격을 협상해주는 스마트폰 역시 등장할 것이다. 우리의 성과는 시작에 불과하다”라는 설명도 덧붙였다.

물론 리브라투스에 투입된 컴퓨팅 파워는 오늘날의 스마트폰과는 비교가 불가능한 규모다. 게임에 필요한 전략 계산을 위해 리브라투스는 피츠버그 슈퍼컴퓨팅 센터의 브릿지스(Bridges) 컴퓨터의 힘을 빌렸다. 계산 과정에서 리브라투스는 브릿지스의 컴퓨트 노드 846개 가운데 약 600개를 이용했다. 브릿지스의 총 속도는 하이엔드 랩탑의 7,250배 수준인 1.35 페타플롭이며, 메모리는 일반적인 노트북의 1만 7,500배 규모인 274 테라바이트다.

피츠버그 슈퍼컴퓨팅 센터(PSC, Pittsburgh Supercomputing Center)에서 국립 과학 재단 출자 브릿지스 시스템 수석 조사관 겸 선임 연구 디렉터를 역임하고 있는 닉 나이스트롬에 따르면 토너먼트 기간 동안 리브라투스는 약 1,900만 코어 시간의 컴퓨팅과 2,600TB 규모의 정보 지식 기반을 이용했다. 이는 브릿지스가 지닌 계산 기능의 46% 수준이다.

나이스트롬은 “브릿지스는 고성능 컴퓨팅과 인공 지능을 융합하는 목적으로 설계됐다. 리브라투스의 승리는 AI를 이용해 현실세계의 복잡한 문제들을 해결할 가능성을 보여준 중요한 분기점이다. 동시에 브릿지스에게는 이번 도전이 물리 과학, 생물학, 사회 과학, 비즈니스, 인류학 등 다양한 영역을 탐구할 잠재력을 증명해준 계기가 됐다. 앞으로 브릿지스의 용례를 발굴할 다양한 새로운 프로젝트를 제의해온다면 반갑게 검토할 것”이라고 이야기했다.

한편 리브라투스의 알골리즘은 브릿지스의 컴퓨트 파워를 이용해 자신이 지닌 약점을 파악, 자가 개선하는 작업을 병행했다.

샌드홀름은 “매일 플레이를 마친 후 리브라투스의 메타-알고리즘은 상대 플레이어에 의해 포착된 허점 분석한 뒤 그것을 다시 리브라투스의 전략에 적용하는 과정을 거쳤다. 알고리즘은 발견된 허점들의 우선순위를 메기고, 슈퍼컴퓨터를 이용해 이 가운데 상위 3개에 매일 밤 패치를 적용했다. 이러한 학습 전략은 기존의 포커에서는 전혀 사용되지 않던 방식이다. 일반적으로 연구자들이 개발하는 알고리즘은 상대방의 약점을 파악하는데 그 초점을 두고 있다. 이와 반대로 우리는 매일 자신이 지닌 허점을 일 단위로 개선하는 알고리즘을 운영했다”라고 설명했다.

이제 경기는 모두 끝났고, 샌드홀름은 리브라투스 AI가 지닌 모든 비밀을 공유해나갈 예정이다. 2월 4일-9일 샌프란시스코에서 진행될 ‘인공 지능 발전을 위한 협의회’에서의 강연을 시작으로, 각종 과학 컨퍼런스 및 매체에 기고될 공저 논문 등을 통해 샌드홀름의 연구와 비전을 접할 수 있을 것으로 관측된다.

샌드홀름은 향후 불완전 정보 게임 해결과 관련한 핵심 테크놀로지를 연구하고 이를 실제 세계의 문제에 적용할 방법을 지속적으로 연구해나갈 것이라는 계획을 밝혔다. 그가 설립한 협상 자동화 솔루션 업체 옵티마이즈드 마켓(Optimized Markets)의 결과물 역시 시장의 기대를 모으고 있다. ciokr@idg.co.kr

X