2017.01.24

'AI vs. 인간' 최후의 대결··· '텍사스 홀덤' 포커 승자는?

Thor Olavsrud | CIO
지난 수십년간 인공지능(AI) 연구자들은 여러 분야에서 세계적인 선수와 AI 간의 대결을 거듭했다. 이제 거의 최후의 대결까지 온 것 같다. 바로 포커의 한 종류인 헤드업 무제한 텍사스 홀덤(Heads-up No-limit Texas Hold'em)이다.



지난 1997년 IBM의 체스 컴퓨터 '딥 블루(Deep Blue)'는 세계 체스 챔피언 개리 카스파로프를 이겼다. 2011년에는 IBM '왓슨(Watson)'이 제퍼디(Jeopardy) 게임 역사상 최고의 승률을 기록한 켄 제닝스와 브래드 루트너를 넘어섰다. 2015년 구글 딥마인드(Google DeepMind)의 '알파고(AlphaGo)'는 세계 최고의 바둑 선수로 알려진 대한민국의 이세돌을 이겼다.

그러나 게임 진행에 있어서 헤드업 무제한 텍사스 홀덤은 완전히 다르다. 정보가 불완전한 게임으로 참가자는 게임 중 카드의 일부만 알 수 있고 블러핑(Bluffing)과 기타 전략을 이용해 상대방을 속일 수 있다. 카네기멜런대학(Carnegie Mellon University)의 컴퓨터 공학 전문가 토마스 샌드홀름에 따르면, 이 게임의 정보 집합 수는 우주의 모든 원자를 합친 것보다 많은 10의 161승개이다. 베팅과 레이즈(Raise)를 사전에 결정된 금액으로 제한하는 제한 홀덤의 정보 집합의 수도 10의 13승개나 된다.

그는 "게임의 규모가 정해진 상태에서 불완전 정보 게임은 완전 정보 게임보다 풀기가 어렵다. 완전 정보 게임은 기본적으로 분석이 가능하고 게임의 종반에는 보이는 것만으로 최선의 답을 얻을 수 있다. 하지만 불완전 정보 게임에서는 거의 마지막 순간에 에이스가 4개라 하더라도 공격적으로 배팅 할 수 없다. 동시에 패가 약하다고 배팅까지 약하게 해서는 안 된다. 그러면 상대방에게 간파 당한다"라고 말했다.

불완전과 허위에 능한 인간
실제로 인간은 항상 불완전한 허위 정보에 기초해 의사를 결정해야 하는 상황에 종종 맞닥뜨린다. 그리고 이런 정보만으로도 좋은 결정을 내리는 AI라면 협상, 금융, 군사 전략, 사이버 보안, 의료 등에 실질적으로 사용할 수 있다. 샌드홀름은 얼마 전 암과 자가면역 질환을 더 잘 치료하기 위해 AI를 이용해 면역체계의 적응과 진화를 조종하는 프로젝트를 위한 재정을 지원 받았다고 말했다.

하지만 이를 위해서는 AI가 불완전한 정보 게임을 해결하는 능력에 있어서 인간을 앞선다는 것을 증명해야 한다. 샌드홀름은 "이런 전략적인 상황에서 자신보다 멍청한 AI를 사용할 사람은 없을 것이다. 상황이 더 악화될 것이 뻔하기 때문이다. 나보다 못한 AI에게 협상을 맡기거나, 군사 전략과 사이버 보안을 맡기는 것도 불가능하다. 결국 인간보다 강력한 AI가 필요하다. 더 나은 전략을 구사할 수 있어야 한다"라고 말했다.

약 2년 전 샌드홀름과 함께 박사 과정을 밟던 노암 브라운은 AI '클라우디코(Claudico)'를 개발했다. 그는 이를 김동, 제이슨 레스, 뵨 리, 더그 폴크 등 세계적인 헤드업 무제한 텍사스 홀덤 선수와 대결시켰다. 2015년 4월 24일부터 5월 8일까지 각 선수와 10만 달러의 상금을 걸고 2만 판을 진행했다(마이크로소프트 리서치(Microsoft Research)와 리버스 카지노(Rivers Casino)가 자금을 댔다). 결국 폴크, 김, 리는 클라우디코보다 칩이 많았지만 레스는 패배했다.

절대적인 관점에서 보면 이 승부의 결과는 무승부일 수도 있다. 통계적으로 분석할 만큼 충분한 경기수를 확보하지 못했기 때문이다. 샌드홀름은 "인간 그룹이 승리한 것처럼 보이지만 통계적으로 유의미한 것은 아니었다. 결국 이 분야의 최고 고수를 상대했지만 통계적으로는 무승부라고 생각하지만, AI가 더 뛰어나다는 것을 증명하지는 못했다"라고 말했다.


인간의 승리(최소한 무승부)
샌드홀름과 브라운은 이를 개선하기 위해 처음부터 다시 시작했다. 2016년 새로운 포커 플레이 AI인 '타르타니안(Tartanian)'을 개발했다. 그리고 타르타니안의 '간소화' 버전인 '베이비 타르타니안(Baby Tartanian)'을 ACPC(Annual Computer Poker Competition)에 참가시켰다. 대회에서 메모리 제한이 있었기 때문에 '간소화'으로 참가했다. 그 결과 토탈 뱅크롤(Total Bankroll)과 뱅크롤 인스턴트 런오프(Bankroll Instant Run-off) 부문에서 우승했다.

이후 샌드홀름과 브라운은 AI와 최고의 헤드업 무제한 고수와의 2차 대결을 준비했다. 그 결과가 '리브라투스(Libratus)'이다. 다른 AI와 마찬가지로 리브라투스는 고정된 전략이 없으며 전략을 계산할 수 있는 알고리즘만 갖고 있다. 시간의 변화에 따라 가망이 없는 수를 확인해 무시하는 더 새롭고 빠른 '평형 탐색' 방법이 대표적이다. 또한 실시간 종반전 해결 연산을 수행하기 위해 PSC(Pittsburgh Supercomputing Center)의 브리지스(Bridges) 슈퍼컴퓨터와 연결했다.

그 결과가 현재 피츠버그의 리버스 카지노에서 진행중인 '두뇌 vs. 인공지능: 판돈을 올려라(Brains vs. Artificial Intelligence: Upping the Ante)'이다. 제이슨 레스, 김동, 다니엘 맥올레이, 지미 추 등의 프로 선수가 이번에는 20만 달러의 상금을 걸고 경쟁한다. 1월 11일에 시작된 이 대회는 20일 동안 치러지며 리브라투스를 상대로 총 12만 판을 진행한다. 이전 대회와 마찬가지로 이 대회도 운의 기여도를 최소화하기 위해 중복 일치법을 사용한다.

변수 감소
샌드홀름은 "우리는 컴퓨터 또는 인간의 운을 제한해 이 게임의 변동성을 줄였다. 우리는 선수들의 짝을 지어준다. 예를 들어, 제이슨 레스와 김동이 짝을 이루고 레스는 특정 판에 컴퓨터를 상대로 일련의 카드를 받게 되며 컴퓨터는 김을 상대로 동일한 카드를 받는 식으로 진행한다"라고 말했다. 또한 피로를 방지하기 위해 사람은 원하면 언제든지 휴식을 취할 수 있고 원하는 만큼 판을 진행할 수 있다.

샌드홀름은 "선수의 수면과 식사 등을 매우 신경쓰고 있다. 매우 전문적인 선수들과 경쟁하면서 처음보다 실력이 나아졌고 현재 대회를 진행하면서도 실력이 향상되고 있다"라고 말했다. 24일 오전 기준 리브라투스는 누적 금액으로 '인간' 선수보다 수십만 달러 앞서 있다. 리버스 카지노는 대회 기간 동안 경기 상황을 트위치(Twitch)를 통해 생중계한다. ciokr@idg.co.kr



2017.01.24

'AI vs. 인간' 최후의 대결··· '텍사스 홀덤' 포커 승자는?

Thor Olavsrud | CIO
지난 수십년간 인공지능(AI) 연구자들은 여러 분야에서 세계적인 선수와 AI 간의 대결을 거듭했다. 이제 거의 최후의 대결까지 온 것 같다. 바로 포커의 한 종류인 헤드업 무제한 텍사스 홀덤(Heads-up No-limit Texas Hold'em)이다.



지난 1997년 IBM의 체스 컴퓨터 '딥 블루(Deep Blue)'는 세계 체스 챔피언 개리 카스파로프를 이겼다. 2011년에는 IBM '왓슨(Watson)'이 제퍼디(Jeopardy) 게임 역사상 최고의 승률을 기록한 켄 제닝스와 브래드 루트너를 넘어섰다. 2015년 구글 딥마인드(Google DeepMind)의 '알파고(AlphaGo)'는 세계 최고의 바둑 선수로 알려진 대한민국의 이세돌을 이겼다.

그러나 게임 진행에 있어서 헤드업 무제한 텍사스 홀덤은 완전히 다르다. 정보가 불완전한 게임으로 참가자는 게임 중 카드의 일부만 알 수 있고 블러핑(Bluffing)과 기타 전략을 이용해 상대방을 속일 수 있다. 카네기멜런대학(Carnegie Mellon University)의 컴퓨터 공학 전문가 토마스 샌드홀름에 따르면, 이 게임의 정보 집합 수는 우주의 모든 원자를 합친 것보다 많은 10의 161승개이다. 베팅과 레이즈(Raise)를 사전에 결정된 금액으로 제한하는 제한 홀덤의 정보 집합의 수도 10의 13승개나 된다.

그는 "게임의 규모가 정해진 상태에서 불완전 정보 게임은 완전 정보 게임보다 풀기가 어렵다. 완전 정보 게임은 기본적으로 분석이 가능하고 게임의 종반에는 보이는 것만으로 최선의 답을 얻을 수 있다. 하지만 불완전 정보 게임에서는 거의 마지막 순간에 에이스가 4개라 하더라도 공격적으로 배팅 할 수 없다. 동시에 패가 약하다고 배팅까지 약하게 해서는 안 된다. 그러면 상대방에게 간파 당한다"라고 말했다.

불완전과 허위에 능한 인간
실제로 인간은 항상 불완전한 허위 정보에 기초해 의사를 결정해야 하는 상황에 종종 맞닥뜨린다. 그리고 이런 정보만으로도 좋은 결정을 내리는 AI라면 협상, 금융, 군사 전략, 사이버 보안, 의료 등에 실질적으로 사용할 수 있다. 샌드홀름은 얼마 전 암과 자가면역 질환을 더 잘 치료하기 위해 AI를 이용해 면역체계의 적응과 진화를 조종하는 프로젝트를 위한 재정을 지원 받았다고 말했다.

하지만 이를 위해서는 AI가 불완전한 정보 게임을 해결하는 능력에 있어서 인간을 앞선다는 것을 증명해야 한다. 샌드홀름은 "이런 전략적인 상황에서 자신보다 멍청한 AI를 사용할 사람은 없을 것이다. 상황이 더 악화될 것이 뻔하기 때문이다. 나보다 못한 AI에게 협상을 맡기거나, 군사 전략과 사이버 보안을 맡기는 것도 불가능하다. 결국 인간보다 강력한 AI가 필요하다. 더 나은 전략을 구사할 수 있어야 한다"라고 말했다.

약 2년 전 샌드홀름과 함께 박사 과정을 밟던 노암 브라운은 AI '클라우디코(Claudico)'를 개발했다. 그는 이를 김동, 제이슨 레스, 뵨 리, 더그 폴크 등 세계적인 헤드업 무제한 텍사스 홀덤 선수와 대결시켰다. 2015년 4월 24일부터 5월 8일까지 각 선수와 10만 달러의 상금을 걸고 2만 판을 진행했다(마이크로소프트 리서치(Microsoft Research)와 리버스 카지노(Rivers Casino)가 자금을 댔다). 결국 폴크, 김, 리는 클라우디코보다 칩이 많았지만 레스는 패배했다.

절대적인 관점에서 보면 이 승부의 결과는 무승부일 수도 있다. 통계적으로 분석할 만큼 충분한 경기수를 확보하지 못했기 때문이다. 샌드홀름은 "인간 그룹이 승리한 것처럼 보이지만 통계적으로 유의미한 것은 아니었다. 결국 이 분야의 최고 고수를 상대했지만 통계적으로는 무승부라고 생각하지만, AI가 더 뛰어나다는 것을 증명하지는 못했다"라고 말했다.


인간의 승리(최소한 무승부)
샌드홀름과 브라운은 이를 개선하기 위해 처음부터 다시 시작했다. 2016년 새로운 포커 플레이 AI인 '타르타니안(Tartanian)'을 개발했다. 그리고 타르타니안의 '간소화' 버전인 '베이비 타르타니안(Baby Tartanian)'을 ACPC(Annual Computer Poker Competition)에 참가시켰다. 대회에서 메모리 제한이 있었기 때문에 '간소화'으로 참가했다. 그 결과 토탈 뱅크롤(Total Bankroll)과 뱅크롤 인스턴트 런오프(Bankroll Instant Run-off) 부문에서 우승했다.

이후 샌드홀름과 브라운은 AI와 최고의 헤드업 무제한 고수와의 2차 대결을 준비했다. 그 결과가 '리브라투스(Libratus)'이다. 다른 AI와 마찬가지로 리브라투스는 고정된 전략이 없으며 전략을 계산할 수 있는 알고리즘만 갖고 있다. 시간의 변화에 따라 가망이 없는 수를 확인해 무시하는 더 새롭고 빠른 '평형 탐색' 방법이 대표적이다. 또한 실시간 종반전 해결 연산을 수행하기 위해 PSC(Pittsburgh Supercomputing Center)의 브리지스(Bridges) 슈퍼컴퓨터와 연결했다.

그 결과가 현재 피츠버그의 리버스 카지노에서 진행중인 '두뇌 vs. 인공지능: 판돈을 올려라(Brains vs. Artificial Intelligence: Upping the Ante)'이다. 제이슨 레스, 김동, 다니엘 맥올레이, 지미 추 등의 프로 선수가 이번에는 20만 달러의 상금을 걸고 경쟁한다. 1월 11일에 시작된 이 대회는 20일 동안 치러지며 리브라투스를 상대로 총 12만 판을 진행한다. 이전 대회와 마찬가지로 이 대회도 운의 기여도를 최소화하기 위해 중복 일치법을 사용한다.

변수 감소
샌드홀름은 "우리는 컴퓨터 또는 인간의 운을 제한해 이 게임의 변동성을 줄였다. 우리는 선수들의 짝을 지어준다. 예를 들어, 제이슨 레스와 김동이 짝을 이루고 레스는 특정 판에 컴퓨터를 상대로 일련의 카드를 받게 되며 컴퓨터는 김을 상대로 동일한 카드를 받는 식으로 진행한다"라고 말했다. 또한 피로를 방지하기 위해 사람은 원하면 언제든지 휴식을 취할 수 있고 원하는 만큼 판을 진행할 수 있다.

샌드홀름은 "선수의 수면과 식사 등을 매우 신경쓰고 있다. 매우 전문적인 선수들과 경쟁하면서 처음보다 실력이 나아졌고 현재 대회를 진행하면서도 실력이 향상되고 있다"라고 말했다. 24일 오전 기준 리브라투스는 누적 금액으로 '인간' 선수보다 수십만 달러 앞서 있다. 리버스 카지노는 대회 기간 동안 경기 상황을 트위치(Twitch)를 통해 생중계한다. ciokr@idg.co.kr

X