德扑人机大战落幕:AI碾压人类高手 赢200万美金

2017年02月01日10:18 新浪体育 微博
今日凌晨产生的人机大战最终结果176万美元。

  来源:微信公众号:量子位

  经过20天的鏖战之后,四位顶级人类扑克高手,在这场德州扑克人机大战中,总共输给人工智能(AI)选手共计176.6万美元。四天之前,这个数字仅仅是106万美元。

  如果这场大战继续下去,也许人类高手们还要在匹兹堡的河流赌场输得更多。

  AI一路碾压人类高手

  怎么描述这20天令“人”精疲力尽的比赛?量子位觉得,还是先放一张图表吧。一图胜千言~

  这张图代表了从1月11日比赛开始,到1月30日比赛落幕,人工智能德州扑克选手Libratus的每日战绩。在整整二十天的时间里,Libratus没有一天以输钱告终:从第一天“仅仅”赢下7万美元,直到最后一天累积下200多万美元的优势。

  曲线清楚的告诉我们,整个比赛期间,人工智能至少有两天明显出现了状态下滑。然而人类选手们没有一次能够把胜利延续下去。

  整个比赛期间,Dong Kim都充满挫败感,而他已经是四位人类高手里面,对战成绩最好的那个。大约两年前,Kim曾在同一个赌场击败了这个人工智能的前身。在这场为期二十天的比赛刚刚过半之时,Kim就直言:人类已经没有真正获胜的机会。

  每一天,Libratus都会进步。人类选手很难找到它的漏洞。即便找到一个漏洞,第二天就会消失不见。上面的曲线也正说明了这一点。

  而且之前的最终战果也表明,四位人类高手里面,Dong Kim输得最少:总计8.5万美元;而Jason Les输的最多:88万美元。

  揭秘:复盘AI的德州扑克战术

  AI究竟是怎么打德州扑克的?来,我们复盘两局看一下。

  第一盘 人类赢了

  每一局都有200盲注。

  Kim这局是庄家,下注274。Libratus跟。首三张公共牌是:黑桃6,红桃5,黑桃4。机器下注274,Kim跟。第四张开出的公共牌是:红桃8。Libratus再次下注274,而Kim则直接下注3151。Libratus的选择是继续跟。

  最后一张公共牌是:黑桃9。这意味着,牌局有可能出现“同花”。电脑直接下注15000,再次把赌注翻番。Kim有点犹豫,但还是跟进开牌:他手上是个最高为9的顺子。而Libratus手上是一张黑桃8,和一张梅花8,显然刚才电脑是在诈唬。

  第二盘 AI赢了

  人类高手Jason Les当时以一对10开局,一张是方片,一张是红桃。翻牌之后,首三张公共牌是:K、9、4,其中有两张梅花。下注继续。在这种局面下,AI按理说应该希望再出一张梅花,凑成一个同花。

  第四张公共牌,发出一张5,不是梅花。当时,两边都已经看牌。最后一张公共牌,是一张Q,也不是梅花。然后,人工智能突然压上了所有的筹码。

  面对这个局面,Les选择不跟。人工智能赢下一手。

  与此同时,Les的拍档Dong Kyu也在一模一样的局面里,但是又有所不同。为了消除运气的影响,这次人工智能和人类玩家的对决,被安排成两对一模一样的牌局。区别是,在镜像局里人类玩家和人工智能手上拿到的牌,进行了对调。

  Kyu手上是梅花7和梅花3。这意味着,在主局里面对人工智能的疯狂押注,Les如果果断跟进的话,绝对是稳赢的一手牌。雪上加霜的是,在镜像局Libratus早早为手上的一对10下了重注,最后Kyu也选择不跟,放弃了这手牌。

  Libratus经常特别激进的下注,下注的额度远远超过底池里的额度。“其实人类并不这样,通常不会为了赢一点钱,冒着输掉很多钱的风险”,扑克高手Doug Polk说,“但人工智能没有这种心理,它只看怎么玩更好”。

  会打扑克的AI有什么用?

  Libratus在德州扑克人机大战中获得最终的胜利,是人工智能领域的巨大成就。玩扑克需要推理能力,而这对于机器来说很难模仿。虽然人工智能在跳棋、象棋乃至围棋比赛中,已经完胜人类对手,但无限注德州扑克是一个完全不同的情况。

  这是一场“不完美信息”游戏。

  由于一些卡牌并没有发出来,在德州扑克的对局里,任意时间,任何一个玩家,都只能观察到一部分的情况。要赢,他们需要直觉:一种猜测其他玩家手上是什么牌的能力。而且还要考虑到对手每一种可能的打法,想得到理想的战略非常困难。

  现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。在围棋界纵横无敌的AlphaGo,本质上处理的还是完美信息博弈,而AlphaGo无法处理德州扑克的问题,更遑论使出诈唬。

  未来Libratus这样的AI,可以用于商业谈判、网络安全、医疗方案制定等领域。

  去年,Libratus的创建者Sandholm曾经领导开发了一个打扑克的程序Claudico,但是在一场面对数位高手的比赛中被痛殴。Sandholm解释说,Libratus的水平提升基于几个技术进步,包括一个新的平衡近似技术,以及几种新的方法来分析可能的结果。

  人工智能发展的终极目标,是通用人工智能(AGI)。通用人工智能可以解决任何一个问题,而不是像Libratus或者AlphaGo这样只能专注于扑克或者围棋。想要实现AGI就得让人工智能学会解决不确定性问题,这也是此次人机大战的重大意义之一。

  在下面这段视频里,Libratus的两位创建者,详细解释了扑克人工智能的重大意义。

  人机大战背后的超级计算机

  每个牌局结束后的夜晚,匹兹堡超级计算中心的Bridges电脑执行计算,用以优化Libratus的策略。而在白天的比赛过程中,Bridges用于计算每一手的终结游戏策略。

  Libratus来自卡内基梅隆大学,而Bridges又是谁?

  Bridges不是当今世界最大、最快、最强劲的超级计算机。但它可能是面向公众开放的,最大、最快、最强劲的超级计算机。

  研究生物学、地质学、考古学、经济学和其他社会科学的科学家们,都可以得到Bridges的帮助。而此前,这些科学家通常没有机会利用超级计算机,来处理相关领域的大量数据。而这就是Bridges最大的意义所在。

  卡内基梅隆大学(还是这个大学,因为它就位于匹兹堡)的教授Jay Apt说,在Bridges的帮助下,原本在个人电脑上要耗时数月的计算,仅仅几个小时就搞定了。

  超级计算机本质上是几个计算机联网在一起,以一个整体进行运算。通常要使用2500个电缆连接组件,如果连在一起,可以绕地球……不是,大约是7.2公里。

  Bridges的机房有一个双锁的大门,需要用钥匙卡和访问码才能进入。Bridges由27个机架组成,每个大约1.8米高,堆叠的计算机共有三排。冷气从地泵吸入用以冷却。

  Bridges提供三种类型的计算选项,称为节点:常规、大型和超大型。常规内存节点具有128GB内存,大约是高端笔记本计算能力的8倍。常规节点共有800个。

  Libratus在600-700个节点上运行,这些节点的小子集在打牌时做出决定。而其余的工作则是改善Libratus,让这个人工智能程序可以玩得更好。

  最后看看这个赌场

  上面放了好多德州扑克人机大战的照片,但多是河流赌场的内景。其实这个赌场就位于一条河流的旁边,夕阳西下,华灯初上的时候,还挺漂亮。

  这张是赌场白天的全景。

  现在,这场赌局已经落下帷幕,AI的进步才刚刚开始。

  作者 :量子位 舒石

标签: 人工智能德州扑克大战

相关阅读:

加载中,请稍候...

推荐阅读

加载中,请稍候...