作者:余小鲁
作者系理论物理博士,人工智能专家。新浪扑克学院特邀讲师
Sunday, 31 December 2017
不只是一个纸牌游戏——德州扑克AI的意义
和谷歌研究围棋AI一样,卡内基梅隆大学研究德州扑克AI,也是“志不在此”。因为德州扑克中存在很多和社会生活类似的普遍难题,此研究才有根本重要的意义。
德州扑克AI的里程碑——Libratus(冷扑)
Libratus是“balanced”的拉丁文,意为均衡(大陆翻译为冷扑。这个翻译非常的妙,读音相近,而且这个AI打德州扑克非常冷,是冷血的极致,下文再细解。)。balanced是德州扑克网络革命这十年来最热的一个概念,根源于数学的博弈论。我们在此不用数学公式,试图用大白话先来解说这个概念。
剪刀石头布的游戏,如何玩才能保持不败呢?比如说我随机的50%出剪刀,30%出石头,20%出布,你如何打败我?随机性并不难懂,比如我们可以看自己的手表,秒针超过六点出剪刀,不到二点二分出布,其余出石头。稍微思考一会就知道,你应该永远出石头,也就是说一百次你会平均赢50次,平手30次,输了20次。统计上,我就被你打败了,直观上讲我的游戏策略不是均衡的(balanced)。那么我稍微改进一下,我随机的1/3出剪刀,1/3出石头,1/3出布,这个策略是不可被打败的,可以称为博弈论最优解(GTO)。再细想一下,这个策略虽然不可以被打败,但是对手无论用什么策略我都结果一样,不会获胜也不会失利,也就是说我的策略使得可以不再关心对手用何种策略(indifference threshold)。德州扑克的游戏结构比剪刀石头布复杂得多,但核心概念是类似的。冷扑之所以能冷,能获胜,就是找到了每一种局面下可以采取某种特定策略使得可以不再关心对手采用何种策略,简单的说,就是有效避免了德州扑克里面猜来猜去的怪区。最大的不同在于,剪刀石头布的博弈论最优解的期望值是零。德州扑克里面很多局面下最优解的期望值是正数,这就是冷扑打败人类牌手的数学基本出发点。
Libratus(冷扑)和人类牌手的比较
德州扑克的理论
何谓理论?抽象的说,就是人为构造一套概念框架,在这个框架里面进行逻辑演绎来理解事物。举个围棋的例子,我们人为的构造了一个叫“厚势”的概念。人为构造的概念往往有一定的模糊性,厚势或者可以先定义为铁活或者不容易受到攻击且对中腹有影响的一些棋子组合。进一步的逻辑演绎,中国古人形成了一个理论叫“勿近厚势”。对方的厚势不要去靠近,甚至自己的厚势也不要去靠近,都会影响棋子的效率。粗粗看起来,这样的“理论”很有道理,很有说服力,像讲故事一样,我们称之为“故事理论”。
计算机人工智能不适合这样的故事理论。无论是阿尔法围棋,还是冷扑,都不是使用这种理论。但几乎所有的德州扑克培训班,教学视频,经典技术书籍,教的都是这样的故事理论。比如说,转牌拿一个顶对弱踢脚(top pair weak kicker)过牌控制彩池,不要跟石头(nit)的加注,等等。大多数故事理论都有两面性,就是这个故事经常可以反过来讲,让你无从选择正确的决策。比如你的对手刚刚输掉两个大彩池,你准备现在给他一个大的诈唬(bluff),你的理论依据是这样的一个故事:他刚输掉两个大彩池,现在有点手软,不敢持边缘牌跟注,所以我的诈唬是好的。但这个故事理论也可以这么讲述:他刚输掉两个大彩池,现在有点上头(tilting),千万不要去诈唬他。
那么人工智能冷扑用的究竟是何种理论?前面的剪刀石头布游戏已经可以看出一点端倪,但真实完整的无限注德州扑克太过复杂,我们可以用个迷你版的德州扑克来代替。现在只有两个玩家,小盲注0.5个筹码,大盲注1个筹码,每个玩家桌子上总共有十个筹码。小盲注先做决定,这个游戏设定只给他两个选项:全下或者弃牌。那么冷扑的理论是什么呢?或者说人工智能是要求解什么东西?
第一,冷扑求解出来小盲注持什么牌需要弃牌,什么牌需要全下。
第二,冷扑求解出来大盲注持什么牌需要弃牌,什么牌需要跟注。
第三,以上一二两点称为这个游戏的策略,必须证明这个策略为什么是最优解,不能变动。
第四,这个游戏是对小盲注有利,还是对大盲注有利?这个利益如何量化,精确计算得到?
大家可以看到,即使是这样一个迷你版的德州扑克,比真实德州扑克简化了不知道多少,要使用这种理论精确求解,依然非常之复杂。这也就是我们大家学习德州扑克,学的都是“故事理论”,而不是冷扑这样的“数学理论”。阿尔法围棋最新推出了一个教学工具,对棋届可以说功德无量。但阿尔法的“教学”,不是一个“故事理论”,当代职业顶尖棋手要当阿尔法的学生,必须从阿尔法的“教学”给出来的棋路中,自己重新讲个故事给自己听,形成一个新的故事理论,才能吸收到阿尔法围棋的精髓。冷扑的牌路给我们的启示也是类似的,每一个顶尖牌手,只能成为一个编剧,把冷扑的打法讲成一个自己能够理解的故事,从中不断试错和深造。
德州扑克的浩瀚版图
我们通常说的德州扑克,都指的是无限注德州扑克。印证了德扑教父道尔布兰森在其名著《超级系统》中的话:无限注德州扑克是扑克中的凯迪拉克。
无限注德州扑克的比赛形式非常繁多,目前比较主流的智力竞技模式有两种,即时锦标赛(SNG)和常规锦标赛(MTT)。每一桌子的人数有2人,6人,9人,10人多种格式。。再加上盲注抽水(ante)的增长快慢,总彩池的大小,奖金分布结构,诸多因素的组合,可以说德州扑克的常见比赛形式不下百种。而冷扑只擅长里面唯一一种游戏结构,就是单挑(又称一对一,heads up)形式的无限注德州扑克。即使有超级计算资源,其基于博弈论的算法要推广到以上所说的种种比赛形式,还有非常漫长的路要走。冷扑对德州扑克的冲击力,远远不如Alpha Go对围棋的冲击力,其根本原因就在于此。
补注:
1。 卡内基梅隆的Noam Brown博士,也是冷扑的主要创造者之一,认为未来两年下一代的AI有可能战胜六人桌,作者表示存疑,让我们一起拭目以待。
2。 对于有兴趣深入了解冷扑算法的读者,可以参考2017年12月17日在美国《科学》 上发表的论文 Superhuman AI for heads-up no-limit poker: Libratus beats top professionals。
24小时滚动播报最新体育资讯、趣闻和视频,更多福利扫描二维码关注(sinasports)