白话AI:德扑人机大战为什么人类还有赢的可能

2017年04月06日19:04 新浪体育 微博
小白该如何围观人机大战?

  柏林森,资深计算机行业从业者,深度围棋、德州扑克爱好者。此次以新浪棋牌特约评论员的身份和我们一起关注德州扑克人机大战。我们精选了一些小白问题(其实就是小编自己想不明白的)来请教柏老师,制作了《白话AI》的栏目。

  问:李开复说德州扑克人机大战人类胜率有10%,而围棋是零,你怎么看?

  答:我们假设真的有围棋之神和德扑之神。围棋之神能够所谓穷尽变化,那么你跟他下棋确实不可能赢。德扑之神判断、计算能力无可匹敌,他能从你的行为中读出你的手牌是对3,而他拿着对A。那么这手牌,德扑之神肯定是“All IN”的。但河牌是有可能发出一张3的,最后输的是德扑之神。

  围棋和德扑有本质上的区别,围棋是完全信息博弈,理论上有最优解。德扑是非完全信息,总是有概率的。德扑水平的较量要看长线收益,打得手牌越多,小概率事件所能造成的影响就越少。这次一共只打36000手,其实人取胜的概率比想象的大。

  可能要跟柯洁下人机大战的AlphaGo当然还不是围棋之神,但他距离围棋之神的距离肯定比人类棋手近很多,人类棋手跟他下的胜率会很低很低。不过,在数学上0%并不代表着不能发生,只是在有限的时间里你可能观察不到而已。所以一般这种事发生的时候,我们都称之为奇迹。

德扑人机大战直播画面
德扑人机大战直播画面

  问:听说冷扑大师没有用最近比较热的深度学习的技术?

  答:冷扑大师用到的是一种叫做CFR(Counterfactual Regret Minimization)的框架。在双人零和游戏(你赢的是我输的)里,理论上是都存在纳什均衡点的。这次人机大战的德州扑克单挑赛制就是这样,人类和机器的输赢相加和为零,双方的目的都是为了赢棋对手手里尽可能多的筹码。

  我们用最简单的剪刀石头布游戏举例。我们可以很容易的想到,如果我很均匀的按三种各1/3的概率出,那么无论对方怎么出,最后的结果肯定是胜平负各占1/3,而我不可能获得更差的结果。

  如果对手只出石头和剪子,在我1/3策略不变的前提下,我的胜率还是1/3。但一旦我读到了对手的策略,做出相应的改变,那么对手的胜率将会大幅下降。所以对手的最优策略也应该各出1/3,这样能够保证自己的胜率不会低于1/3。

  各出1/3就是剪刀石头布这个双人游戏里的纳什均衡点。我们可以把德州扑克理解为一个复杂了无数倍的石头剪刀布,而且是根据不同的牌面情况还是不同方式的剪刀石头布,冷扑大师就是要找出各个状态下不会输的策略。

  具体到某个牌手,机器会通过数据分析牌手的策略,寻找其中的可利用性,加以打击。这也是为什么上一次冷扑大师与外国牌手人机大战,前面差距不大,后面人类越输越多的原因。

  所以目前看来冷扑大师和深度学习暂时没什么太大关系。

能按照训练AlphaGo的方式训练小白么……
能按照训练AlphaGo的方式训练小白么……

  问:我如果有足够的高手牌谱,是不是能用深度学习训练出德扑AlphaGo来?

  答:不能。两者游戏的基本算法逻辑是有很大区别的。举个例子,两个高手打牌的各种操作,反馈到扑克游戏里,最后的结果可能并不一样,因为胜负是有概率的。而两位棋手按照固定的走法在棋盘上落子,最后的结果是肯定的,不是黑胜就是白胜。从这种意义上讲,AlphaGo使用的那种棋谱学习的模式,是无法复制到德州扑克里的。

  (文玄)

标签: 德州扑克人机大战德扑

相关阅读:

加载中,请稍候...

推荐阅读

加载中,请稍候...