余小鲁,理论物理博士,人工智能专家。在美国多年,熟悉各种西方流行的扑克游戏。从数学、逻辑学、心理学等多方面系统研究扑克游戏模型,对扑克人工智能有独到见解。新浪扑克学院特邀讲师。
问:听说最近有为一些金融圈的朋友讲解德州扑克,他们最感兴趣的是哪方面?
答:哈哈,不能说是讲解,应该说是切磋吧,大陆民间的德州扑克高手太多了,可谓卧虎藏龙。金融圈和德州扑克有一种天然的联系,从华尔街的交易员转行去打德州扑克的有很多,从德州扑克转行去当交易员也有。最近有传言说女子德州扑克第一人Vanessa Selbst也准备进军华尔街(Vanessa Selbst,84年生,耶鲁法学院毕业,职业生涯锦标赛总奖金超过一千万美金)。
简单说,金融圈最感兴趣的就是风险。德州扑克对玩家的一个大的考验,就是要长期保持一种风险中性(risk neutral)的态度。举个例子,你面前有两种打法,一种是有20%的机会赢得五千个筹码,一种是有百分之百的机会赢得八百个筹码。大脑里面固有的风险偏好,让我们很难选择第一种打法。但恰恰在绝大多数的金融市场和德州牌桌上,要当长期的成功玩家,必须学会自然的选择第一种打法。再举个具体一点的例子,面对一个30bb的底池在河牌圈,你可以很自然的可以下注20bb做一个诈唬。但如果同样的牌同样的局面,底池有300bb,让你all in200bb做一个诈唬,很多人打了十年牌,觉得很荒唐很冒险,自己也很少尝试过,或者说尝试过一两次失败了,刻骨铭心,然后就放弃了这种打法。本质上说,就是大脑里面觉得输掉桌子上剩下的200bb筹码的痛苦程度,远远超过赢得底池300bb的快乐程度。金融市场和德州扑克都是要培养面对风险客观理性的态度。
问:冒昧的问一句,您觉得理论物理跟德州扑克有什么联系么?
答:没啥联系,哈哈,可能跟金融联系反而大了一点,华尔街里面一堆物理学博士。 理论物理的价值观是这样的,追求从第一性原理开始的分析推理,不做过多的假设,对任意一个新的假设都抱着怀疑的态度,千方百计去证伪。牛顿在其划时代巨著《自然哲学的数学原理》中说,“我不做假设(Hypotheses non fingo)”,呵呵,其实牛顿三定律和万有引力定律都是牛顿的假设,但这假设绝对的少,几乎完美解释了整个太阳系的运动。
您是围棋高手,我用围棋的例子吧。第一性原理对待围棋,就是从围棋的胜负规则和死活规则开始研究围棋,不是从布局理论定式来开始研究。布局理论定式这些威力非常的大,但不是第一性的,是从围棋的胜负规则和死活规则自然演绎出来的。围棋的第一性原理,就是气尽棋亡。直接的推论,就是气要不会尽,大多时候需要有两个眼。然后就开始研究如何容易有两个眼,如何围空效率高。中国古人的围棋理论非常高明,清代施襄夏的总决开篇第一句,起手据边隅,逸己攻人原在是。这个理论要解释围棋布局起手为什么是下在边角上,是因为自己容易活(逸),容易活的地方被你占了对手就不容易活,叫“逸己攻人”,过了三百年,现在巅峰造极的阿尔法围棋,依然是起手据边隅,这就是理论思考的力量。接下来第二句叫入腹争正面,制孤克敌验于斯。必须注意,这就不是第一性原理的直接推论了,所以开始模糊,理论开始变得“危险”。因为人为定义了一个概念叫“正面”,进入围棋中腹的正面究竟是哪一面?但这个理论依然威力非常强大,顶尖高手心中都有正逆向背的概念。但入腹争正面只能称之为一个假设,也许是一个非常好的假设。
理论物理的思维模式,就是先承认并且透彻研究第一性原理,对其他任何假设都抱着批判的态度。德州扑克的第一性原理可以这么表述:你看不到对方的底牌,对方也看不到你的底牌。听起来很白痴,但如果能透彻认识这一点,已经是德州扑克的高手了。因为这个第一性原理的直接推论,就是你必须承认对手的持牌是一个范围(Range,德州扑克最重要的一个概念),同时承认你的持牌也是一个范围(不只是你眼睛中看到的现在持有的两张底牌)。在美国很多学生跟我这么说,对手这把牌这么打,肯定手上拿着是AK,最后翻出来也是AK,学生很高兴。但这种思维方式非常危险,因为你不知不觉中做了一个很大胆的假设,就是你能读死对手的持牌,不再是个范围。理论物理的训练,主要是让我能克服种种关于德州扑克流行的假设,或者说种种“伪理论”的迷思,这应该也是我到目前战绩还不错的一个主要原因。当然,从纯粹理论物理的观点来讲,不能排除另一个可能,就是我在牌桌上一直运气都比较好。
问:余博士最近在研究德州扑克人工智能的事情,有什么特别的心得么?
答:我对这方面的长期关注,跟你对围棋人工智能的长期关注,可能心情上是差不多的。因为我自己是从事人工智能这个行业,可能关注得更多的人工智能的技术而不是德州扑克了,哈哈。这方面的内容,有兴趣的读者可以参考我在新浪最近的一个访谈。
问:从人工智能的角度,您觉得德扑AI想在类似MTT比赛中取得碾压人类的成绩,应该从哪方面入手?
答:这是一个理论性的难题,不是愿意投入多少个CPU,多少个计算机专家,就能从现在的冷扑程序改良得到的。因为冷扑面对的是单挑一对一德州扑克,其纳什均衡是可以求解,或者说平均每手牌距离博弈论最优解不到千分之一个大盲注,完美得吓人。但必须注意,再多一个玩家,三个玩家的德州扑克,数学上已经无法保证epsilon收敛到纳什均衡。对于多人多桌锦标赛,学术上要在冷扑这个思路上改良,做到能适合多种奖池结构多人游戏的博弈论分析,非常之困难。人类目前在多人多桌锦标赛上运用的数学理论本身就有很大问题,在目前阶段最多称之为模型,比如说流行ICM(Independent Chip Model)独立筹码模型,是非常粗糙的一级近似。但这恰恰是德州扑克锦标赛最有趣的地方。
问:好像不久前去参加了Tom Dwan的见面会,感受如何?
答:非常感谢新浪扑克学院的邀请,这次见面会让我很感动,哈哈。感动的不是tom的牌技,tom打牌看太多了,感动的是主办方包括新浪扑克学院的一系列安排。扑克俱乐部邀请tom dwan,相当于高尔夫俱乐部邀请泰格伍兹,斯诺克俱乐部邀请奥萨利文,是非常麻烦的事情。考验的是扑克学院运营的能力,这些远远比学德州扑克牌技难。活动的场地条件安排都非常优越,但我想这不是最重要的。重要的是来参加这次活动,喜欢德州扑克的玩家,很多都是来自各行各业里面的高手,这一次见面会让我认识了很多有趣的新朋友,非常的难得。以新浪扑克学院的资源背景种种条件,在大陆德州这个方兴未艾的阶段,大有作为,值得期待。
问:围棋的教学我很明白,但德州扑克究竟如何教?如何学?
答:那我用围棋的比喻来解释吧。教的话,最重要的是资格,或者说是对资格的信心。比如说你是新浪围棋7段,我觉得你最多能教新浪围棋6段的学生。假设说你的学生是新浪围棋8段,有个微妙的局面下他走错了,你看出来了跟他解释,因为微妙的局面下理由往往也比较微妙,他即使愿意相信你,他对你本身的棋力没有足够的信心,很容易动摇。这时候柯洁跟你学生把同样的理由用同样的话再解释了一遍,你学生就变得非常清晰。这就是教学的微妙之处。而且德州扑克的局面往往比围棋更加模糊更加微妙,如果老师本身的水平不能给学生足够的信心,很难起到教学的作用。所以我一向的宗旨就是,平常自己打报名费四百美金的比赛,最多就收打报名费两百美金比赛的学生。
对于如何学习德州扑克,我只有一个要求,就是纪律性,不是智商不是年龄不是任何其它因素。举个具体例子,比如我一直对学生有个硬性要求,就是永远不要讲自己被爆冷门(bad beat)的故事。但有些学生确实做不到这一点,闲聊的时候,听我讲课的时候,总会时不时说自己河牌被对手击中两个outers之类的事情。对于这些,我是零容忍的,当然每个老师都不一样。在我对德州扑克理解的体系中,任何时候都不能讲这些故事,因为这在潜意识里面对你牌技的长进有很大的负面影响。当然,要是你以后成为了非常成功的职业牌手,那时忆苦思甜,可以讲讲这些故事,关系不大,但在初学阶段,万万不可。这就是我最看重学生的一个品质,纪律性。能控制住不跟任何人讲述自己在德州扑克被爆冷门的故事,对我来说,这个学生就具备成为德州扑克高手的一切条件。
问:打扑克让你印象最深的一件事是?
答:可能每一个长期的德州扑克玩家,都各有各的“顿悟”瞬间。我自己印象最深的“顿悟”,不是在牌桌上悟到的,哈哈,而是在多年前学物理学的时候。大家可能都听说过布朗运动,就是花粉颗粒在水溶液中不停的做无规则运动。记得当年我学习布朗运动在数学上的理论,叫马尔可夫过程,简单的说,这种过程必须具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中与之前的历史无关。学到这里,我突然吓了一大跳,意识到德州扑克比赛就是一个马尔可夫过程,状态就是你桌子的筹码量。比如我桌子上现在有一万个筹码,是刚刚由五千个筹码翻倍赢来的,还是两万个筹码被别人一个bad beat输了一半剩下的,数学上是绝对无区别的,也就是说接下来我在这个比赛的成绩,只跟我现在有一万个筹码这个事实相关,跟我如何拥有这一万个筹码的历史无关。但对人来说,两者的区别是天上地下。人性虽然是不可以完全克服,但从这个时候起,就尽量让自己像水中的花粉,完全“无记忆”的打牌。
(白夜)
24小时滚动播报最新体育资讯、趣闻和视频,更多福利扫描二维码关注(sinasports)