围棋国象德州扑克人工智能VS最强大脑简史

2017年02月09日09:41 中关村在线微博

　　（中关村在线原创）去年底今年初，一个名为Master的神秘围棋大师在网络围棋对战平台掀起了血雨腥风，通过在线超快棋的方式，以60胜0负的战绩震惊天下，在第59盘和60盘的局间，突然宣布自己就是AlphaGo。最近这个月，经过一番鏖战，德州扑克这个人类的专长领域人又败下阵来。今天我们就借助选题来回顾一下人类智力的巅峰与人工智能对弈的失败历史。

　　人工智能由来

　　人工智能这个词来自英文Artificial Intelligence，简称AI。从计算机诞生的那一刻起，人们就在讨论未来会带来哪些变革。但在过去，人工智能受限于硬件本身不够优秀，计算能力不足，不过在摩尔定律的推动下，现在运行人工智能的系统往往都是非常庞大的计算机集群。比如今天非常热的机器学习，其实概念上世纪90年代就已经提出了，但是受限的是计算机的计算能力。

　　机器是疑犯追踪里面的主角

　　西部世界不仅仅有机器人AI，还有3D打印

　　无论是小说还是电影、电视剧，都有很多人工智能的影子。笔者本人非常喜欢的美剧疑犯追踪（Person of the Interest）、西部世界（West World）里面都有人工智能的影子。当然那都是基于幻想的作品，而非已经实现的系统。

　　深度神经网络判断车型的过程，模仿大脑的多神经元

　　之前笔者写过文章，由于CPU和GPU的分家，让数量更多、速度不太快的核心来模仿大脑神经的系统是今天热门的研究方向，这种神经网络在机器学习等领域用的很多。测试一个超级系统的成功与否，显然是挑战真正的顶级人类智慧。

　　IBM深蓝VS卡斯帕罗夫

　　写个国际象棋程序是很早以前的计算机就能实现的功能，但是程序的棋力往往不是人的对手。对于这方面的研究很多。而最出名的则是1996年的IBM的深蓝与卡斯帕罗夫的对弈。

　　居中剪裁者即谭崇仁先生，图片来自哈尔滨工业大学官网

　　深蓝计划源自许峰雄在美国卡内基·梅隆大学修读博士学位时的研究，第一台电脑名为“晶体测试”，在州象棋比赛中获得了名次，后来该又研制了另一台电脑“沉思”（Deep Thought，该名源自于《银河系漫游指南》中的一台超级电脑），芯片工艺是3微米。许峰雄在1989年加入IBM研究部门，并继续超级电脑的研究工作，当时他与Murray Campbell主力研究平行运算问题。1992年，IBM委任谭崇仁（现任香港大学电子商业科技研究所所长）为超级电脑研究计划主管，领导研究小组开发专门用以分析国际象棋的深蓝超级电脑。

　　博物馆中的深蓝：运行于IBM RS6000 SP的系统上

　　深蓝的名字源自其雏型电脑“沉思”（Deep Thought）及IBM的昵称“巨蓝”（Big Blue），由两个名字合并而成。深蓝的程序运行于IBM著名的RS6000系统上，使用C语言编写，运行系统为AIX，深蓝的关键是有480个专门为国际象棋优化的VLSI芯片。深蓝每秒钟能计算2亿步，可以搜索到12步棋之后的发展，而人类的顶尖棋手是10步左右。

　　卡斯帕罗夫与深蓝对弈当中

　　不过历史上首次著名的人机大战，却是深蓝以2-4败北。随后IBM改进了系统，推出了更深的兰，才侥幸3.5-2.5击败卡斯帕罗夫。不过IBM很快就拆了机器送进了博物馆，卡斯帕罗夫想再战也无门了。由于国际象棋本身的变化不多，今天的电脑快太多了，所以击败国际特级大师的系统很多，顶尖高手用软件来进行训练是普遍的现象。

　　谷歌AlphaGoVS全世界围棋高手

　　Deepmind在发表《自然》杂志的封面论文《通过神经网络与搜索树掌握围棋》（Masterting the game of Go with deep neural networks and tree search），这篇论文公开发表的时间是去年一月，在论文当中，这个谷歌收购的人工智能团队说自己的程序通过走子网络、策略网络与蒙特卡洛搜索树算法的集合，已经基本解决了围棋这个过去认为难以逾越的智力游戏，并且5：0战胜了欧洲围棋冠军樊辉。

　　Deepmind团队登上顶级学术杂志《自然》封面的论文

　　围棋一直被认为是智力游戏当中最难以用计算机来实现的。国际象棋、象棋的棋子少，不同棋子走的方式固定，所以今天的超级系统穷举也不是问题。但围棋不同，围棋的棋盘是19X19，有361个落子点，所以穷举的方式是不可能的，这也是为何围棋成为最后被计算机攻克的项目。数学上，中国象棋和国际象棋的空间复杂程度大约是10的48次幂，而围棋是10的172次幂，而围棋还有打劫的手段可以反复提子，所以事实上要更复杂。

　　去年三月的人机大战，上台正中是第一个被AlphaGo击败的欧洲冠军樊辉，与李世石对弈的是Aja Huang博士

　　谷歌随后宣布了围棋程序AlphaGo将于世界冠军李世石对战的消息。去年的人机大战吸引了无数的关注，最终以4：1战胜了李世石九段。除了获胜的第四盘，很多人认为李世石发挥的不好、机器不打劫等等阴谋论一直甚嚣尘上，而Deepmind团队的响应也不是特别多。直到去年底，Deepmind团队宣布要进行更多的对弈。

　　连战连胜的神秘高手Master最终宣布就是AlphaGo

　　开心的小李：至少哥赢过AlphaGo一盘，你们都没赢

　　于是就有了文章开始的那一幕，一个名为Master的高手横空出世，只在对战平台上与职业棋手下超快棋，并且保持了60胜0负的骄人战绩。随着60盘的落幕，Deepmind的黄博士也希望棋迷能享受这60盘棋。

　　谷歌创始人谢尔盖布林、CEO皮柴去年造访中国棋院，图片来自微博谷歌黑板报

　　最新的消息是中国棋院与谷歌方面有了接触，棋迷和电脑迷有望看到柯洁与最新版本AlphaGo的慢棋比赛。

　　Libratus VS人类

　　棋类的竞技项目，是信息全公开的。以围棋为例，第一个子落下之后，棋盘还剩下360个点可以选择，依次类推。但是有些竞技对抗不是这样，是信息不完全公开的，有玩家都不知道的黑幕。比如Deepmind希望挑战的星际争霸2这个游戏，开局后地图上就有黑幕，是看不到对家在怎么操作的。

　　德州扑克的牌型大小规则

　　德州扑克无疑也是这种游戏。这是一个在欧美盛行，国内不怎么太流行的游戏，虽然现在玩家业多了起来，但远不如斗地主普及。大概的规则是每人发两张暗牌只有自己看到，然后再发3-1-1的节奏发5张名牌，七张牌组成最大的牌型，按照同花顺-四条-葫芦-同花-顺子-三条-两对-对子-高牌比大小的顺序看谁的牌更大。

　　玩家只能看到自己的两张底牌和桌面的公共牌，信息不完全

　　人工智能在20天内赢了人类玩家176万美元的筹码

　　比赛现场，一共对弈了大约12万手牌

　　因此得到的只有下注的信息以及几张公共牌的信息，信息不完全。而高手则可以通过各种策略来干扰对方，比如诈唬、加注骚扰等等。无限注德州扑克可以随时全下。CMU的程序Libratus就是一个通过人工智能打造的超级程序，前不久与人类高手进行了为期20天的对抗，结果是程序在20天内赢了玩家176万美元的筹码，并且电脑程序相当的灵活，同样会诈唬等手段，玩家在20天内只有4天是赢钱的，其它日子都输。并且机器自我学习能力非常强，人类头一天发现的弱点，第二天就不会再犯一样的错误。

　　CMU的科学家与River超级计算机的合影

　　CMU就是著名的卡耐基-梅隆大学，他们提出了反事实遗憾最小化（Counterfactual regret minimization）算法，让机器自己对弈了若干亿次之后积累了机器的最优策略。人机德州扑克大战的计算机则使用的是匹兹堡超级计算中心的Bridge，每个节点128G内存，使用600-700个节点，这是开放使用的最强的超级计算机之一。

　　人工智能让失业的人越来越多？

　　如果都机器干了，要人干什么？实时也是差不多。在GPU的案例当中，笔者看到过这样一个案例，农场通过机器学习技术来让计算机视觉识别庄家与野草，让喷洒农药的机器只给野草喷农药，而过去这种体力劳动则很多需要人工来完成。这就产生了问题，人工智能会抢人的饭碗吗？

　　超强的国际象棋软件并未成为人与人对弈的绊脚石，反而是训练助手

　　在笔者看来基本是杞人忧天的想法。事实上我们今天的计算机大量使用了之后，会计这种职业也并没有消失。人下国际象棋已经下不过电脑了，但职业国际象棋大师依旧存在并且存在的相当好，计算机成为了他们的助手。

　　训练平台有很多，但并没有出现类似人类大脑的AI上帝

　　另外一方面，今天对于机器学习的研究很多还都是前瞻性的，并且项目与项目之间是独立的，比如AlphaGo的训练平台用的谷歌的Tensorflow，有特殊的独家订制硬件TPU，一般的超级计算机能不能运行不好说，棋力下降恐怕是一定的。事实上也没有一个大一统的人工智能上帝，又能下围棋，又能玩德州扑克，项目之间是独立的。而这些应用普遍对计算能力要求非常高，在短时间内，我们似乎也看不到大面积普及的可能性。

　　自毁的天网？

　　理想中的乌托邦？

　　最重要的是，未来什么样子是没人知道的，可能有科幻电影中的天网也可能是乌托邦，最终的结果都是人做出的决定，我们要相信人有足够的智慧不会让强大的人工智能带来灾难，在未来人工智能将成为我们生活中的一部分，一如今天的智能手机。

标签: 人工智能围棋德州扑克

新浪体育

新浪新闻

新浪微博

围棋国象德州扑克人工智能VS最强大脑简史

相关阅读：

聚焦

推荐阅读

围棋国象德州扑克 人工智能VS最强大脑简史

相关阅读：

聚焦

推荐阅读

围棋国象德州扑克人工智能VS最强大脑简史