田渊栋颜水成等解读团体战:五个脑子抵不过TPU

2017年05月27日10:07 新浪体育 微博
五名中国棋手团战AlphaGo

  文章来源:新智元 

  群殴也无济于事!乌镇围棋对抗战,AlphaGo 力克五名围棋高手的团队攻势,再取一胜,人与机器的对战三连败!26日上午结束的“古力+AlphaGo输给了连笑+AlphaGo。就此,AlphaGo 此次中国之行只剩下27日与柯洁的最后一场比赛,但是毫无疑问已经成为最大赢家。颜水成、田渊栋和邓侃等人进行了精彩点评。

  在结束的五名中国棋手(陈耀烨、时越、芈昱廷、唐韦星、周睿羊)对阵 AlphaGo 的比赛中,人类棋手执黑告负,继柯洁两连败之后在人机pk中再输一场。

  26日上午结束的围棋界历史上首次人机协作大战中,连笑和 AlphaGo 的组合中盘第220手执白战胜古力和 AlphaGo 的组合。

  Facebook 研究员田渊栋表示:”这种下法当然很有意思,不过五个人可能不能提高胜算,主要是意见不会太统一。大家想不到的招,五个人一起也一样(想不到)。”

  360首席科学家颜水成表示:“如果配合好,后续算棋时可以算得更准。(机器)有些招式人开始理解不了,只能后面反推才能明白。”

  对于人机配合比赛,田渊栋说:“人和机器的协调是挺有意思的。很多时候人不理解机器的意图,回头想来觉得机器还挺有道理的,如果机器太强,可能人帮不上什么忙,如果机器有明显弱点,那人可以补上。“

  资深技术专家、CMU 博士邓侃说:群殴也无济于事。五个人的脑子合在一起,算力能抵得过 TPU 吗?(这种下法能够)营造热闹的比赛气氛,提高观赏性,吸引注意力。

  古力在解说本场比赛时透露,团队赛中棋手团队派出周睿羊为代表,是因为他对 AlphaGo 的棋局有着深入的研究,有“Alpha羊”之称。古力还透露,柯洁曾自告奋勇要为棋手团队执子,担任“机械臂”,但因棋手团队担心“柯氏机械臂”自作主张而作罢。

围棋历史上首次人机协作大战
围棋历史上首次人机协作大战

  和5对1的比赛相比,人机协作大战也许更值得玩味。在这场围棋界历史上首次人机协作大战中,连笑和 AlphaGo 的组合中盘第220手执白战胜古力和 AlphaGo 的组合。

  比赛过程首先是一次人与 AI 的沟通过程。两方的 AlphaGo 都走出了一些本方搭档不能理解的招数,让连笑与古力两位人类选手有些无所适从。而当人类选手出招发难时,AI 似乎也不能完全理解人类的意图,并不能完全配合。

  这种感觉就像玩实况足球时,你拿球看到空档,AI 控制的队员却迟迟不懂跑位。唯一的区别是,在围棋中,我们现在更倾向于相信,更聪明的那个是 AI。

  有趣的细节有三点:

  1. 比赛进行到中盘,连笑和 AlphaGo 的组合明显处于下风,解说员和现场观众纷纷认为胜负已定。此时连笑的 AlphaGo 队友招数明显变得激进;不难想象,在 AlphaGo 左右互搏自我训练的寂寞时间里,AlphaGo 内部经常有这样的激烈对招,AlphaGo 因此才成为了今天的 AlphaGo。而今天的比赛,对 AlphaGo 来说,不过是自我对弈过程的外化; 

  2. 此后,连笑和 AlphaGo 的配合忽然非常顺畅,连笑对 AlphaGo 棋路的理解,至少从当时的局势看,似乎在古力之上,而这一点,也成为了致胜的关键;

  3. 比赛进行到最后,古力的 AlphaGo 队友已经提出认输,却被古力拒绝;在这之后,古力的 AlphaGo 队友招数明显变得保守而消极,正如很多观战的人士指出的,古力的 AlphaGo 队友似乎在“逼”古力认输。

  解读:人机协作还需探索

  David Silver 在乌镇的演讲上曾经表示:“这一代 AlphaGo 如此强大的原因之一,是我们使用了最好的数据——AlphaGo 自我对弈的数据。所以,AlphaGo 实际上成了自己的“老师”,每一代生成的数据都成为下一代、更强一代的训练材料。我们使用这一过程,训练了更强大的策略网络和价值网络。”

  “具体说,我们让AlphaGo自我对弈,也就是通过强化学习,生成大量数据,训练下一代的AlphaGo。这时,策略网络就使用它自己生成的数据,在不进行任何搜索的情况下,自己训练自己得出最强大的走法,由此得出了目前最强大的策略网络。”

  这里的问题在于,今天对战双方的 AlphaGo,都不知道自己在协同作战。在整个过程中,只有两位人类选手清醒地认识到他们是在协作,他们会去主动配合 AI 的走法,并预测自己 AI 队友的招数。而对于两台 AlphaGo 来说,今天的比赛和它们无数次进行的自我对弈没有区别。

  简言之,它们只是根据最新的棋盘局面,去考虑接下来自己该怎么走。它们没有意识到,接下来的每一步,都仍然需要配合完成。

  目前确实还没有官方消息,显示 DeepMind 为此役对 AlphaGo 进行了哪些算法上的调整。但无论是今天场上的局面看,还是从时间点上判断,这一算法和与柯洁对弈的 AlphaGo 单打独斗版本没有太大区别。

  实际上,关于多智能体协作的研究一直在继续,但 DeepMind 似乎并未本次参赛的 AlphaGo 上加入相关研究成果,正如新智元此前在文章中报道的,DeepMind 此来,本就是醉翁之意不在酒。

  此前新智元给大家介绍过,阿里巴巴认知计算实验室与伦敦大学学院计算机系合作,以游戏“星际争霸1”(下简称“星际”)中的微观战斗场景为测试环境,深入地研究了多个 AI 智能体之间的协作问题,旨在通过协作智能解决人类不擅长的问题。

  人机协同的未来

  仍然是新智元此前的特别推荐:钢铁侠 Elon Musk 曾表示,人机协同才是人类的未来——“人类只有一个选择,成为 AI。”  (点击[2万字巨献]马斯克脑机融合系统Neuralink:人类只有一个选择——成为 AI 阅读)

  Elon Musk 视通信带宽为决定人机融合程度的关键因素,同时将人机融合程度视为我们未来在AI世界中生存的关键因素:我们或者被远远抛在身后,全无用处,被当做宠物(如家猫)对待;或者最终找到某种与AI共生及融合的方式。之后他补充道:能被当做家猫还是算是不错的结局呢。

  在完全无法想象未来充斥着 AI 的世界是什么样子的前提下,在超级智能时代到来之前,通过人机融合实现对人类物种的保护听起来挺靠谱。AI 时代人类可能会受到的威胁将来自于利用 AI 作恶的人类以及与人类利益相悖的AI。当绝大多数人类都能控制一部分AI,与AI共同思考,利用AI自我防御,或通过与AI融合,进而基本上能完全理解AI的想法,人类就处于不那么危险的境地了。

  人类会变得从未有过的强大,也是很恐怖的一件事,但是如 Elon 所讲,如果人人都是超人,单个人就很难造成大面积伤害,会有很多限制和平衡加以制约。人类也因此不太可能对AI整体完全失控,因为AI将以多种目的广泛存在。

  微软副总裁洪小文在北大 AI 公开课上也表示:人类智能和人工智能的共进化(HI+AI)才是未来的真正趋势。

  从这一角度上,这场比赛的意义又不是作秀那么简单。或许我们可以理解为,是一个没有做好协作准备的 AlphaGo,来参加了一场人机协同大战,从中,每个人都窥到了未来的影子。

标签: AlphaGo解读团体战

相关阅读:

加载中,请稍候...

推荐阅读

加载中,请稍候...