黄士杰:Zero只用三天 就走过人类千年围棋历程

2017年11月12日11:43 新浪综合
DeepMind 资深研究员黄士杰博士

  DeepMind 资深研究员黄士杰博士(Aja Huang)今日回台在首届人工智慧年会上发表以‘AlphaGo:深度学习与强化学习的胜利’为题的演讲,受到台湾产官学界的瞩目,九点不到人潮就挤爆了中研院的演讲厅。黄士杰除了分享自己在人工智慧与围棋上的研究,也分享了最近发表的 AlphaGo Zero 如何不需要人类的知识就能自己学会围棋,并且变得比打败人类棋手的前一代版本更为强大。

  从台湾博士生变成被 Google 并购的 DeepMind 员工

  黄士杰是台师大资讯工程研究所第一届的学生,从硕士念到博士,在博五的时候结婚,而黄士杰在博士班时所开发的围棋软体叫做 Erica,就是妻子的名字,当时以单机的版本打败人工智慧围棋领域最强、使用了六台机器的 Zen,也因此被 DeepMind 发觉他的能力,David Sliver 便力邀黄士杰加入,黄士杰也成了第 40 号员工。

  在面试的时候,David Sliver 问黄士杰,开发出 Erica 的感觉是什么?黄士杰回答:‘很有成就感,可以自己做出一台 AI 来。’后来进了 DeepMind ,发现这其实是公司里面共同的感觉,而 DeepMind 的梦想就是做出‘通用的强人工智慧’。2014 年,DeepMind 被 Google 并购,进到了 Google 最大的好处就是拥有强大的运算资源。

  又回到围棋,AlphaGo 的诞生

  不过成为 DeepMind 的研究员之后,黄士杰并没有马上开发 AlphaGo,而是到了 2014、2015 的时候才开始重启围棋的人工智慧计画,但也并不是接续博士班时开发的 Erica,因为当时已经发现极限了,所以必须藉助深度学习的技术重新打造,并且持续延揽世界上最厉害的人才加入,包括加拿大 DNNresearch 的 Chris Maddison 和 Ilya Sutskever,同样也被 Google 并购,因此就有机会一起合作。

  人才、运算资源都齐备,AlphaGo 计画也正式开始了。黄士杰分享,第一个突破是运用了神经网路的技术,原本还不确定是否会有效,没想到实验结果出来之后,对弈原始的版本竟然是 100% 的胜率,也让团队为之振奋。接着而来的第二个突破,则是价值网路的技术,其实当时的模拟,AlphaGo 如果上场比赛,胜率应该有七八成,可以算是世界第一了,但是 DeepMind 的目标远高于此,所以持续扩充团队,才有办法做更多的研究,解决更多的问题。

  黄士杰也分享,其实在开发 AlphaGo 的过程中,每天就是训练神经网路、测试、看胜率、观察看看是不是有效,有很多点子和问题需要不断的测试,像是深度学习的深度到底要几层?用什么架构?训练的资料有没有问题?当然,最终检验的还是 AlphaGo 的棋力有没有变强。

  在观察的过程中,也发现 AlphaGo 有 Overfitting 的问题,解决之后 AlphaGo 就变强了,再跟上一个版本对弈,胜率是 95%,这也是为什么演讲题目订为 AlphaGo 的成功是深度学习与强化学习的胜利。

  开始与人类对弈,并发表第一篇 Nature 论文

  确认了 AlphaGo 的能力之后,DeepMind 决定与真人对弈,第一个对象是法国的二段棋士樊麾,在 2015 年 10 月,AlphaGo 五战全胜,第五战 Nature 期刊的编辑还到场观战,确认 AlphaGo 即将发表的论文是否真的这么厉害。樊麾也成为第一位正式被 AI 打败的职业棋士,但落败后,樊麾认为 AI 的发展对围棋是正面的,所以后来也给 AlphaGo 团队很多帮助。

  不过 DeepMind 这家公司与其说是‘营利事业’,还不如说是‘研究机构’。好不容易开发出一个可以打败职业棋手的人工智慧,却要发表论文将细节全部公开?而且赢了樊麾之后,正式对九段棋士李世乭宣战,公开岂不是更处於劣势?当时黄士杰其实也不解为何公司如此决定,总觉得应该要花时间在準备比赛而不是写论文。

  DeepMind 的主张是 AlphaGo 是一个科学研究,希望能将成果公开在论文上,推动科学领域继续往前进步。

  也就因为要发表论文,Nature 要求刊登前不能公开打败樊麾的讯息,所以大众是在好几个月之后才知道。

  黄士杰也再度提到,DeepMind 加入 Google 之后,Google 所提供的运算资源硬体设备帮助相当大,尤其后来 TPU 取代了 GPU 更是极大的帮助,不然有很多事情根本做不了。 AlphaGo 也算是在 Google 里面第一个大量使用 TPU 的程式。关于细节,黄士杰表示在纪录片《AlphaGo》里面都有详细描述。

  从败给李世乭找到弱点,再次强化学习能力

  韩国之战的结果大家都知道了。打败李世乭之后,AlphaGo 是否就该喊停了呢?其实对弈过程中,第四战 AlphaGo 就出现了明显的问题,竟然出现了连业余选手都不会犯的错,当时负责落子的黄士杰甚至觉得自己来下说不定还比 AlphaGo 好,李世乭也讶异地看萤幕确认是不是黄士杰放错位置。

  既然 AlphaGo 还有问题,自然就要继续研究下去,全面性的把问题解决掉,这个过程花了八个月,也找来生力军 Karen Simonyan 加入团队。其实解决的方法就是在深度学习和强化学习的技术上,把学习能力再加强。

  第一步,先把原本 13 层的网路增加到 40 层,也改成 ResNet,第二步则是把 Policy Network 和 Value Network 结合成 Dual Network,让 AlphaGo 的直觉和判断一起训练。第三步,把 Training Pipelines 也加强。除了人工智慧的学习能力,黄士杰也把模仿棋、循环劫等围棋的问题也解决了,再跟打败李世乭的版本对弈,可以让三子(不贴目)还达到超过 50% 的胜率。

  Master 在台南从低调下棋到举世关注

  在确定解决了所能找到的所有问题之后,AlphaGo 团队决定低调上线找棋士对弈,其实也就是后来的 Master 版本,而当然不断的赢棋之后,再也无法低调了,最后的结果是对战中、日、韩、台的顶尖棋手,全胜。

  AlphaGo 自此再也没有输给人类棋士了。

  当时,黄士杰回到台湾,在台南自己的房间里面,开了一个新的帐号,邀请棋士对弈,知名棋士还拒绝,不过后来当然就变成是黄士杰拒绝別人了,而且每一盘棋也越来越多人观战。在对战过程中,黄士杰一直观察 AlphaGo 胜率图表的变化,除了柯洁以外,已经没有人有机会赢 AlphaGo 了。

  经过小蝠的调整和改进,AlphaGo 到中国与柯洁对弈。黄士杰也提到了比起在韩国很想要全赢,在中国对弈的气氛是比较轻松的,因为胜负不再是重点(觉得不可能会输了),而是已经是在探索人类与人工智慧之间如何互相合作,所以比赛的名称也叫做‘共创棋妙未来’。黄士杰表示,人工智慧已经不会输给人类,但是这时候人工智慧的功能,是在扩展人类棋手的思路,和人类合作一起探索围棋还未被发掘的领域。

  AI 是人类的工具,不是人类的威胁。

  AlphaGo 团队当时已经兵分两路,黄士杰忙着用 Master 与柯洁对战,另一组人则开发 AlphaGo Zero,而黄士杰先负责把 AlphaGo 的围棋知识全部拿掉,并且再三确认这件事情,因为 AlphaGo Zero 是一个完全不需要人类先备知识就能自我学习的人工智慧,所以只能有规则知识,不能有围棋知识。

  其实原本 AlphaGo 团队也不确定能不能成功,不过后来 AlphaGo Zero 的确也击败了 Master,再度证明深度学习与强化学习真的很强大。AlphaGo Zero 一开始是彻底乱下,也常常学习之后就卡住了,经过一些调整之后才能再继续,不过有了 Google 强大的运算资源,以 2000 颗 TPU 的运算,短短经过三天,AlphaGo Zero 就成功了。而且不只学习能力,AlphaGo Zero 下棋的时候耗电量比起对弈樊麾时的运算,降低很多。现在很多 Zero 所下的棋,黄士杰也看不懂了。

标签: AlphaGoDeepMind围棋

相关阅读:

加载中,请稍候...

推荐阅读

加载中,请稍候...