Leela Zero实现阿尔法元算法但还得训练1700年

2017年11月28日10:34 新浪综合

分享 | 评论

　　（量子位出品 | 公众号 QbitAI）

　　AlphaGo退隐，留下身后一众你追我赶的围棋AI。

　　比如说前些天在野狐上连斩多名职业选手的新版绝艺“符合预期”，又比如说多年研究国际象棋和围棋AI的gcp，最近又把AlphaGo Zero的算法实现出来放到了GitHub上，起名叫Leela Zero。

　　地址：https：//github.com/gcp/leela-zero

　　gcp是谁？

　　Gian-Carlo Pascutto，这是他的全名。

　　这位比利时程序员小哥，研究用计算机下棋已经不是一年两年了。早在上个世纪，他就开始在Adrien Regimbald的开源象棋引擎Faile基础上开发自己的国际象棋软件了。

　　他所开发的国际象棋软件名叫Sjeng，苹果Mac电脑自带的国际象棋软件，所用的计算引擎就是开源版Sjeng。2003年，这位小哥还开发了一个商业版的Deep Sjeng。

　　Sjeng赢得过2008年世界快速计算机国际象棋锦标赛冠军、2009年世界计算机国际象棋锦标赛冠军，以及2010和2011年的网络计算机国际象棋锦标赛。

　　后来，gcp的兴趣转向了围棋。

　　他所开发的围棋软件Leela也可以说是很厉害了，2008年，Leela获得了Computer Olympiad（计算机奥林匹克）19×19围棋比赛的第三名和9×9围棋的第二名。

　　2017年2月，他与时俱进地发布了新版Leela，在其中用上了深度学习技术。今年8月，这个围棋软件在首届世界智能围棋公开赛中排名第8，排在它前边的，有中国大陆的绝艺、天壤，台北的CGI，日本的DeepZenGo、Rayn、AQ和韩国的石子旋风。

　　对了，你用过强大的音频播放器foobar2000吗？这位小哥也是作者之一。

　　自学版AlphaGo Zero发布之后，gcp显然要再与时俱进一次。

　　Leela Zero

　　这一次与时俱进的成果，就是Leela Zero。

　　Leela Zero是AlphaGo Zero论文Mastering the Game of Go without Human Knowledge的实现，据gcp在GitHub上介绍，这个实现非常忠于原文，目标就是搞一个开源的AlphaGo Zero。

　　作为AlphaGo Zero的忠实实现，Leela Zero使用了蒙特卡洛树搜索（MCTS）和深度残差卷积神经网络堆栈，不需要输入人类棋谱，可以在自我对弈中提升。

　　但是，Leela Zero和真正的AlphaGo Zero还差一个很重要的东西：网络权重。

　　gcp在Leela Zero的GitHub说明中称，这份实现中不包含网络权重，如果能搞到AlphaGo Zero的权重，这个程序能和真的狗一样强。

　　但问题在于，他算了一下，如果要在普通消费级硬件上重新计算一遍AlphaGo Zero的权重，也就是让Leela Zero进化到AlphaGo Zero退隐时候的水平，需要1700年。

　　这个普通消费级硬件，指的是一块英伟达GTX 1080 Ti。

　　所以，Leela Zero现在应该算是个没有灵魂的躯壳，等着来自大规模GPU的计算力赋予它真正的生命。gcp把这个算法实现出来之后，就开始到处发帖征集志愿者来一起贡献GPU算力训练它。

　　如果你不想贡献GPU，只想试试这个围棋软件的话，gcp也提供了一版用人类棋谱训练的小型网络供下载：https：//sjeng.org/zero/best_v1.txt.zip。

　　当然，还是一起训练完整版Leela Zero更exciting。

新浪体育