解析|AlphaGo背后的公司 打败人类后它要做什么
AlphaGo 到底是什么?
AlphaGo 是一款围棋人工智能,Google 人工智能团队 DeepMind 创造了它。
DeepMind CEO 哈萨比斯今年 5 月 19 日接受 BBC 四台采访时表示,AlphaGo 是面向围棋这一“狭窄领域”的人工智能,简单说,虽然它能打败世界冠军,但 AlphaGo 也只能下棋。
AlphaGo 怎么学会下棋,提升棋艺的?
说起这个,“穷举”、“蒙特卡罗树算法”、“深度学习”等等一大堆术语经常出现,但没有这些基础也能看懂。
所谓 “深度学习”,是 AlphaGo 围棋训练的第一步,将人类棋谱输入计算机,学习人类的落子习惯。这种“识别”与人脸识别、图像分类等搜索技术类似。
第一步:把棋盘分拆成小块,输入数据。
AlphaGo 会把输入系统的人类棋谱的每一步进行分拆,棋盘上每个落子以及随后的应对落子算作一个样本,AlphaGo 从这些人类棋局中分解出了三千多万个样本。
这些样本集合在一起,能够识别出每个特定的落子之后,哪一种应对方法的概率最高,这个最高的概率其实就是人类棋手最喜欢的应对方法。
虽然说围棋“千古无同局”,但是局部来看还是有很多相似的模式反复出现,AlphaGo 就学会了这些最受欢迎的下法。
第二步:乱下棋,不过比纯粹乱下要好一点。
AlphaGo 的思考结合了蒙特卡罗树搜索。
假设一个从来都没下过围棋的人,用了分身术分成两个人开始在棋盘上乱下,最终这盘棋也会分出个胜负。
第二盘,上一盘赢的那个分身不再完全是乱下了,开始使用赢的那一盘中的一些对应,第三盘棋,第二盘赢的那个分身开始使用第一盘和第二盘中的对应。当第 N 盘棋下完之后,这个始终赢棋的分身就会获得最有可能获胜的落子方法。
以上这 N 盘棋就是一步使用蒙特卡罗树搜索的思考过程,思考结束后的下一个落子,就是被是推演过次数最多,获胜概率最高的那一步。
AlphaGo 团队还改进了以上这种传统的蒙特卡罗树搜索算法。
上面我们说过的深度神经网络得出了一套人类棋手概率最高的下法,假设蒙特卡罗树搜索故事中那个完全不会下棋的人学习了这套下法,那么之后的“乱下”思考过程的起点就会提高很多。这样一来,蒙特卡罗树算法的计算量就减少很多,提高了效率。
第三步:AlphaGo 自己和自己下棋,来学习棋局。
围棋毕竟变化太多,AlphaGo 需要更多的棋局来学习,于是通过自我对弈产生新的棋局。
AlphaGo 自己和自己下棋,棋力的来源就是第一步通过学习人类棋局得到的落子方法。AlphaGo 左右互搏,自我对弈几万盘,就能总结出赢棋概率更高的新下法,接下来再用新下法自我对弈几万盘,以此类推,最终得到了一套棋力比最初只学习人类下法厉害很多的新策略。
那用这新的策略和蒙特卡罗树搜索结合是不是更厉害呢?答案却是否。
因为使用概率来训练的这种策略会让下法高度集中,变化太少,而蒙特卡罗树搜索需要更多的变化才更有效。
第四步:局面评估。
这也是 AlphaGo 最厉害的地方是,它可以像人类一样在比赛过程中估计局面的优劣,这样才有第四局它判断获胜几率太小,选择中盘认输。
当一盘棋开始的时候,AlphaGo 先用第一步训练的下法下若干步,然后乱下一步,接着用第三步自我对弈训练产生的更厉害的下法下完整盘棋,然后对结果做一个评估,评估出“乱下”的那步棋造成的局面是好是坏。
AlphaGo 可以在一步的思考中乱下很多次,总有一次能匹配到真实对下棋的状况。而对这一步乱下以及后续结果的评估,就是对当前局面的判断。
对弈柯洁的 AlphaGo,有着怎样的计算能力?
上一次战胜李世乭的 AlphaGo,根据 Deepmind 的说法,是一部运行在云端,由全世界的 Google 机房协作运算的人工智能。5 月 23 日 AlphaGo 战胜柯洁之后,Deepmind 老大哈撒比斯说明,这一次 AlphaGo 是全新的版本,不再使用分布式计算的方案,调用的计算能力只有李世乭版本的十分之一。
具体来说,这一次的 AlphaGo 只用了一个 Google TPU 的计算能力。
Google TPU 是 Google 去年首次发布的用于人工智能运算的专用硬件,全称 Tensor Processing Unit,中文可以翻译成张量处理单元,是一个饭盒大小的专用硬件。在人工智能研究里,包括 Google 在内都在大量使用通用处理器 CPU 和图形处理器 GPU 进行运算。比如曾经公布过的一个版本的 AlphaGo,使用了 1920 个 CPU 和 280 个 GPU,取得了 Go Ratings 网站的 3168 等级分,世界第一柯洁的等级分为 3625。
TPU 这种专用硬件的效率比 CPU 加 GPU 快很多。
上周的 Google I/O 大会上,Google 宣布了 TPU 2.0,它具有四个专用芯片,每秒可处理 180 万亿次浮点运算。64 个 TPU 可以拼在一起组成 TPU Pod,可提供大约 11500 万亿次浮点运算能力。Google 同时公布了一个数字,说 Google 的大型翻译模型如果在 32 块性能最好的 GPU 上训练需要一整天,而 8 块 TPU 就可以在 6 个小时内完成同样的任务。
2017 年底,Google 就会把 TPU 计算服务变成云服务,全世界的人工智能研究者都可以租用这种云服务,帮助加速人工智能研究。和亚马逊等公司提供的,基于 CPU 和 GPU 的人工智能云服务相比,Google 的 TPU 更有效率优势,从成本上来讲,也更便宜。
DeepMind 公司有什么来头?
DeepMind 是一家成立于 2010 年、总部位于英国伦敦的初创公司,主要研究人工智能。2014 年 Google 以 4 亿英镑(约合 6.6 亿美元)的价格打败 Facebook,买下 DeepMind。这笔交易金额可以排进 2014 年全球初创公司收购金额前十。
公司创始人哈萨比斯曾有过数次创业经历,最后为了创造一个通用的、真正能思考的人工智能,创办 DeepMind。
今天 DeepMind 在 Google 承担着什么角色?
DeepMind 的研究围绕人工智能展开。2016 年 7 月前后,Google 用 DeepMind AlphaGo 的深度神经网络,预测 Google 内部 120 个数据中心和连带冷却风扇的各个时段用电量,然后分配能源,达到控制冷却系统和计算机服务器的耗电量的目的。
现在 DeepMind 的办公室还在距离伦敦国王十字车站约 2 公里的一处办公楼里,那里已经聚集 400 多位计算机和神经科学家。他们还计划继续扩充到 1000 人。
除了 DeepMind 之外,Google 还收购了什么人工智能公司?
2014 年收购英国 DeepMind 公司不是个例,Google 在最近 5 年间投资收购了不少人工智能公司,例如 api.ai、Timeful、Kaggle 等等。
从 2013 年开始到现在,Google 已经收购了 16 家人工智能公司了。可以说是各大科技公司里收购最多、布局最早的。
主要是来自策略的转变。Google CEO 桑达·皮蔡在 2016 年 5 月宣布将公司从“移动为先”的策略转变成“人工智能为先”(AI First)。根据 Google 员工的说法,他们已经在公司的每一个产品上都应用了机器学习的算法。
Google买下的公司主要用于拓展现有业务。比如 2013 年 Google 收购了聚焦于深度学习和神经网络的初创企业 DNNresearch,用于帮助提升图像搜索功能。
它也收购了像 Deepmind 这样本身发展成熟的团队,收购后依然保持独立运营。今年,Google 主要收购了一家做视觉搜索的初创公司 Moodstock,以及语音识别开放平台 Api.ai。
AlphaGo 打败人类了,之后它要做什么?
AlphaGo 对 Google 有什么影响?
去年 2 月,AlphaGo 在围棋上打败李世乭的消息,让不少人开始关注人工智能。
而也是在这次比赛之后,Google 公司把整个公司的战略改成了“人工智能为先”。CEO 桑达·皮蔡在 2016 年 5 月举行的 Google 全球开发者大会,第一次提出从“移动为先”转变成一个人工智能为先的公司的战略,称 Google 会因此重新思考自己的所有产品,还要把人工智能用到学术研究、医学的层面。
在今年 5 月举行的开发者大会上,皮蔡再次强调这一点,现场还做了不少人工智能都能做什么的演示,例如这样的用语音控制的调酒机:
AlphaGo 之后还要打更多游戏么?
更多的比赛只有营销价值。围棋就是终极比赛,是人脑在公平游戏里的最后防线。
这是因为围棋棋盘一共有 361 个落子点,围棋每一步的可能性都是天文数字,靠计算机穷举原理上就是不可能的。其它游戏的限制少很多,人工智能更有机会依靠穷举法取得比赛胜利。
对于把下棋当作人工智能测试平台的研究者来说,1997 年 IBM 超级计算机“深蓝”(Deep Blue)在战胜国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)之后,围棋就一直是最大的挑战。
之前有报道称 AlphaGo 要和人类选手比赛《星际争霸 2》,你能想象人类和计算机比操控单位的速度么?
那 DeepMind 接下来要干什么?
在医疗领域,DeepMind 已经有所建树,他们跟伦敦皇家免费医院(Royal Free London)签订一纸为期五年的付费合约,处理后者 170 万条患者记录。
DeepMind 的第一项医疗研究是帮助医生诊断眼部疾病,2016 年 7 月,他们宣布了与英国国民健康服务(National Health Service)的最新合作项目,与伦敦摩菲眼科医院一起,让人工智能帮助医生诊断,预防眼部疾病。
这个长达五年的研究项目将利用摩菲眼科医院超过百万的患者数据库,让人工智能学会“看”眼部扫描。简单来说就是让人工智能把这些扫描结果全部“看”一遍,从而训练出能够发现病变征兆的模型。
DeepMind 还被运用在了 Google 的数据中心:帮 Google 省电费。它那套深度神经网络被用来预测 Google 内部 120 个数据中心和连带冷却风扇的各个时段用电量,然后分配能源。据称,现在整套算法能将 Google 的能源利用提高 15%。
DeepMind 还和哈佛一起研究了读唇语的软件,他们研发的这个唇语阅读软件 LipNet 准确率高达 93.4%。这个准确率远高于此前研发出来的其他唇语设备。
去年 11 月,DeepMind 宣布将与暴雪娱乐合作,让人工智能学会玩《星际争霸 II》游戏,因为与棋类比起来,《星际争霸》更能模拟真实世界的混乱状况。
对于 DeepMind 来说,无论是让人工智能学会围棋还是打游戏,目的都是研发“通用型人工智能”,DeepMind 创始人哈萨比斯去年在剑桥大学的一场演讲中表示:“我们的首要使命便是解决人工智能问题;一旦这个问题解决了,理论上任何问题都可以被解决。这就是我们的两大使命了。”
今年 3 月,省电这件事被 DeepMind 用到了公司之外,他们与英国国家电网公司讨论,计划用人工智能技术帮助英国节省 10%的用电量。(好奇心日报)