阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

来源：联合早报中文网作者：邵湖心更新时间：2020-09-10 19:04:31阅读：

本篇文章2467字，读完约6分钟

10月18日伦敦当地时间18: 00(北京时间19日01: 00)，阿尔法戈再次出现在世界顶级科学杂志《自然》上。

一年多前，阿尔法戈是2016年1月28日本期的封面文章。deepmind公司发表了一篇很重的论文，介绍了这个击败了欧洲围棋冠军范辉的人工智能程序。

今年5月，在以3:0击败中国棋手柯杰后，阿尔法戈宣布退役，但deepmind并没有停止研究。10月18日，伦敦当地时间，深度思维团队宣布了阿尔法戈的最强版本，代号阿尔法戈零。它独特的秘密是自学的。此外，它从一张白纸开始，在零基础上学习，并在短短3天内成为顶级大师。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

据该团队称，阿尔法go zero已经超越了所有以前版本的阿尔法go。Alphago Zero以100:0的绝对优势击败了曾经赢得韩国棋手李世石的Alphago版本。深度思维小组在10月18日的《自然》杂志上以论文的形式发表了关于阿尔法零号的相关研究。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

阿尔法戈在两年内的成就令人震惊。现在，阿尔法零是我们最强的版本，它已经改进了很多。零提高了计算效率，并且不使用任何人工围棋数据。alphago之父、deepmind联合创始人兼首席执行官德米斯·哈萨比斯(demis hassabis)表示，最终，我们希望利用其算法突破来帮助解决各种紧迫的现实问题，比如蛋白质折叠或设计新材料。如果我们能通过alphago在这些问题上取得进展，那么它就有潜力促进人们对生活的理解，并以积极的方式影响我们的生活。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

不再受人类知识的限制，只使用了4 tpu

alphago的前一个版本结合了数百万围棋专家的棋谱和监督学习来训练自己。

在击败人类围棋专业大师之前，它已经被训练了几个月，依靠多台机器和48 tpu(谷歌专门开发的芯片，用于加速深层神经网络的计算能力)。

在此基础上，阿尔法零号的能力得到了质的提高。最大的区别在于它不再需要人类数据。也就是说，它从一开始就没有接触过人类象棋。R&D队只是让它在棋盘上自由下棋，然后玩自我游戏。值得一提的是，阿尔法零号也是非常低碳的，只用了一台机器和四个tpu，这大大节约了资源。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

阿尔法零强化学习下的自我游戏。经过几天的训练，阿尔法零级已经完成了近500万个自我游戏，并且已经能够超越人类，击败所有以前版本的阿尔法零级。deepmind团队在官方博客上表示，zero通过更新的神经网络和搜索算法进行了重组，随着训练的深入，系统的性能逐渐提高。自我博弈的结果越来越好，同时，神经网络也变得更加精确。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

这些技术细节之所以比以前的版本更好，是因为我们不再受人类知识的限制，它可以向alphago本身学习，Alphago是go领域的最高玩家。阿尔法戈团队负责人戴夫·西尔弗说。

根据陆三金·席尔瓦的说法，阿尔法戈零号已经通过使用一种新的强化学习方法把自己变成了一名教师。起初，系统甚至不知道围棋是什么，而是从一个单一的神经网络开始，通过神经网络强大的搜索算法自己下棋。

随着自我博弈的增加，神经网络逐渐调整以提高预测下一步的能力，最终赢得博弈。更重要的是，随着训练的深入，deepmind团队发现alphago zero也独立地发现了游戏规则，并走出了新的策略，给古老的围棋游戏带来了新的见解。

经过三天的自学，我打败了老阿尔法狼

除了上述差异，阿尔法零显然不同于以前的版本在三个方面。

阿尔法零号训练时间表首先，阿尔法零号仅使用棋盘上的黑白字符作为输入，而前一代包括少量人工设计的特征输入。

其次，阿尔法零只使用一个单一的神经网络。在以前的版本中，alphago使用策略网络来选择下一步棋，并使用价值网络来预测每一步棋之后的赢家。在新版本中，这两个神经网络被合并为一个，因此它可以得到更有效的训练和评估。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世

第三，阿尔法零号没有使用快速和随机行走的方法。在以前的版本中，阿尔法戈使用快速行走的方法来预测当前情况下哪个玩家会赢得游戏。相反，新版本依靠其高质量的神经网络来评估下棋的情况。

alphago几个版本的排名？根据Hassabis和Silva的说法，这些差异有助于新版本的alphago改进其系统，而算法的改变使系统更强大、更有效。

经过仅仅三天的自我训练，阿尔法零级击败了之前以100:0击败李世石的老版本阿尔法零级。经过40天的自我训练，阿尔法零级再次击败阿尔法戈大师。大师打败了世界顶尖围棋手，甚至包括世界第一的柯杰。

图为深度思维阿尔法戈项目首席研究员大卫·西尔弗和首席执行官德米斯·哈萨比斯

席尔瓦继续说道:每场比赛后，阿尔法零号实际上训练了一个新的神经网络。它改进了自己的神经网络，预测了阿尔法零号自己的棋路，也预测了这些游戏的赢家。当阿尔法零号做到这一点时，它实际上会产生一个更强大的神经网络，这将引导玩家进行新的迭代。因此，我们最终得到了新版本的alphago zero，它比前一个版本更强大。随着这个过程的重复，它也可以产生更高质量的数据，这些数据可以用来训练更好的神经网络。

阿尔法狗退役，最强“新狗””AlphaGo Zero横空出世