阿尔法狗退役,最强“新狗””AlphaGo Zero横空出世
本篇文章2467字,读完约6分钟
10月18日伦敦当地时间18: 00(北京时间19日01: 00),阿尔法戈再次出现在世界顶级科学杂志《自然》上。
一年多前,阿尔法戈是2016年1月28日本期的封面文章。deepmind公司发表了一篇很重的论文,介绍了这个击败了欧洲围棋冠军范辉的人工智能程序。
今年5月,在以3:0击败中国棋手柯杰后,阿尔法戈宣布退役,但deepmind并没有停止研究。10月18日,伦敦当地时间,深度思维团队宣布了阿尔法戈的最强版本,代号阿尔法戈零。它独特的秘密是自学的。此外,它从一张白纸开始,在零基础上学习,并在短短3天内成为顶级大师。
据该团队称,阿尔法go zero已经超越了所有以前版本的阿尔法go。Alphago Zero以100:0的绝对优势击败了曾经赢得韩国棋手李世石的Alphago版本。深度思维小组在10月18日的《自然》杂志上以论文的形式发表了关于阿尔法零号的相关研究。
阿尔法戈在两年内的成就令人震惊。现在,阿尔法零是我们最强的版本,它已经改进了很多。零提高了计算效率,并且不使用任何人工围棋数据。alphago之父、deepmind联合创始人兼首席执行官德米斯·哈萨比斯(demis hassabis)表示,最终,我们希望利用其算法突破来帮助解决各种紧迫的现实问题,比如蛋白质折叠或设计新材料。如果我们能通过alphago在这些问题上取得进展,那么它就有潜力促进人们对生活的理解,并以积极的方式影响我们的生活。
不再受人类知识的限制,只使用了4 tpu
alphago的前一个版本结合了数百万围棋专家的棋谱和监督学习来训练自己。
在击败人类围棋专业大师之前,它已经被训练了几个月,依靠多台机器和48 tpu(谷歌专门开发的芯片,用于加速深层神经网络的计算能力)。
在此基础上,阿尔法零号的能力得到了质的提高。最大的区别在于它不再需要人类数据。也就是说,它从一开始就没有接触过人类象棋。R&D队只是让它在棋盘上自由下棋,然后玩自我游戏。值得一提的是,阿尔法零号也是非常低碳的,只用了一台机器和四个tpu,这大大节约了资源。
阿尔法零强化学习下的自我游戏。经过几天的训练,阿尔法零级已经完成了近500万个自我游戏,并且已经能够超越人类,击败所有以前版本的阿尔法零级。deepmind团队在官方博客上表示,zero通过更新的神经网络和搜索算法进行了重组,随着训练的深入,系统的性能逐渐提高。自我博弈的结果越来越好,同时,神经网络也变得更加精确。
这些技术细节之所以比以前的版本更好,是因为我们不再受人类知识的限制,它可以向alphago本身学习,Alphago是go领域的最高玩家。阿尔法戈团队负责人戴夫·西尔弗说。
根据陆三金·席尔瓦的说法,阿尔法戈零号已经通过使用一种新的强化学习方法把自己变成了一名教师。起初,系统甚至不知道围棋是什么,而是从一个单一的神经网络开始,通过神经网络强大的搜索算法自己下棋。
随着自我博弈的增加,神经网络逐渐调整以提高预测下一步的能力,最终赢得博弈。更重要的是,随着训练的深入,deepmind团队发现alphago zero也独立地发现了游戏规则,并走出了新的策略,给古老的围棋游戏带来了新的见解。
经过三天的自学,我打败了老阿尔法狼
除了上述差异,阿尔法零显然不同于以前的版本在三个方面。
阿尔法零号训练时间表首先,阿尔法零号仅使用棋盘上的黑白字符作为输入,而前一代包括少量人工设计的特征输入。
其次,阿尔法零只使用一个单一的神经网络。在以前的版本中,alphago使用策略网络来选择下一步棋,并使用价值网络来预测每一步棋之后的赢家。在新版本中,这两个神经网络被合并为一个,因此它可以得到更有效的训练和评估。
第三,阿尔法零号没有使用快速和随机行走的方法。在以前的版本中,阿尔法戈使用快速行走的方法来预测当前情况下哪个玩家会赢得游戏。相反,新版本依靠其高质量的神经网络来评估下棋的情况。
alphago几个版本的排名?根据Hassabis和Silva的说法,这些差异有助于新版本的alphago改进其系统,而算法的改变使系统更强大、更有效。
经过仅仅三天的自我训练,阿尔法零级击败了之前以100:0击败李世石的老版本阿尔法零级。经过40天的自我训练,阿尔法零级再次击败阿尔法戈大师。大师打败了世界顶尖围棋手,甚至包括世界第一的柯杰。
图为深度思维阿尔法戈项目首席研究员大卫·西尔弗和首席执行官德米斯·哈萨比斯
席尔瓦继续说道:每场比赛后,阿尔法零号实际上训练了一个新的神经网络。它改进了自己的神经网络,预测了阿尔法零号自己的棋路,也预测了这些游戏的赢家。当阿尔法零号做到这一点时,它实际上会产生一个更强大的神经网络,这将引导玩家进行新的迭代。因此,我们最终得到了新版本的alphago zero,它比前一个版本更强大。随着这个过程的重复,它也可以产生更高质量的数据,这些数据可以用来训练更好的神经网络。
新狗阿尔法零的未来
通过数以百万计的自我游戏,阿尔法戈从零开始掌握了围棋,并在短短几天内积累了人类几千年来所拥有的知识。然而,阿尔法零号也发现了新的知识,开发了非常规战略和新的技巧,这些都比它在对抗李世石和柯杰时创造的要好。
这些创造性的时刻让我们相信,人工智能将成为人类智能的增强器,并帮助我们解决人类面临的一些严峻挑战。
尽管阿尔法零号刚刚开发出来,但它已经朝着上述目标迈出了关键的一步。深度思维的使命是利用人工智能来促进人类社会的进步,对于深度思维来说,围棋并不是阿尔法围棋的终极意义。他们的目标始终是使用阿尔法戈创造一个宇宙探索的通用终极工具。
随着alphago zero的推广,deepmind在利用人工智能技术改变人类命运方面取得了突破。目前,他们正积极与英国医疗机构以及电力和能源部门合作,以提高医疗效率和能源效率。与此同时,将类似技术应用于其他结构问题,如蛋白质折叠、降低能耗和寻找新材料,可以创造对社会有益的突破。
本文由钛媒编辑,由白鹏新闻、腾讯科技等提供。
标题:阿尔法狗退役,最强“新狗””AlphaGo Zero横空出世
地址:http://www.6st8.com/zbxw/7525.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。
下一篇:没有了