新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

来源:联合早报中文网作者:邵湖心更新时间:2020-09-06 20:28:03阅读:

本篇文章1859字,读完约5分钟

雷锋的ai科技评论:openai的最新发现表明,在网络参数空中加入噪声比在网络行为空.中加入噪声能得到更好的性能此外,他们发布了一系列涵盖多个网络的基准代码。

雷锋。(公开号码:雷锋。《人工智能技术评论》编辑如下:

Openai Lab最近发现,频繁地在强化学习算法的参数中加入自适应噪声可以得到更好的结果。这种方法实现简单,基本上不会导致不良结果,因此值得在任何问题上尝试。

图1:行为空之间的噪声训练模型

图2:参数空之间具有噪声训练的模型

参数噪声可以帮助算法有效地探索合适的作用范围,并在环境中取得优异的性能。如图1和图2所示,经过216次epic训练后,无参数噪声的ddpg经常会产生低效的跑步行为,而参数噪声训练后的跑步行为得分较高。

加入参数噪声后,智能体学习任务的速度变得更快,远远优于其他方法带来的速度提升。在半猎豹运动环境中(图1、图2),这种策略的得分约为3000分,而传统的动作噪音训练策略只能得到1500分左右。

在参数噪声方法中,自适应噪声被添加到神经网络策略的参数中,而不是行为空.传统的强化学习(rl)使用行为空之间的噪声来改变代理在每个时刻执行动作的可能性。参数空之间的噪声直接增加了代理参数的随机性,并改变了代理所做决策的类型,使它们总是完全依赖于对当前环境的感知。这种技术介于进化策略(可以控制代理的参数,但在每一步探索环境时不会再次影响其行为)和深度强化学习方法(如trpo、dqn和ddpg)之间(不能控制参数,但会增加策略行为空中的噪声)。

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

图3:左边的行为空和右边的参数空之间的噪声

参数噪声可以使算法更有效地探索环境,获得更高的分数和更优雅的动作。因为故意向策略参数添加噪声可以使代理在不同时间的探索保持一致,而在行为空中添加噪声会使探索过程更加难以预测,并且这种探索过程与代理的参数没有特定的相关性。

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

人们以前曾试图将参数噪声应用于策略梯度。在openai的探索下,这种方法现在可以应用到更多的地方,如基于深层神经网络的策略,或基于策略的独立于策略的算法。

图4:行为空之间的噪声训练模型

图5:参数空之间具有噪声训练的模型

如图4和图5所示,在增加参数空之间的噪声之后,你可以在赛车游戏中获得更高的分数。经过两集训练,在参数空之间加入噪声的ddqn网络学会了加速和转弯,而在行为空之间加入噪声的网络表现出弱得多的动作丰富性。

在进行这项研究时,他们遇到了以下三个问题:

不同层次的网络对干扰的敏感度不同。

在训练过程中,策略权重的敏感性可能会随着时间的推移而变化,这使得策略的作用难以预测。

很难选择合适的噪声,因为很难直观地理解参数噪声在训练过程中是如何影响策略的。

第一个问题可以通过电平归一化来解决,电平归一化可以确保受扰层的输出(该输出是下一个电平的输入)类似于没有扰动的分布。

可以引入自适应策略来调整参数空之间的干扰,以处理第二和第三问题。这种调整是通过测量干扰对行为空的影响以及噪声和预定目标之间的差异(或大或小)来实现的。该技术将选择噪声水平的问题引入到行为空中,这比参数空.更具解释性

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

选择基准并对其进行基准测试

Openai发布了一系列基准代码,这些代码将这项技术集成到了dqn(due ling dqn(due ling double dqn和ddpg)中。

此外,ddqn在有或没有参数噪声的情况下玩一些雅达利游戏的基准也发布了。此外,在mujoco模拟器中的一系列连续控制任务下,有三种ddqn变体的性能基准。

研究过程

在首次进行这项研究时,openai发现,施加到dqn的Q函数上的扰动有时过于极端,导致算法重复执行相同的动作。为了解决这个问题,他们增加了一个独立的策略表达过程,可以像在ddpg中一样明显地表达策略(在普通的dqn网络中,Q函数只能隐式地表达策略),使得设置更类似于其他实验。

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

但是,在为这个版本准备代码时,他们做了一个实验,并且在使用参数空.之间的噪声时没有添加独立的策略表达过程

他们发现实验结果与添加独立策略表达过程后的结果相似,但实现起来更简单。进一步的实验证明,独立的策略头确实是多余的,因为该算法可能在早期实验中得到改进(他们改变了调整噪声的方式)。该方法更简单可行,降低了训练算法的成本,并能得到相似的结果。

OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

重要的是要记住,人工智能算法(特别是在强化学习中)可能会有一些轻微的失败,这将使人们在寻找解决方案时很难开出正确的药。

雷锋。技术评论汇编。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:OpenAI最新发现:在参数空间增加噪声,易于实现,并能轻松加快学习速度

地址:http://www.6st8.com/zbxw/6425.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部