新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

来源:联合早报中文网作者:邵湖心更新时间:2020-09-04 15:24:09阅读:

本篇文章1724字,读完约4分钟

雷锋。(公开号码:雷锋。美国时间7月20日,openai刚刚通过其研究博客引入了一种新的优化算法——最近策略优化(ppo)。据报道,当该算法用于强化学习时,其性能可以达到甚至超过现有算法的最高水平,并且更容易实现和调试。因此,openai将ppo作为强化学习研究中的首选算法。雷技术评论编辑了这篇博文,介绍了ppo算法如下。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

图为一个由openai使用ppo训练的机器人。它应该学会行走、奔跑和转身,试图接近球形的、随机移动的目标;环境中还有一个小球会击中机器人,这使它更加困难,所以它必须学会在被击中后恢复平衡,甚至在被撞倒后重新站起来。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

现有的算法,如最近的策略梯度法,使深层神经网络在控制任务上取得了明显的进步,而计算机游戏、3D运动和围棋都是很好的例子。然而,使用策略梯度法很难得到好的结果,因为这种方法对迭代步骤的数量非常敏感:如果选择太少,训练过程将会极其缓慢;如果选择过大,反馈信号将淹没在噪声中,甚至模型也可能出现雪崩衰减。这种方法的采样效率通常很低,需要数百万到数十亿次迭代来学习简单的任务。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

为了解决这些问题,研究人员已经找到了诸如TRPO(信任区域策略优化)和Acer(具有经验重放的样本有效行动者-批评者)等方法,这些方法限制了策略更新的大小或者优化了策略更新。为了达到这一效果,这些方法在其他方面付出了代价:宏碁比ppo复杂得多,后者需要额外的策略外校正代码和回放缓冲,但它在雅达利测试中的具体表现只比ppo好一点点;虽然trpo在连续控制任务中非常有用,但它很难与策略函数和成本函数或辅助损失之间具有共享参数的算法兼容,例如atari和其他以视觉输入为主的任务。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

在ppo监督学习中,很容易实现损失函数并对其进行梯度下降,基本上,不需要调整超参数就能得到好的结果。然而,在强化学习中获得好的结果并不那么简单。算法中有许多变化,使得调试变得困难,要想得到好的结果,需要花费大量的精力去调试。Ppo在实现难度、采样复杂性和调试所需能量之间实现了新的平衡。它将尝试在每次迭代中计算一个新的策略,这可以最小化损失函数,并确保与前一次迭代的策略有相对较小的偏差。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

Openai之前已经详细介绍了ppo的变体(nips 2016纸质视频:通过策略优化进行深度强化学习),其中自适应kullback-leibler惩罚项用于控制每次迭代中策略变化的程度。现在引入的新变体使用了一个全新的目标函数,这在其他算法中很少见:

该目标函数与随机梯度下降相容,并去除了kullback-leibler惩罚项及其较差的自适应升级函数,从而简化了算法。在测试中,ppo算法在连续控制任务中取得了最好的结果,其在雅达利游戏测试中的性能几乎与宏碁相当;考虑到ppo的简单性,这个结果真的很令人惊讶。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

可控复杂机器人

Openai的研究人员设计了具有交互能力的机器人,然后用ppo训练它们的策略。在这些基于机器人学环境的实验中,您可以使用键盘为机器人设置新的目标位置;尽管输入目标序列不同于用于训练机器人的序列,但是机器人仍然可以被一般化。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

除了像roboschool这样的简单机器人之外,他们还使用ppo来教复杂的模拟机器人行走,比如波士顿动力公司的atlas模拟模型。与以前有17个独立关节的双足机器人相比,该模型中独立关节的数量高达30个。还有一些其他的研究人员已经成功地使用ppo来训练模拟机器人通过奇妙的跑酷动作跨越障碍(见雷锋的ai科技评论文章,机器人可能不会笨拙地行走,而由deepmind的新方法训练的人工智能非常优雅)。

策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

基准模型:ppo和trpoopenai已经发布了一个基准模型,其中包括并行实现的ppo和trpo,并且可以由py S3和tensorflow支持。他们还将上述训练机器人的预训练模型添加到机器人动物园。

论文地址:arxiv/ABS/1707.000。

基准模型地址:github/open ai/基线

相关文章:

Openai发布了开源软件roboschool来模拟机器人的控制训练

机器人行走可能并不笨拙,由deepmind的新方法训练的人工智能非常优雅

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:策略梯度下降过时了,OpenAI 拿出一种新的策略优化算法PPO

地址:http://www.6st8.com/zbxw/5773.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部