新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

来源:联合早报中文网作者:邵湖心更新时间:2020-09-02 01:36:02阅读:

本篇文章2900字,读完约7分钟

雷锋的人工智能科技评论:“强化学习”被提到,每个人都知道这是一种半监督学习方法,允许代理找到优化策略,从而获得与环境互动的回报。然而,在王军教授看来,强化学习的应用领域不止于此。

在刚刚结束的ccf-gair 2017大会上,伦敦大学学院计算机系的王军教授就如何开展大规模多智能体强化学习发表了演讲。-雷锋。(公开号码:雷锋。com)提到了他们团队最近正在研究的一种环境设计问题。例如,宜家希望优化其空店的设计,优化目标可以是环境中不同地点的平均人流,这样可以考虑放置在不同地方的商品;在快递分拣场景中,每个孔洞对应一个不同的目的地,分拣机器人需要将快递放入相应的孔洞中,因此希望分拣机器人的速度尽可能快,包括行驶的总路径尽可能短。它还尽可能少地包括路径之间的交集;共享自行车给城市管理带来许多问题,同时也需要满足实时需求,以合理的价格分配资源。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

需要对其进行设计以实现期望的环境,但用标准设计方法解析地处理这类复杂的对象-环境交互问题是困难的,而且对整个解空进行穷举计算的计算成本太高。

王军教授在加州大学洛杉矶分校的研究团队包括北京大学博士生张海峰和上海交通大学的张渭南。他们发现这种环境设计任务和一般强化学习之间存在对称性,并打算利用它:

一般强化学习:智能体与环境相互作用,环境相对固定,智能体学习优化策略,使智能体的目标函数最大化;

环境设计任务:主体与环境相互作用,主体是相对固定的,环境学习一种策略来优化其环境参数,使环境的目标函数最大化;

那么,我们真的能通过强化学习来设计环境吗?进一步,假设答案是肯定的,一般强化学习任务中的代理可以根据不同环境的特点学习不同的优化策略。我们能猜到环境可以根据不同主体在环境设计任务中的特点学习不同的优化策略吗?

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

王军老师的团队在论文《学会设计游戏:深度强化学习中的战略环境》中回答了这两个问题。

本文根据马尔可夫决策过程和智能体的策略函数构造学习范式。

马尔可夫决策过程是强化学习研究中的一个常见概念(状态空区间s,动作空区间a,状态转移函数p,回报函数r,折现率γ随时间变化)。代理在空州对州采取行动a,以形成自己的策略。强化学习的目标是找到使代理获得最大回报的方法。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

在标准强化学习用法中,马尔可夫决策过程m是固定的,只有代理可以更新自己的策略。为了将训练环境的能力添加到模型中,状态转移函数P被参数化为pθ,然后为M设置一个目标,使得过程函数被重写如下:

(等式1,允许过程m和代理同时实现他们的目标)

为了进行具体的研究,本文选择了这样一个具体的情况来阐述:环境是对抗性的,环境的目标是使代理人得到最少的回报。因此,要研究的目标函数是:

(等式2,环境的目标是最小化代理的回报)

优化方法1-转换概率梯度

考虑到上面的等式2在许多情况下不是解析的,提出了一种转换概率梯度的方法来优化。

首先,假设环境(决策过程)和代理的参数是迭代更新的。在每次迭代中,环境沿着梯度方向更新,然后代理根据更新后的环境更新自己的参数以找到优化策略。

为了找到θ的梯度,通过设计一组马尔可夫决策策略对来导出一组梯度计算方程,从而可以为该迭代更新计算梯度。

图1:将该方法应用于拮抗迷宫生成的示意图。代理试图找到从入口(绿色方块)到出口(红色方块)的最短路径,但是迷宫应该使最短路径尽可能长。沿着θ更新的方向,迷宫变得复杂。沿着φ更新的方向,代理找到的路径变得更短。其中返回被定义为穿过迷宫所需的负步数。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

最优化方法2:生成最优化范式在推导梯度方程的过程中,作者发现这个方程也不适用:1 .由于环境的自然限制,有时pθ是不可微的,这使得基于策略的方法不可用;2.在转换概率模型时,需要学习一个概率分布,这导致了数值方法的不可用性。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

为了解决不适用性问题,作者提出了一种生成范式来替代梯度法。

如图所示,环境生成器首先生成一组参数θ1~θn,然后形成一组不同的环境。在每个环境中,独立地训练一个代理以获得最优策略,然后在它们各自的环境中观察返回g1~gn,作为生成器更新下一轮参数的参考。这样,环境可以迭代地更新。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

实验证明,该方法是在迷宫环境中测试的,该环境要求代理以最少的步数从迷宫的左上角走到右下角。该环境的目标是使代理通过尽可能多的步骤找到最短的路径。为了避免在生成的墙的开始处阻塞代理,作者要求环境生成器逐渐增加挡土墙,并放弃将捕获代理的方案。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

可区分的环境

因为一个普通迷宫的墙壁只有两种状态:0(没有墙)或1(有墙),这样的迷宫是无法区分的。本文设计了一个具有概率墙的迷宫,在迷宫中,概率墙可以以一定的概率阻挡代理,从而成为一个可微的环境。

实验中使用了Opt(最优)和dqn(深度q网络学习)智能体,其中opt智能体不能学习,而dqn智能体可以使用深度神经网络将整个地图作为输入,从随机策略中学习和输出四个方向的动作。

如图所示,网格越暗,墙阻挡代理的可能性就越大。可以看出,两种环境都知道最有效的阻挡位置是在出口附近。同时,由于两个代理的不同特性(dqn代理对环境的探索更多),与dqn代理交互的环境可以更快地找到近似最优策略,但是从近似最优到最优需要很长时间才能收敛。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

不可区分的环境

在不可微的正常墙测试环境中,本文还考虑了一种情况:假设代理寻找最优路径的能力有限,环境将如何响应?

因此,除了opt和dqn之外,还增加了dfs(深度搜索优先,“击中南墙并再次转向”)和rhs(右侧搜索优先,确保右侧是墙)。

该图显示了由环境产生的不同大小的迷宫。可以看出,环境为不同的代理生成的迷宫是不同的,而没有分叉的狭长路径是为最优路径代理生成的;为rhs(右手第一)试剂生成的迷宫具有许多小分枝,这增加了侧壁的长度;Dfs(深度优先)代理几乎遍历每个网格两次;用随机策略为dqn代理生成的迷宫有一些死胡同。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

下面的动画展示了8×8迷宫迭代的过程,并在代理的交互中逐渐形成上述特征。

迷宫代理optdfsrhsdqn表明环境生成器可以根据代理的弱点生成环境。

还有一个学习曲线的分析图表,它清楚地显示了学习过程的对抗性。

对于具有固定策略的opt、dfs和rhs代理,随着训练的进行,生成器可以在开始时快速学习增加让步数量的策略,然后逐渐收敛。然而,dqn代理可以随着环境的变化不断更新其策略。从学习曲线的连续波动中可以清楚地看出,有时代理的学习速度比环境的学习速度快,这可能导致所需步骤数的显著下降。

环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

这样,我们在本文开头提出的两个问题“环境能促进学习吗”和“环境能根据不同主体的特点学习不同的策略吗”得到了肯定的回答。文章还指出,将进一步研究如何利用这种方法来设计更多的环境。

论文原址:arxiv/abs/1707.01310,作者:雷

相关文章:

伦敦大学学院计算机科学系教授王军:如何开展大规模多智能体强化学习?| ccf-gair 2017

采访加州大学洛杉矶分校教授王军,他是bicnet、阿里多元智能与物理合作网络的作者:多元智能与物理研究协会会创造下一个alphago奇迹吗?

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法

地址:http://www.6st8.com/zbxw/5014.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部