UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

来源：联合早报中文网作者：邵湖心更新时间：2020-08-30 18:24:08阅读：

本篇文章5780字，读完约14分钟

根据雷锋的人工智能技术评论:7月7日，全球人工智能和机器人峰会如期在深圳举行。会议由ccf中国计算机联合会主办，雷(公开号:雷)和香港科技大学(深圳)承办，汇集了来自世界各地的30多位人工智能科学家和近300家人工智能明星企业。雷锋。com近日将陆续发布峰会的精华，回馈给支持雷锋的读者。好久不见了！

今天介绍的嘉宾是来自伦敦大学学院的王军教授，分享“群体智能”的主题。

王军，伦敦大学学院计算机科学教授，互联网科学和大数据分析主任。我主要研究智能信息系统，包括数据挖掘、计算广告、推荐系统、机器学习、强化学习、模型生成等。他发表了100多篇学术论文，并多次获得最佳论文奖。他是国际公认的计算广告和智能推荐系统专家。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

人工智能已经进入2.0时代。多智能体相互合作、相互竞争是未来的发展方向。王军教授从多智能体群体的特点出发，介绍了多智能体的强化学习特点。具体来说，在相同的环境中，不同的代理不仅可以单独处理自己的任务，还可以共同处理和优化一个主要的目标方程，并且会根据具体的情况发生不同的变化。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

当强化学习应用于网络广告时，效果是明显的。通过不断学习广告后的用户反馈，企业可以快速准确地找到目标用户。

人工智能很难同时处理竞争和合作的局面。他们与阿里合作开发了一个人工智能对抗星际争霸的系统，目的是找到一种计算量小并且多个智能体可以相互合作的方法。

如何让大量的情报机构合作？像一些在线汽车应用一样，每个用户终端和司机手中的终端都可以看作是一个代理，它可以优化资源的分配，决定用户可以接受的价格。这几千万智能体需要人工智能合作的系统分析。在这方面，共享自行车尤其受欢迎。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

代理强化学习模型能受到自然的启发吗？王军教授谈到了生物世界中的自组织理论。当一些小型智能体遵循这一规则时，它们将反映一个群体的特征。这些模型可以用宏观事物解决宏观问题，但它们缺乏观察世界的微观方法。微观事物和宏观现象之间的关系是什么，值得今后研究。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

Lotka-volterra模型，描述了两个竞争种群及其种群数量之间的动态关系。王军教授对此模型进行了创新，提出了虎-羊-兔模型。如果智力学习能力得到加强，这与lv模型中猞猁捕捉兔子的动态现象非常相似。当智力和身体结合起来优化某个目标或单独优化自己的目标时，当这两种情况发生时，作为一个群体，它们有内在的规律。如果我们找到这些规则，将会对开发代理模型非常有帮助。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

以宜家为例:在宜家的热图上，我们可以看到商场里的活动非常普通，普通的优势是每个地方都放着不同的东西，用户都很注意。然而，如果我们开发一个强化学习算法，我们可以使环境随着用户的变化而变化，并且最优地安排路径，这自然是最好的。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

以分拣机器人为例:需要对单个代理(机器人)进行优化，以便以最快的路径分拣快递，而这种环境不一定是最优的。根据货物的统计特性进行考虑和设计，将一些投掷孔放在一起以避免机器撞击，从而优化场景。

以梅兹为例:人工智能需要尽快找到出口，这可以分为两个不同的维度:一个是给定一个环境，人工智能通过强化学习找到最好的策略出来，另一个是当智能的智能水平不再增加，环境可以优化，使它最不可能或更难出去。后来人们发现，人工智能通过强化学习可以通过智能和智能之间的相互作用来学习优化环境。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

以下是现场演讲的全文。雷锋。com在不改变初衷的情况下进行了编辑和整理:

大家好！我很高兴在这里与大家分享我们在加州大学洛杉矶分校的工作。今天，我主要想谈谈“群体智能”。潘院士今天上午谈到了人工智能2.0的一个发展方向，即有许多智能体相互协作、相互竞争。甚至从社会学的角度来看，作为一个群体，它的动力系统，以及整个群体的特征是什么，我希望给大家介绍一下。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

在我谈论它之前，我会给你介绍一下什么是ucl。我经常回中国。当我讲课时，人们会问你来自哪里。当我说我来自加州大学洛杉矶分校时，人们会说，“是加州大学吗？”我说，“不，我们在伦敦。我们学校的中文翻译叫伦敦大学学院。”我们相对低调，在英国我们的学术水平也不错。在最近的比较中，我们超过了剑桥和牛津。我们学院有29名诺贝尔奖获得者。例如，光纤之父高锟当时在我们学校的电子系。当时，他的老板有一个想法，当他从理论上证明一种物质在传播时具有一种特性时，他发现了光纤。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

我今天想重点关注的是强化学习。也许每个人都知道alphago，它的核心技术之一叫做强化学习。它和模式识别的区别在于它相对容易，并且它也可以在没有数据或训练数据集的情况下工作。该系统可以直接与环境交互并获取其反馈信息。在与它的交互过程中，它不断地学习和学习智能的东西，所以它在实际场景中使用时更加自然和灵活。它的主要特点是:一般来说，它的目标方程被定义为一种长期的奖励方式，通过这种方式可以获得一个优化的策略。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

今天的重点是多智能体强化学习，也就是说，在同一个环境中有一个智能体，当然也可以有许多智能体独立地与环境交互。在一种情况下，他们优化自己的目标，但这些目标之间有一些限制，或者他们结合优化一个主要的目标方程，这将有不同的变化，根据具体情况。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

我们过去做了大量工作的一个方面是互联网广告。我们之前在网络广告中使用了强化学习的方法。目前，我们可以在10毫秒内做出一个好的决定，我们可以用每天100亿的流量来分析它，这可以帮助广告客户准确地投放。在环境交互的情况下，根据用户在广告后的反馈，它具有持续的学习能力。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

另一个场景是大家都熟悉的星际争霸游戏。通过控制星际争霸中的英雄，我们可以找到多元智能的法则，并学习他们如何合作、与敌人竞争和交流。这是阿里在最近几个月开发的人工智能星际系统。开发该系统的一个重要原因是解决人工智能代理之间的通信问题。当他们想互相合作互相攻击时，他们必须有效地合作。我们希望在计算时，计算量相对较小，同时，他们可以达到他们的协作目的。这时，我们使用双向连接方法，发现其效果非常明显。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

目前，多元智能强化学习的研究还处于非常初级的阶段。今天，我将谈两个问题。第一，目前每个人的研究主要集中在少数多元智能之间的协调上。如果有几万个，效果不是很明显。看着真实的场景，尤其是有许多这样的场景，其人工智能机构的合作可能需要数百万甚至数千万个人工智能机构。举一个简单的例子，比如在线汽车应用，每个用户手里的终端，或者每个司机手里的终端，你可以想象它是一个代理，它可以做决定，我可以接受什么样的价格，甚至从系统层面给出一些机制，这样可以更好地分配它的资源。因为在一些高峰期，我的出租车比较少，但是需求量比较大，而在其他时候，可能会有很多出租车。这实际上是一个系统级的分析，需要人工智能的大量合作。共用自行车的情况更加明显。你可以想象，如果每辆自行车都装有一个小芯片或计算机，这是一个非常智能的东西，它的分布可以根据其目前的情况进行优化。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

现在，如果我们想建立一个强化学习的模型，这个模型必须能够处理数百万个智能体。我们做什么呢我们可以从大自然中获得一些灵感。如果我们去生态研究，我们会发现许多动物或植物都有它们独特的属性，特别是在宏观种群水平上，它们有一定的规律，其中一个理论叫做自组织，其理论是一些规律被归结为一些非常简单的规则，当这些小的智能体遵循它时，它们就会反映出种群的特征。然而，这些模型有一个严重的问题。他们能用宏观事物解决宏观现象，但缺乏观察世界的微观方法。例如，每个人都有自己的兴趣和优化方程。这个微观的东西和宏观的现象有什么关系？迄今为止，几乎没有什么研究。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

举一个简单的例子，有一个著名的模型叫做lv (lotka-volterra)，它是两个名字的组合，一个是数学家，另一个是生物学家，这个模型是以他们的名字命名的。该模型描述了两个竞争种群之间的动态关系。在自然界，生物学家或生态学家发现种群之间的数量不是一个静态的过程，而是一个动态的、相互制约的过程。例如，猞猁是兔子的天敌。假设只存在猞猁和兔子之间的关系，而不考虑其他因素，我们会发现当猞猁的数量增加时，兔子的数量会相对减少。当猞猁的数量减少时，兔子的数量也会增加，它们也会增加

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

从我们的观点来看，如果人工智能体是智能的，它就形成了一个社区，一个智能智能体和一个物种的网络。它的内部法则是什么？我们会发现和自然界一样的规律吗？或者它有不同的特征？如何学习它们？我们认为强化学习是每个人兴趣的驱动力，并把它放在一个简单的生物环境中。我们创造了一个狩猎环境。里面有老虎和羊，可以让老虎活下去。当然，羊应该藏起来，老虎应该抓住它。让我们把这个模型放大。例如，有100万只老虎，我们将以一种内生的方式驱动它们，看看在种群中会发生什么。我们使用了一个相对简单的模型，现在我们使用了深度学习和强化学习相结合的模型。每只老虎的输出是它的移动方向，另一个是它决定是和其他老虎组成一个团队去抓羊，还是自己去抓羊。鉴于这些决定，我们让它思考在这种情况下它应该做什么，并加强学习告诉ta3它应该做什么。在此基础上，它将自然地学习它的生存法则。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

我们在第一次实验中做了什么？我们不让它有任何智能，在最简单的情况下，让它的行动是随机的，或者它的行动不跟随学习和环境的变化。有趣的是，人工智能或我们人工生成的生态系统很快就会失去平衡。主要原因是老虎没有适应新环境的微观机制和动态过程。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

然后我们给老虎学习的能力，发现它表现出的现象与自然界中猞猁抓兔子的现象非常相似。有点惊讶，我们觉得一般来说，当你的强化学习达到最佳状态时，它就停留在那个地方。但是这个实验告诉我们这是一个动态平衡。当我们用图表反映老虎和绵羊的数量时，我们会发现它形成了一个圆形，这与lv模型非常相似。当然，我们的情况相对比lv模型更复杂，因为lv模型是一个一次性的简化模型，我们考虑了这个地方的各种情况，我们可以发现它们总体上是一致的。因此，我们发现在人口的情况下，如果一个人工智能形成一个人口，它与自然有一定的内在联系。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

这项研究的有趣之处在于，当人工智能被广泛使用时，我们突然发现一个场景，这里有许多人，也有许多人工智能代理，他们可以相互交流，他们可以联合起来优化某个目标，或者他们可以独立优化自己的目标。当这种情况发生时，作为一个群体，他们有他们的内在规律，而作为人类，我们有我们的内在规律。发现这些规律对我们开发计算机人工智能的一些新模型和新方法很有帮助。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

在下一个实验中，我们要做的是观察它的合作以及它们是否能组成一个小团队一起抓羊。我们把这个问题变得更复杂了。加入兔子后，我们会发现当兔子的数量很高时，老虎种群中的合作数量会很快减少到零。因为兔子相对容易捕捉，老虎不愿意成群结队地去抓羊。当兔子数量慢慢减少时，愿意合作的老虎数量又会增加，所以这是一个动态的过程。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

强化学习有一个环境。在标准强化学习模型中，假设这个环境是不变的，或者这个环境有一定的概率是不断变化的。这个概率是恒定的。我不一定知道它，但它不是可设计的，也就是说，它不是为适应这种环境而设计的。但在现实中，人们发现在许多场景中，环境本身需要一个适应过程。例如，这是宜家的购物计划，它的热图是根据用户在购物中心的活动数量绘制的。这是一个非常好的设计，中间有一个吃饭的地方，当然会有很多人。热图中的其他地方相对比较平均，平均的优势是你把不同的东西放在不同的地方，并且用户已经注意到了它们，所以从这个分布来看，这是一个非常好的情况。但这也是要设计的。你不能说初始路径安排是最优的。我们可以开发一个强化学习算法，这样强化学习的环境就可以根据用户的变化而变化。这是一项由建筑系教授进行的研究。他们制作了一张地图来模拟人们在商店中行走的情况，并根据热图反馈到路面设计中，从而优化用户在此停留的时间，或者最大化用户的可能消费。在这种情况下，可以进行一些优化。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

另一个例子是分拣机器人。首先，每一个单元都应该优化，以最快的路径排序到每个洞，每个洞对应一个不同的城市。这种环境不是最佳的。这个机器人发给北京的信和另一个机器人发给南京的信可能会相遇，所以效率不会很高。根据商品的统计特征，我设计是把南京的窑洞放在北京旁边还是上海旁边，所以这个环境也需要很好的考虑和设计。因此，你不能在标准的增强设计下设计，所以我们做了一个新的设计叫做学习设计环境，它可以优化这个场景。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

举个简单的例子，假设设计一个迷宫，我可以说我有一个人工智能，它的目的是以最快的效率找到出口。环境是了解你的智能体的智能水平，并根据你的情况设计迷宫，这样你就能以最大的困难或最小的概率出去。所以他们是一种竞争关系。如何优化它？你会发现它在两个不同的维度上起作用。就人工智能而言，在给定的环境条件下，它希望以最快的效率和最好的策略出现。在你修复了这个人工智能体所学到的东西之后，你可以在另一个维度上优化环境。我现在的人工智能体有这样的属性。我能根据它的属性使它的环境变得更困难吗？因此，通过在这两个维度上相互竞争和迭代，可以实现优化。这里的例子是一个迷宫，但是当然也可以有其他场景，比如机器人、宜家和其他场景。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

我们发现非常有趣的是，如图所示，左上角是基于不同人工智能体的能力，我们会发现它学习的环境是不同的。例如，在左上角，我们有最好的人工代理。在这种情况下，我们发现我们学习的迷宫是在这个给定的8×8的正方形下，它从入口到出口的路径是最长的。我们没有告诉你这个环境应该像这样优化。它基于人工智能。在右上角，使用了一个dqn模型，这是一个概率模型。也就是说，每次代理选择去，它都有一定的概率上下浮动，这是随机的。你会发现在这种情况下，有很多岔路口在学习环境中，而这条岔路口是让随机的人工智能落入一些分支，所以这种环境对它来说是最困难的。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017

当我们研究当前的趋势时，如果我们将其与人们的智慧相比较，差别仍然非常遥远。我非常同意笛卡尔的话:“机器和人的能力是非常不同的，最重要的问题之一是意识……”我们还不太清楚。我和认知科学家交流，认知科学家经常说他们心里有一个梦，想研究认知和意识，但是他不能研究，因为他没有好的方法。虽然我们在人工智能方面取得了很多突破，包括强化学习，但它离真正的人工智能还很远，我们必须不断努力。

UCL计算机系教授汪军：如何大规模多智体强化学习？| CCF-GAIR 2017