专访 UCL 教授汪军:中国能不能出现像 DeepMind 这样的企业?| CCF-GAIR 2017
本篇文章3789字,读完约9分钟
雷:科技评论:我想大家对不久前在学术界流行的bicnet并不陌生。ucl和阿里巴巴之间的这个多智能双向合作网络可以研究星际争霸中多智能体之间的合作学习。在今年由中国计算机联合会(ccf)主办、雷(公开号:雷)和香港中文大学(深圳)联合主办的第二届ccf-GAIR全球人工智能与机器人峰会上,我们荣幸地邀请到了伦敦大学学院(ucl)计算机科学教授王军博士作主旨演讲。
王军教授在题为“人工智能agent社会”的演讲中,从多agent群体的特点出发,介绍了多agent的强化学习特性。具体来说,在相同的环境中,不同的代理不仅可以单独处理自己的任务,还可以共同处理和优化一个主要的目标方程,并且会根据具体的情况发生不同的变化。此外,王军教授用许多例子解释了强化学习与环境的关系。
演讲全文:加州大学洛杉矶分校计算机科学系教授王军:如何开展大规模多智能体强化学习?| ccf-gair 2017
王军教授告诉雷锋。事实上,他之前已经准备好了人工集体智能的演讲主题,但是最近,由于在多智能体领域的一些新的研究和尝试,他在ccf-gair会议上的演讲中引用的两篇论文也首次公开发表。事实上,在他的演讲中还有很多他想谈的事情。因此,演讲结束后,雷锋。《com ai技术评论》与王军、雷锋进行了对话。com如下:
目前,学术界很少有人研究多智能体的深度学习方法。这是因为目前大家只关注一个代理人的角色,还是这个话题本身很难?
事实上,多智能体是一个研究领域,也有独立的会议,有很多人在研究。然而,将多智能体强化学习,尤其是深层强化学习相结合仍然是一个相对较新的课题。
首先,研究人员只需要解决一个代理的问题,比如象棋和围棋。这个问题解决后,他们可能会使用深度学习来处理更多的代理。如你所见,这里有一条天然的静脉。因此,今年特别明显的是,许多多智能体问题已经通过深度学习得到了解决,其中包括加州大学伯克利分校的一个研究室,该研究室对语言理解进行了研究。在一个给定的场景中,研究人员让多智能体相互交流和沟通,但是他们不告诉对方交流什么。最后,他们发现慢慢地,语言可能会在其中产生。这也很有趣。
我们的团队可能从另一个角度出发,想象在这些场景中是否有任何生物规则,例如,可能有一个领导者,这样我们就可以理解领导者是如何在这个过程中形成的,以及一些代理人自己是否会成为领导者。我们现在所理解的是所谓的“分组”,也就是说,给定一些特定的条件,我们可能会认为这些多智能体可以组成一个团队,这实际上与人类最早的原始状态是一样的。在最早的时候,人们需要打猎,出于安全原因,他们可能会组成一个团队。因此,通过深入学习,我们可以学到以前学不到的东西,甚至理解人类学。
此外,我们能了解宗教是如何形成的吗?什么是宗教,因为每个人都可能是自私的,或者每个人都有自己的利益。如果有一种宗教将这些人联系在一起,这个群体的利益可能会最大化。当然,我现在说的只是一个假设。还没有人研究过这个,我们的研究只是第一步。
你在讲话中还提到,目前很少有人研究过20多个代理商的合作,但你也提到了,比如像滴滴这样的调度问题,以及自行车共享的问题。实际上,msra的城市计算或滴滴研究院的调度系统对交通系统也有类似的研究,但它属于一个动员所有个人的系统。那么,将行为个体作为代理人有什么意义呢?
在多代理的情况下,您有两种设置。一是让每个人只优化自己的利益。虽然利益之间可能有一些联系,但每次你做决定时,双方都不需要知道对方的决定。
还有一种合作关系,在这种关系中,我们需要在做出决定之前从对方那里获得一些信息,最后团结起来做出决定。这两种情况是不同的。如果你把它放在最特殊的情况下,就像你刚才说的,我有一个大系统,我把所有的多代理一起优化。此时,这个多代理实际上被转换成了单个代理,您可以将它作为一个代理,但是它有太多的输出,每个输出都必须输出一个结果。但是这个计算太大了,可能有一百万,这是不现实的,如果每个人都要权衡决定的话。因此,一般来说,我们会选择一种完全独立或双向的交流方式。
这也涉及游戏问题吗?
是的,有两种游戏。一个是我们所谓的零和游戏。就像下棋一样,如果你赢了,我就输了。这是一个相互的游戏。还有一些合作关系。例如,如果我们的目标相同,那就需要双方的贡献。
所以你在演讲中提到的生态系统的例子实际上是为了找到它背后的一些生态规律?这些理论内容如何应用?
实际上有两个层次。第一,我们想从科学中了解它背后的规律,满足我们的好奇心。例如,在组成一个群体后,人工智能和自然的表现是一样的吗?如果没有,有什么区别?如果是,为什么?我们不考虑它可能做什么,但主要是满足我们的好奇心。
我们当时研究环境动态变化的出发点是,当玩游戏时,比如玩国王的荣耀,如果你玩游戏的水平太弱,如果你的对手太强,你玩的时候会觉得无聊;如果你的水平很高,但是你的对手的难度很低,那么比赛就没有乐趣了。因此,游戏难度的设计本身就是一个优化游戏本身的过程。
但是游戏仍然是在虚拟环境中设计的,那么如何在实际情况和实际应用中量化各种指标呢?
主要有两点。一是在某些情况下你可以自己设置,所以试着犯错误。如果更理论化的话,还有另一种方法叫做“逆向强化学习”,也就是说,在逆向游戏中,我们有一些优化的策略作为训练集,然后把它们放回强化学习系统中进行学习奖励,然后用获得的奖励来解决新的问题。
事实上,我认为你最近的研究内容与gan密切相关,包括seqgan、irgan等。你认为目前干是一种有效的方法吗?还是与gan的结合是未来的趋势?
在我们的seqgan问世之后,它现在是唯一可以用于离散数据的有效方法,所以今年你会看到很多论文使用seqgan来解决文本问题,所以我们的文章的引用率变得非常高。
一些研究人员采用了另一种方法。该方法的理论很好,但实际数据的性能不是很好。因此,我们也试图找出我们是否应该改善一些标准数据集的效果。
如果推广到推荐系统和电脑广告领域,你认为应该如何与深度学习相结合?
比如像甘,我觉得现在有点太热了,有些问题可能还是很难解决。(例如?例如,离散数据更难解决,我们只是提出了一个方法,我们还在尝试具体效果是好还是坏。此外,它在优化时可能不会很好地工作,并且可能需要多次尝试,这与当前的深度学习不同。
以尔根为例,这是你与学术界合作的结果;像bicnet这样的多主体合作系统是与产业合作的,那么这两个研究的最大区别是什么呢?
该公司是高度工程化的,拥有数据。例如,如果一些论文与行业合作,你可以进行在线测试,包括对系统的a/b测试,但是几个博士生在学校是不可能做到这一点的。博士生必须在过去几年里找到一个课题,并直接进行科学研究。
除了与双杰合作,我了解到你也在北京成立了一家公司做个性化推荐业务,那么为什么不选择直接创业呢,学术界对你有什么吸引力呢?
不管是在学校还是在工厂,每个人的出发点都是解决一些技术问题。我的兴趣一直在学校,成立公司的目的就是通过这种方式实现技术改造。就像一个电脑化的广告或推荐系统,如果没有公司作为载体,我可能无法获得用户的数据并做在线测试。
我认为学院和大学对我的吸引力在于解决一些基本问题,这在商界可能不容易实现,公司也有产品化的需求。
所以阿里与大学合作研究星际争霸实际上是一个特例?因为它不是直接面向产品的?
是的,对阿里来说,这样做确实是一个特殊的情况,像“深度思维”这样的情况更少。Deepmind将自己定位为一个纯粹的研究机构,但它实现了商业化运作。事实上,我认为如果母公司提供资金给基础研究机构以商业模式管理,并做一些尖端的研究,其回报率会更高。我一直想强调的是,为什么像“深度思维”和“神奇小马”这样的公司不能在中国出现?
如果风险投资渴望快速成功和立竿见影的效益,这可能是不可能的。基础研究在第一年投资并想在第二年生产产品是不现实的。但是,如果把研究放回高校,高校的机制就有一些缺陷,即“一个萝卜一个坑”。什么意思?一名博士生,想在四年内独立完成一个项目。当然,我们有一些允许学生一起工作的机制,但是它们仍然非常分散。要想在高校里找到10个最好的学生来彻底解决星际问题是不可能的。只有雇佣10个行业中最好的人来做这件事,包括工程师、程序员和系统维护人员,才能生产出阿尔法狼。
现在国内很多企业也在建设研究所,他们是否也在考虑向这个方向靠拢?
是的,但是他们的研究机构非常功利。他们都是研究所,但他们不学习。我认为解决这个问题可能有两条途径。一是大公司突然意识到,他们想成为一个全新的、商业化运作的纯研究机构;另一个是创业公司在基础研究方面处于领先地位。如果像alphago这样的研究完成了,我相信它对vc会有很大的价值。例如,《星际争霸》或《王者的荣耀》如果能与中等水平或稍好水平的玩家竞争,就有很大的价值。
附言:王军教授的微信签名是“带着好奇的心”,问他这是不是对自己的评价。他说做学术工作就是这样,他需要永远保持好奇心。此外,这个签名也表达了他对生活的态度。王军教授说,回到学校后,他打算继续安静、踏实地多写几篇文章。“人工智能今年可能会火上浇油,但明年可能就不会了,所以你打算转行做点别的吗?绝对不是。你必须坚持下去。ゥ
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:专访 UCL 教授汪军:中国能不能出现像 DeepMind 这样的企业?| CCF-GAIR 2017
地址:http://www.6st8.com/zbxw/5268.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。