新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 开发者自述:我是这样理解强化学习的

开发者自述:我是这样理解强化学习的

来源:联合早报中文网作者:邵湖心更新时间:2020-09-03 08:08:04阅读:

本篇文章4030字,读完约10分钟

雷锋。com:杨,这篇文章的作者,原本发表在作者的个人博客上,和雷锋。com被授权发布。

虽然是周末,我们还是继续充电。今天,让我们来看看强化学习,但我们不想用它来玩游戏,而是认为它在制造、库存、电子商务、广告、推荐、金融、医疗保健和其他与我们生活密切相关的领域有很好的应用。当然,我们应该知道。

开发者自述:我是这样理解强化学习的

定义

强化学习是机器学习的一个重要分支,是多学科交叉的产物。其实质是解决决策问题,即自动连续地做出决策。

它主要包括四个要素:主体、环境状态、行动和奖励。强化学习的目标是获得最大的累积回报。

让我们以儿童学习走路为例:

一个孩子想走路,但是在那之前,他需要先站起来,然后保持平衡。然后他必须先走一条腿,不管是左腿还是右腿,然后再走下一步。

孩子是代理人。他试图通过采取行动(行走)来操纵环境(行走表面),并从一种状态改变到另一种状态(他走的每一步)。当他完成任务的子任务(走几步)时,孩子得到奖励(给巧克力),当他不能走路时,他不会给巧克力。

以及监督学习和非监督学习的区别

在机器学习中,我们熟悉监督学习和非监督学习。此外,还有一个主要类别:强化学习:

强化学习和监督学习的区别;

监督学习就像当你在学习的时候,你有一个导师给你指路,他知道什么是对的,什么是错的。然而,在许多实际问题中,如象棋和围棋,有成千上万种组合,导师不可能知道所有可能的结果。

此时,强化学习会通过尝试做出一些没有任何标签的行为来得到一个结果,并通过反馈来调整之前的行为,不管结果是对还是错,这样算法就可以学习什么样的行为在什么情况下可以得到最好的结果。

例如,如果你有一只没有经过良好训练的狗,每次它把房子弄得一团糟的时候,它会减少美味食物的数量(惩罚),每次它表现好的时候,它会把美味食物的数量(奖励)增加一倍,然后狗最终会知道把客厅弄得一团糟是不良行为。

两种学习方法都将学习从输入到输出的映射,监督学习是它们之间的关系,它可以告诉算法什么样的输入对应什么样的输出,而强化学习是机器的反馈奖励函数,它用来判断这种行为是好还是坏。

另外,强化学习结果的反馈被延迟。有时,可能需要很多步骤才能知道前一个选择是好还是坏,而监督学习做出的坏选择会立即反馈给算法。

此外,强化学习的输入总是在变化。每当一个算法做出一个动作,它就影响下一个决策的输入,而监督学习的输入是独立的和分布式的。

通过强化学习,代理人可以在探索和开发之间进行权衡,并选择最大回报。

探索将尝试许多不同的东西,看看它们是否比以前尝试过的更好。

剥削从过去的经验中尝试最有效的行为。

一般的监督学习算法不考虑这种平衡,它只是剥削。

强化学习和无监督学习的区别;

无监督模式不是学习从输入到输出的映射,而是模式。例如,在向用户推荐新闻文章的任务中,无监督学习将找到用户以前读过的类似文章并向他们推荐一篇,而强化学习将通过向用户推荐少量新闻并不断获得用户反馈来构建用户可能喜欢的文章的“知识地图”。

开发者自述:我是这样理解强化学习的

主要算法和分类

从强化学习的几个要素来看,方法主要包括以下几类:

以政策为基础,重点是找到最好的政策。

基于价值,重点是找到最佳的回报。

以行动为基础,重点是每一步的最佳行动。

我们可以举一个最著名的旅行社为例。

我们必须从A到F,每两点代表这条路的成本。我们必须选择路径,这样成本越低越好:

那么几个主要因素是:

状态是节点{a,b,c,d,e,f}

行动是从一点到下一点{a -> b,c -> d,等等}

奖励功能是额外的成本

策略是完成一项任务的全部途径{a -> c -> f}

有一条路可以这样走。当A时,你可以选择(b,c,D,e),当D被发现是最好的,你会去D。这时,你可以选择(b,c,F),当F被发现是最好的,你会去F,并在这个时候完成任务。

该算法是一种称为ε贪婪的强化学习,是一种基于策略的方法。当然,这条路不是最好的路。

此外,可以从不同的角度进行更详细的分类:

下图所示的四种分类方法对应相应的主要算法:

无模型:如果你不试着去理解环境,你将成为环境给你的东西,一步一步地等待现实世界的反馈,然后根据反馈采取下一步行动。

基于模型:首先了解现实世界是什么样的,建立一个模型来模拟现实世界的反馈,通过想象来预测接下来会发生的所有情况,然后从这些想象的情况中选择最好的,并根据这种情况采取下一步的策略。与无模型相比,它有一个虚拟的环境和想象力。

开发者自述:我是这样理解强化学习的

基于策略:通过对环境的感官分析,直接输出接下来要采取的各种行动的概率,然后根据概率采取行动。

基于值:输出是所有操作的值,根据最高值选择操作。这种方法不能选择连续动作。

蒙特卡洛更新:游戏开始后,等待游戏结束,然后总结这一轮的所有转折点,然后更新行为准则。

时差更新:游戏的每一步都在更新,所以你可以边玩边学。

政策:我必须在场,而且我必须边玩边学习。

政策外:你可以选择自己玩或者看别人玩,通过看别人玩来学习别人的行为规则。

主要算法如下,今天只简单介绍一下:

1.sarsa

q是一个行动效用函数,用来评估在特定状态下采取某一行动的利弊,可以理解为一个人的大脑。

Sarsa利用马尔可夫特性,仅利用下一步的信息,使系统能够根据策略指导进行探索,并在探索的每一步更新状态值。更新公式如下:

s是当前状态,A是当前采取的行动,s是下一个状态,A是下一个状态下采取的行动,R是系统获得的奖励,α是学习率,γ是衰减因子。

2.q学习

q学习的算法框架类似于sarsa,它也使系统按照策略指导进行探索,并在探索的每一步更新状态值。关键是q学习和sarsa更新公式不同,q学习更新公式如下:

3.策略梯度系统将从固定或随机的开始状态开始,并且策略梯度将让系统探索环境并生成从开始状态到结束状态的状态-动作-奖励序列,S1,A1,R1,...在第t次,我们让gt=rt+γrt+1+...等于q(st,a)

4.演员兼评论家

该算法分为两部分:演员和评论家。演员更新策略,评论家更新价值。批评家可以使用之前介绍的sarsa或q学习算法。

5.monte-carlo学习利用当前策略探索并产生一个完整的状态-动作-奖励序列:

s1,a1,r1,....sk、ak、rk~π

当序列第一次或每次遇到状态s时,计算其衰减奖励:

上次更新状态值:

6.深度Q网络DQ神经网络算法的主要方法是经验回放,它存储从系统探测环境获得的数据,然后随机采样样本来更新深度神经网络的参数。它还在每个动作和环境状态下实现了最大回报,只是增加了一些改进,增加了体验回放和双网络架构。

开发者自述:我是这样理解强化学习的

应用实例强化学习有许多应用。除了无人驾驶、alphago和玩游戏,这些项目中还有以下实例:

1.制造业,比如日本的fanuc公司,当一个工厂机器人拿起一个物体时,它会捕捉这个过程的视频,每次都记住它的动作,不管操作成功还是失败,积累经验,下次更快更准确地采取行动。

2.由于库存量大、库存需求波动大、库存补货慢等障碍,库存管理是库存管理中的一个难题。通过建立强化学习算法,可以减少库存周转时间,提高空的利用率。

3.动态定价中的q学习强化学习可以用来处理动态定价问题。

4.客户交付制造商希望满足所有客户的需求,并在向每个客户运输时降低车队总成本。通过多智能体系统和q学习,可以减少时间和车辆数量。

5.电子商务个性化在电子商务中,强化学习算法还可以用来学习和分析客户行为,定制产品和服务以满足客户的个性化需求。

6.广告服务,例如,linucb(属于强化学习算法bandit的一种算法)将尝试投放更大范围的广告,尽管它在过去没有被浏览过很多次,因此它可以更好地估计真实的点击率。

例如,在双十一推荐的场景中,阿里巴巴采用深度强化学习和适应性在线学习,通过连续机器学习和模型优化建立决策引擎,实时分析海量用户的行为和数百亿商品的特征,帮助每个用户快速发现宝藏,提高人与商品的匹配效率。此外,通过强化学习,手机用户的点击率提高了10-20%。

开发者自述:我是这样理解强化学习的

7.财务投资决策例如,这家公司pit.ai应用强化学习来评估交易策略,这可以帮助用户建立交易策略并帮助他们实现投资目标。

8.医疗行业动态治疗计划(dtr)是医学研究的一个主题,其目的是为患者寻找有效的治疗方法。例如,需要长期药物治疗的癌症可以通过以患者的各种临床指标作为输入的强化学习算法来治疗。

学习材料

以上简要介绍了强化学习的概念、区别和主要算法。以下是一些可供参考的学习资源:

大学课程:机器学习:强化学习,强化学习;

经典教科书萨顿&巴尔托教科书:强化学习:导论已被引用超过20,000次

t/raif2sl

由加州大学伯克利分校开发的经典入门课程作业——编程和玩Pac-Man项目(CS 188人工智能导论)

斯坦福大学开发的入门课程作业-无人驾驶汽车驾驶的简化版本:汽车跟踪(cs221ai:原理和技术)

5.cs 294:深度强化学习,2015年秋季。

大卫·西尔弗强化学习:

t/rw0rwtu

参考文章

健叔/p/14625de78455

建书/p/2100cc577a46

marutitech/business-rebuilding-learning/

analyticsvidhya/blog/2017/01/introduction-to-rebuilding-learning-implementation/

morvanzhou . github . io/教程/机器学习/ml-intro/4-02-rl-methods/

胡志/问题/41775291

算法狗/强化学习模型自由学习

雷锋。(公开号码:雷锋。相关阅读:

环境也能加强学习,而代理人找不到北方。加州大学洛杉矶分校的王军团队提出了一种新的环境设计方法

监督学习×强化学习,facebook让聊天机器人学会谈判

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:开发者自述:我是这样理解强化学习的

地址:http://www.6st8.com/zbxw/5380.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部