香港科技大学杨强教授:深度学习如何拥抱迁移学习?
本篇文章5943字,读完约15分钟
根据雷锋的人工智能技术评论:7月23日,第三届中国人工智能大会(ccai 2017)在杭州国际会议中心举行。其中,香港科技大学计算机与工程系主任杨强教授研究员发表了主题报告《深度学习的迁移模式》。本文主要阐述了如何将迁移学习与深度学习相结合,使深度学习模型更加可靠,以及具体的实际应用案例。
杨强教授谈到了深度学习模式的常见问题,并深入分析了如何使深度学习模式更加可靠。在数据变化的情况下,模型可以连续使用。报告称,迁移学习具有数据量小、可靠和个性化的优点。虽然深度学习模式在语音、图像和推荐等许多领域都有很大影响,但它不能用于医疗和教育等领域。主要有三个原因:遇到的数据往往是小数据,而不是大数据;深度学习模式非常脆弱。如果你稍微移动并离开现有的场景,效果会大大降低;接下来是应用问题。为此,杨强教授与学生们共同探索和实践了迁移学习与深度学习的结合,并通过解决大价值消费金融、跨学科舆情分析、互联网汽车分类等实际应用案例,从多个角度展示了深度迁移学习模式带来的优势。
你可以参考雷锋发表的另一篇文章。关于迁移学习的本质和实际应用
以下内容是杨强教授会议的现场记录。雷锋。(公开号码:雷锋。com)在不改变初衷的情况下完成了编辑
大家好!今天,我很高兴与大家分享我和我的研究生在这项研究中的一些经验,这项研究被称为深度学习的迁移模式。
首先,让我们谈谈我们的出发点。我们知道阿尔法戈非常强大,但还有什么是不够的?它不会从别人那里得出推论。如果你让他下棋,他不会用他以前的知识来帮助他快速学习新的国际象棋,也不会用他的国际象棋知识来做其他事情,比如自动驾驶。我们人类有这种能力,如何给计算机做到这一点是我们研究的一条主线。
由此,我们的研究方向是迁移学习。我们知道人们可以自然地做到这一点,生活中有很多例子。这也在一定程度上解释了为什么我们可以看到,孩子们不需要数以千万计的正面和负面的例子来帮助他们学习,他们经常用很少的例子来学习一个复杂的概念。同时,学术界和工业界现在都认为迁移学习是下一步研究和应用的重点。去年,安德鲁·吴(百度公司前首席科学家吴恩达)谈到了下一步迁移学习的应用。
迁移学习的三大优势:我们为什么要进行迁移学习?我总结了三个原因:
小数据。在我们的生活中,我们会遇到很多小数据,而不是大数据。当数据稀疏时,我们仍然可以在不同类别之间建立可靠的模型。这不是空,但我们有很多大数据经验可以学习,站在大数据巨头的肩膀上,所以人工智能被广泛使用,这种迁移学习模式至关重要。
可靠性。即使我们有大数据模型,我们也担心它的可靠性。当一个模型迁移到不同的领域时,会发现其准确性会大大降低。如何防止这种情况,我们需要模型本身具有适应能力和自带迁移能力。
个性化。我们整个社会,我们的应用程序都在朝着个性化的方向发展。有了云和各种终端,终端的运营商都是我们个性化的人。然后我们制作一个模型和一个服务来适应我们每个人的特点,迁移学习是必不可少的。
迁移学习中的困难
迁移学习非常困难,而且很难找到不变量。教育学有一个概念叫“学习迁移”,也就是说,如果一个学生已经学到了可靠的知识,如何去测试它,也就是看他是否有能力迁移到未来的场景,然后他会发现学习一门新的课程很容易,但是这种学习迁移能力很难迁移。
让我们看看如何找到不变量。在中国和世界的许多地方,司机坐在左边,但去香港的司机坐在右边。许多人不会开车,这会导致危险。然而,使用迁移学习来教你一个立即驾驶的技巧是安全的,也就是说,找到一个不变量。不变量是司机的位置总是在路中间附近,所以你可以保持司机的位置最靠近中心线。
很难找到不变量,但它们已经出现在许多其他领域。杨利村最近问了一个问题:机器学习的热力学模型是什么?我的答案是转移学习,它把一个领域的知识,也就是“能量”,转移到另一个领域。这是一个类似于热力学的概念,热力学把两种物质放在一起,然后研究热量和能量如何在物质之间传播。不同的是,这里的知识比物理学中的能量复杂许多倍。因此,这个问题在科学上也具有深远的意义。
如何实现迁移学习:深度学习+迁移学习
今天我们讨论的是如何实现迁移学习的一个方面。从一个单一的层面来看,将一个领域中的模型和知识进行层次分解,就像杭州的雷峰塔一样。我们可以从古典建筑发展到像雷峰塔这样的多层建筑。逐层分析,深度学习只是给我们提供了层次和层次。
我将在下面仔细描述它。如果深度学习从左到右,从输入到输出,中间会有许多非线性变换,我们可以忽略。然而,如果我们想将这些层次迁移到新的领域,知识的迁移就相当于参数的迁移,参数就是权重。
在这里,我们可以看到有多少知识可以从蓝色转移到橙色,从源域转移到目标域。我们可以看到,在中间层有许多可以共享的层参数。此外,等级越高,它可能离高等级的概念越远。我们关心的是场之间的距离,以及我们能否描述场之间的距离。在深度学习的初始阶段,有许多启发式方法,但事实上,许多概念与迁移学习是一致的。
让我们看看这种分层研究对迁移学习有什么样的影响。我的学生魏莹列出了最近转移学习和深度学习的联合工作,其中像cnn和ddc这样的名词是最近发表的文章中的系统名称。横轴是年份,纵轴是从2011年到最近的精度。左边是我的一些学生做的作业。他们发现了不同领域的学生共享的知识,但没有使用深度学习的概念。这可能是2010年和2011年完成的工作,叫做tca。右上角是dan,这是深度学习加上迁移学习。可以看出,深度学习和迁移学习的准确性大大提高,这不仅有利于理论,也有利于工程效率。这里,我们使用距离表达式,并使用mmd来查找两个字段中两个数据集之间的距离,这是在网络的上层,从左到右,从下到上,更重要的是,找到并最小化这样的距离。
如你所见,从一个领域转移到另一个领域更容易,而我们关心的是更高层次的领域之间的距离。
有人对这项工作进行了系统的比较,我们可以看到,代表迁移能力的红色正在一步步减少,并从左到右一步步加深。如果是深度学习模型,下层更容易在图像上迁移,但在上层却不容易。我们还可以进行各种计算和更改。例如,我们可以让迁移的参数在后面的字段中重新训练,这样我们就可以得到上面的行。我们的线越宽,迁移能力就越强。如果这两个领域之间的差异太大,那么这种迁移就不能进行,就像下面的蓝线直线下降一样,这种能力就不起作用了。
模型迁移有两个主要问题。一个是不同模型中的层次,它的迁移是量化的。第二,两个领域之间的距离是否有很好的度量,这也为我们的研究提供了很好的指导方向。例如,这里的几行进一步说明了我刚才提到的观点。第一个是细微的调整,也就是说,它有助于目标场帮助我们继续调整参数。此外,从上层到下层是从普遍到个别的演变,你可以看到这些曲线正在下降。此外,我们还关心两个领域之间的距离。
接下来,我们可以用这个观点来总结不同的知识转移场景。
第一个是我们根本没有在这两个字段中标记,目标和源数据也没有标记。此时,我们可以使用刚才的知识来修复底层并直接迁移它。我们可以在更高的层次上放手,所用的方法可以缩小两个领域之间的距离。虽然我们没有标出这个距离,但我们仍然可以测量它,就像刚才的mmd方法一样。
另一种方法是使用损耗描述,这也是不同的,例如,两个场之间的直接测量,我们同时做两件事。第一件事是利用两个场之间的距离,我们应该尽量缩小这个距离,同时,我们可以使每个场更好地表达自己。
三种不同的迁移方法将这些概念相加,我们可以总结出三种不同的迁移方法。
基于差异的方法
在哪里进行迁移的转换和适应?它可以在某个级别或多个级别完成。如何测量两个场之间的距离可以用亮概率和模型来完成,也可以用联合概率和模型来完成。此外,可以添加源字段的信息以建立更准确的损失。这些都是在图像领域获得的知识。自然语言中会有类似的方式吗?
下面描述nlp的文章也证明了这一点。假设我们将自然语言的高级处理分为三个级别,即E、H和o。如果我们不改变地锁定它,其他级别可能会也可能不会改变,因此我们可以发现最好先迁移,然后再微调。另外,在目标领域,我们可以让它在再生的后期做适应性学习,也就是解锁,效果最好。
这个模型也可以发展成多模态的。上面的源域是图像,下面的可以是文本,这允许他们共享一些层。由此产生的系统不仅可以理解源域,例如,图像可以转换成文字,而且文字可以转换成图像。此外,可以添加正则化,并且我们可以改变各种规则以使上层彼此接近。
转移学习
有了这些层次概念,迁移学习可以进一步发展。过去,从源到迁移目标,迁移学习被赋予源字段和目标字段。现在我们可以分多步迁移,从甲到乙,再从乙到丙,就像在石头过河一样。这是我们最近的工作,迁移学习。
迁移学习也可以通过使用深度学习的分层概念来进行。我们右边有三种类型的数据,一种是源域中的数据,如图像,另一种是目标域中的数据,如单词,并且有许多字段将单词和图像混合在一起。我们的一个做法是在中间的田地里采集一些样本,这样可以更好地帮助源田地迁移到目标田地,就像在石头中间过河一样。
如何得到这一点,在训练目标模型时,我们有两个数据,一个是不断地检测目标域中的分类效果,另一个是不断地尝试来自中间域和源域的新样本,最终在整个不同的数据集之间形成一个新的数据集。
这样的概念在应用中也非常有用。这是斯坦福大学最近完成的一项工作,它将非洲大陆的贫困从一幅图像区分为一幅卫星图像。最后,我们发现这种转移方法的效果与人工采样和标记的效果非常相似,一个为0.776,另一个为0.761,由于使用了转移过程,它们之间的人工参与大大减少。
生成对策网络
最近另一个流行的想法是所谓的一代对抗网络。它的思想来源于两个模型的交互,一个是生成一个模型,这个模型可以生成一个模板,也就是右边的G模块,这在开始是很粗糙的。还有D模型,它比较生成的和真实的样本。它可以告诉您由您生成的模型生成的样本是否足够好。在他们之间的游戏之后,有一个学习上的飞跃,这使得G和D都有所提高。
许多学者也用这种方法做迁移学习。例如,当我们给出两个数据集时,我们一开始没有任何数据,并且我们不知道这个包对应于这只鞋。该系统可以通过深层网络生成该对齐模型,并根据该模型找到最匹配的鞋模型,该模型是完全生成的。在原始数据中,鞋子数据集不可用,如右侧所示。这也是迁移学习的概念。
骑自行车的想法也很有趣。如果一个源域可以迁移到一个目标域,我们也应该将数据和知识从一个目标域迁移到源域。如果您回来了,如果您可以返回原始样本,这意味着迁移已经被可靠地学习了。就像我们用机器翻译软件把一首唐诗翻译成英文,然后用同样的软件把它翻译回中文一样,我们都知道我们经常会得到一些像乱码一样的词,而且我们根本不能把这首诗还原出来。如果我们能回到原诗,翻译将是可靠的,概念将是相似的。
甘的模式确实带来了一种新的移民思想,使两个领域同时做两件事。该图显示了要做的两件事。绿色部分是双方共享的空深度学习水平。我们如何找到这个级别?这取决于第二件事,也就是说,我们尽最大努力找到一个区分领域的模型。我们有一个活动域A和一个目标域B。如果有一天模型发展到我们无法区分数据来自哪个模型的程度,那么共享模型是可靠的,也就是说,它捕获了两个域之间的不变量,然后我们返回到左右行驶的场景,找到了不变量,可以用于迁移。在最后一个领域,最高的精度是由刚才的模型获得的。
迁移学习应用案例
让我们来谈谈我和我的学生所做的迁移学习工作,尤其是与深度学习的结合。一个名叫戴文渊的学生,他在第四范式公司的工作非常有意义,为银行销售大量产品,比如汽车贷款。昂贵的汽车贷款样本很少,不到一百个,所以不可能用这么少的数据建立模型。我该怎么办?借助小额贷款的数据,如上亿客户的沟通,我们发现两个领域的共性,一个是小额贷款,另一个是大额贷款,模型被迁移,使其响应速度提高了2倍以上。
另一篇是我们将发表的一篇用于公众意见分析的文章。我们知道民意分析非常有用。无论是商业还是政府服务,每个人都想知道这么多信息,不管是正面的还是负面的。为什么会这样?你对什么产品感兴趣?你对哪种服务满意,等等。我在这里给出了两个不同的字段。如果我们在一个领域中有一个标签,就像在最左边给出的,比如伟大,这是一种恭维。如果我们说这是一本好书,我们会有所作为。我们的问题是,我们能否借助同一领域的数据减轻体重,以便在新的目标领域建立可靠的模型。这是一个非常好的迁移学习场景。
然而,在过去,当进行迁移工作时,我们需要一个名为pivot的概念,这是两个领域之间共享的一个关键词。这两个关键词也非常有助于指出这是积极的和消极的。就像伟大、无聊和可怕这两个词一样,我们过去完全依靠人来找到这两个词,我们知道这两个词不可靠。
我们通过迁移学习找到单词。这里使用的工具是对抗性模型,它从一堆抄本中找出更值得注意的单词和短语。有了这种对抗模式,我们可以自动得分。不管我们的分数是否可靠,我们可以用另一个领域标签词来告诉我们,什么样的词有这样的特征?首先,分享这两个领域可以帮助我们指出新领域的舆论趋势。同时,我希望模型越少越好,也就是说,当这三样东西转化为目标函数时,模型就可以建立起来。左边是公众意见的分类器,右边是领域。同时,我们希望领域越混乱越好。同时,我们希望情感的准确性越高越好。两者之间的博弈形成了生成网络的概念。此外,多任务学习意味着两个任务一起执行,一起分享一些东西。
最后,在我们正确设置了一些距离函数和损失后,我们可以学习它们,效果非常好。
最后一个应用是上海汽车的研究。汽车能根据行驶时的路况分析它在做什么吗?它是共享的还是私有的?我们很荣幸能得到一些数据,其中我们可以同时做两种分析,一种是图像分析。虽然我们在这个领域没有太多的标注数据,但是我们可以通过出租车学习。左边的是同时做两个任务。第一个是帮助我们根据当前的出租车数据来标记网络车的数据,但是这里面可能会有错误,所以我们可以在这个领域使用一些图像分析来纠正这些错误,然后再把它们拿回来扩展这样一个样本集。经过两者之间的多次往返,我们将得到一个非常可靠的模型,最终我们可以用这样的算法得到一个非常好的迁移效果。
最后,综上所述,迁移学习和深度学习可以有机结合,两者可以互补。深度学习帮助我们划分出非常精细的层次,我们可以对每一层进行定量分析。迁移学习可以帮助深度学习变得更加可靠。一个结果就是深度学习的迁移模型,也应该说是一个深度迁移学习模型。
参考阅读《杨强》:迁移学习的本质及其实践应用
雷锋。com整理和编辑
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:香港科技大学杨强教授:深度学习如何拥抱迁移学习?
地址:http://www.6st8.com/zbxw/5904.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。