华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章
本篇文章8337字,读完约21分钟
据雷锋网站报道:7月23日,第二届语言与智力峰会在北京举行。华为诺亚方舟实验室主任李航做了题为“神经符号处理开启自然语言处理新篇章”的报告,阐述了他对自然语言领域发展以及神经符号处理对自然语言处理的影响的看法。
李航博士是华为诺亚方舟实验室的主任,北京大学和南京大学的客座教授,ieee和acm的杰出科学家。他的研究兴趣包括信息检索、自然语言处理、统计机器学习和数据挖掘。
深度学习(神经处理)给自然语言处理带来了革命性的进步,基于深度学习的机器翻译等任务的性能得到了极大的提高。展望未来,自然语言处理技术将如何发展和演变?在哪些领域会有新的突破?
下面是李航博士的讲话和雷锋的记录。在不改变初衷的情况下编辑了它。
今天,我想看一下我们的一个主要研究方向,我也希望和大家一起推广这个研究方向,那就是神经符号处理。
神经符号处理是未来自然语言处理的一个非常重要的方向。本报告分为以下几个部分:
首先,对自然语言领域进行概述。我将从我的角度整理出最近报道的要点。
第二,为什么我们认为神经符号处理是未来的一个重要研究方向,其主要应用是更广泛的问答(我们称之为智能信息知识管理系统)。同时介绍了行业内的一些相关工作和我们自己所做的一些研究。
第三,我们将讨论一些相关问题。
自然语言处理的最终目标是理解自然语言,这意味着计算机可以理解人类语言。具体来说,有两个方面:能够像人一样说话;能像人类一样阅读。理解有两种定义:基于表征;基于行为的。
如果一个计算机系统听到一个可以对应其内部表示的句子,我们认为计算机理解这种语言。或者基于行为,当机器人听到一个单词并能根据单词的内容做一些行为时,就认为机器人理解了自然语言。我们在这个领域的最终目标是期望我们开发这项技术,以便计算机能够实现这样的智能识别。
但是我们也知道语言是一种非常复杂的现象。没有自然语言处理和人工智能,人类可能不知道我们自己的语言是如此复杂的现象。让我总结一下,语言有五个特点,这使得我们很难把语言放到电脑上。
既有规则也有许多例外;
组合。
递归性使得语言非常复杂;
隐喻性的;
语言的本质是产生新的语言来表达,但它们都是隐喻。因此,隐喻是语言的一个非常重要的特征。对语言的理解与世界知识密切相关。如果你在没有知识的情况下谈论语言,那是不可能的。
互动性。
我们人类的语言实际上是人们与外界交流的一种方式。没有外部环境的相互作用,谈论语言是没有意义的。因此,由于语言具有如此复杂的特性,在计算机上实现自然语言理解对我们来说是非常具有挑战性的。这相当于这些特征,如果我们想用目前的技术来做计算,我们基本上做全局搜索,而我们不知道如何做这个全局计算。这是非常复杂和具有挑战性的。
主要原因如下:
首先,最近写的一篇文章《计算机社会的交流》叫做《迎接自然语言处理的新时代》。有一些观点,对此进行了详细的介绍和总结。去年在中国信息处理会议上报道的内容也是这种观点。
第二,如果我们现在总结一下,为什么自然语言处理如此困难,因为本质原因是我们仍然不知道我们是否能够用数学模型描述语言现象,这是自然语言处理的本质。这可能是不可能的,我们不知道,我们只能部分实现这个目标。
因此,这就是为什么自然语言处理(甚至广义上的人工智能)非常具有挑战性。
实际上,每个人都采用的方法叫做自然语言处理,而不是自然语言理解。我们的策略是简化人类语言理解的复杂过程。
首先,我们现在能做什么。例如,如果人类懂语言,如果人们做这种问答,问我姚明有多高,我想可能是2.29米。我回答的过程可能包括几个步骤。例如,语言分析、理解、推理、知识检索、最终判断和最终生成我的答案都是非常复杂的过程。
然而,当我们想用计算机来做这种智能问答或知识问答时,我们已经大大简化了这个过程。只需进行分析、检索和生成。今天,许多参加会议的老师都做了关于自然语言处理的讲座,在做问答的时候基本上简化了问答过程。
其次,自然语言处理的主流方法是数据驱动的。我们的主要核心技术是机器学习,现在是通过深度学习完成的。与此同时,我们将人类知识融入其中。深度学习的重要特征是整个技术实际上是一种机器学习,但是它的模型是受人脑处理机制的启发,然后我们定义这个模型。
因此,人工智能和自然语言处理的基本工具是机器学习,它可以尽可能多地引入人类知识,同时,让这个模型尽可能引用与人类相同的处理机制来实现自然语言处理。
事实上,我们看到深度学习和大数据确实为自然语言处理带来了许多新的机会。到目前为止,这条路是最有前途的前进之路。
这一观点是在我前年的一次会议上的报告中介绍的,我还在《计算机学会通讯》上写了一篇文章,简要讨论了人工智能,这就是这里介绍的观点。
如你所见,我们当前的自然语言处理,包括人工智能,就是这样一个过程。基于这些数据,我们的系统拥有用户,然后我们根据这些数据改进算法和系统,使系统的性能不断提高。当人工智能处于闭环时,我们可以为用户提供更好的服务,使我们的系统更加智能化。
我们看一些自然语言处理技术,即数据驱动。大约有五种自然语言处理技术。我们使用数学建模和统计机器学习方法来建模,这基本上是这五种类型的模型。主要应用和方法基本上属于这五种技术,包括分类、匹配、翻译、结构预测和序列决策过程。
分类。对于单词序列,我们必须打印标签,这是我们经常做的最基本的自然语言处理。
匹配。将两个字符序列进行匹配,查看它们的匹配程度,最后输出一个非负的实值来判断它们的匹配程度。
翻译。将一个文本序列转换为另一个文本序列。
结构预测。你给我一个文本序列,形成一个内部结构的信息。
顺序决策过程。在复杂和动态的环境中,我们如何不断地做出决策?例如,描述序列决策过程的马尔可夫随机过程是一种有效且常用的数学工具。
我们看到大多数自然语言处理的问题基本上是成功的和实用的,它们都是基于这种技术。例如:分类、文本分类、情感分析;匹配,包括搜索、问答、单轮对话和基于检索的单轮对话;翻译,包括机器翻译、语音识别、手写识别和基于生成方法的单轮对话;结构预测,包括专有名称识别、词性标注和语义分析;顺序决策过程,多轮对话。
我们可以看到,所有这些重要的自然语言应用程序实际上是五项最基本的技术,基本上它们可以做得很好。然而,自然语言处理并不完美,也远非理想。
这是从另一个角度来看待这个问题。我们称之为技术的上限和需求的下限。这条绿线表示技术可以达到的性能上限,例如机器翻译和专有名称识别,但不可能达到上限。这条蓝线表示用户需求的下限。用户必须有一个基本要求。如果你的机器翻译达不到或太低,我们将无法为用户提供满意的服务,用户也不会使用这个自然语言处理系统。因此,必须有一个用户要求的最小下限,任何实际应用都可能有这样的下限。
我们技术的上限是,如果我们能满足需求的下限,事实上,这个系统可能被用户使用。每个人都认为这样已经可以满足实际需求,否则,如果做得好,用户需求的下限会更高,实际的技术就不实用。自然语言处理,现在每个人都在做的只是看着绿线,如何不断地改进它,这样技术的上限——红色部分就可以再次改进,这样我们就有更多的技术来满足用户的需求,让用户能够使用它。
我们可以看到,自然语言处理在现实中非常热门。早上,一些人问自然语言处理中哪些技术更实用。我们可以看到机器翻译和语音识别变得越来越实用。然而,我们可以清楚地看到,这种机制完全不同于机器翻译或语言识别。我们仍然使用数学模型和数据驱动的方法。这个模型参考了人脑的机制,并使用大数据来制作这样的东西。
在这种情况下,我们还将看到许多新技术,如序列学习,它们正在不断得到改进。至少目前来看,这是主流的研究方向和发展方向,但是我们已经越来越能够满足用户需求的下限,所以我们的技术可以变得越来越实用。独立的对话,包括独立的问题和答案,变得越来越实际。
我们看到各种工业产品和服务问世,我们可以进行一轮对话。或者相对成熟,将来能做得越来越好。然而,多轮对话仍然相对具有挑战性。主要原因是多人对话的数据仍然非常匮乏。事实上,如果数据驱动模型做得很好,如果没有足够的数据,这将是一个巨大的挑战。现在做研究很困难。
因此,我们可以看到自然语言的未来发展可能会有很大的变化。我们刚刚谈到了五项最基本的技术,每个人都在不断向前推进,这可以使技术的上限不断上升。整个行业的趋势是这样的。
让我们看看神经符号处理。
自然语言的本质特征是符号,而符号表示的一个最重要的优点是其良好的可解释性和可操作性。如果我们在电脑上进行符号处理,我们会用符号来代表我们所有的东西。然而,我们也看到自然语言的本质是模糊和不确定的。如果我们把语言转移到电脑上,我们大多数人仍然会有噪音。
另一方面,我们可以看到,更广泛意义上的深度学习和统计学习可以更成功,因为这些机器学习方法可以很好地处理语言中的不确定性、模糊性和噪声。另一方面,我们称之为神经表征(向量表征),它使用向量来表达语义。它有很大的优势。
现在我们可以清楚地看到,符号表征和神经表征实际上是互补的。每个人都会自然而然地想到这样一个问题,我们是否能把这两者结合起来,这就是我们所说的神经符号处理。我们希望通过这样的手段,我们可以在自然语言处理方面做得更好,推动这项技术向前发展。
但是你可能不相信我说的话。就在今年年初,我去一所大学拜访了深学大师yoshua bengio教授。我还专门和他讨论了他对神经符号处理的看法。这是他的基本评论,不是原话。总而言之,有三点:
首先,如果将符号放入神经网络,他认为这非常困难,可能不起作用。神经网络本身是一个向量矩阵表示。在这个模型中,很难将符号插入其中。
其次,如果符号处理和神经处理在外围被有效地和连续地结合起来,这是非常合理的,并且是可以考虑的。
第三,他说这种问答式对话实际上应该是一种重要的应用。
至少我们被他认可了,而且最基本的观点和本吉奥教授的一样。
让我们来看看智能信息知识管理系统。你可以认为这是一个知识问答系统,但我之所以称之为知识问答系统,是因为它与我们一般的问答系统略有不同。我们希望在一定程度上借鉴人脑的机制。
该系统有几个模块,包括语言处理单元、中央处理单元、短期记忆和长期记忆。例如,当我们遇到一个问题时,语言处理单元对其进行分析,将结果放入短期记忆中,然后在长期记忆中找到相关知识或信息,然后将检索到的内容放入短期记忆中,最后通过语言处理单元产生答案。这是我们正在使用的系统。
还有学习,我们希望利用深度学习技术来构建一个端到端的系统。这个系统本身也有语言处理单元、中央处理单元、短期记忆和长期记忆。在学习过程中,我们假设这种输入是大量的信息知识和问答数据,即非结构化数据、结构化数据,以及大量的问题和答案,即一个问题和一个答案,形成这样的训练数据。在我们理想的情况下,我们只使用完全数据驱动的方法来自动构建整个问答系统。我们在整个长期记忆中构建信息和知识,这就是我们所设想的,或者建议我们考虑这样一个智能的信息知识处理系统。
它有几个特点。首先,我们可以不断积累信息和知识。这与我们的人相似。能够不断看到新知识加入到你的长期记忆中。同时,如果有人用自然语言提问,它可以准确地回答。当你不知道的时候,就说我不知道。我们也是如此。当我们什么都知道或不知道时,我们可以准确地告诉用户我不知道。
第二,我希望这个系统可以自动建立,无需任何干预。这样的系统在将来会非常有用和强大。你可以想象,如果我们身边有一个聪明的助手,你不知道怎么了。过去问问它,它可能会告诉你有多方便。当然,这个愿景不仅仅是我在这里所说的,我们还可以看到,很多业内人士都描述了类似的愿景。
我认为这很重要。如果人类能够做到这一点,这将是一个质的飞跃。人类发明了语言,这是第一次质的飞跃。有了语言,我们可以相互交流、传递信息和传授知识。第二个质的飞跃是,如果我们周围有一个智能系统,我可以确切地告诉我我想问什么。
然后,从另一个角度来看,计算机在两个方面非常强大:计算能力和存储能力。计算能力已经被充分利用,但是存储容量已经被充分利用。从概念上讲,它可以存储无限的信息,计算机现在可以存储人类所有的知识和信息。但是我们现在遇到的瓶颈是我们不能有效地访问这些信息。如果我们在自然语言处理和人工智能研究方面取得重大突破,我们就能真正把整个人类的能力推得更远。
从另一个角度,我们可以看到我们的智能系统是理想的。事实上,它已经有了这样一个原型,这并不是说它几乎是纤细的。如今,搜索引擎已经在一定程度上扮演了这样的角色。搜索引擎有爬虫、索引和机器学习机制来帮助我们分类并给我反馈。在某种程度上,我们已经在做类似的事情,但是我们没有做得更好。我们相信这是一个进化的过程,它将不断向前推进,技术将不断改进。我们相信有这样一个聪明的助手能在将来帮助我们。
让我们看看为什么神经符号处理和智能信息管理紧密结合在一起。这与本吉奥教授的想法有关。这项技术和这项应用之间有一些自然的联系。另一方面,它们实际上是互补的,密切相关的。
我们可以考虑利用神经符号处理这一技术,来实现智能信息知识管理系统。也就是说,你先来一个问题。通过语言处理模块,它有一个编码器和一个解码器。编码器将这个问题转换成中间表示,中间表示被放在短期记忆中。这个问题有两个部分,符号表征和神经表征。现在,在自然语言处理中,许多系统都在做类似的事情,人们可能不会明确地说出来。
知识和信息都储存在长期记忆中,有两种表征,即信息表征和符号表征。但两者之间的话语也是分离的,这应该是密切相关的,但仍有许多问题需要解决。
然而,我们可以想象长期记忆中的信息和知识既有符号表征又有神经表征。问答中有一个问题。经过分析和内部表征,我们可以通过短时记忆中的表征和表征间的匹配找到长时记忆中的相关信息和知识,并在短时记忆中生成相应的符号和神经表征。这时,也有一个解码器将这种表示转换成自然语言和答案,这样我们就可以构建一个非常智能的自然语言问答系统。
事实上,每个人都在各个层面看到过这个想法,并且有很多相关的作品。例如,语义分析,语义解析,在语义解析中要做的事情是将自然语言语句转换成结构化内容的表示。到目前为止,语义分析的主要思想是通过人们编写的规则来定义语法和模型,然后进行语义分析。然而,我们假设根本没有人参与,我们应该学习如何进行内部表示。
此外,众所周知,这个cmu项目叫做永无止境语言学习(Nell)。这些想法是,在互联网上获取的知识在不断扩展。一开始,有最基本的本体论。还有一些例子,例如,北京是中国的首都。对于这样一个例子,我希望从互联网上找到更多的知识,并将其添加到本体中。我希望这台加工机能不断爬行,爬行的准确性和效率能不断提高。这是内尔项目。
还有脸书的记忆网络,可以做一些简单的问答。例如,自然语言中有一个系统,比如——约翰在操场上。约翰捡起了足球。-鲍勃去了厨房。然后问这个系统,足球在哪里?操场的答案是,是的。
如果facebook引入这种模式,它可以做这样一个简单的问答。当然,现在准确率不是特别高。它的基本思想是把这些用自然语言表达的信息放入长期记忆中,这也是一种神经表征。将内容表示放入其中会带来一个新问题,直接将新问题转换为神经表示,然后匹配它,找到相关答案,然后返回。现在这个模型相对简单,但是很多人已经在这个方向上做了。
众所周知,像微分神经计算机这样的模型的基本思想是没有长期记忆,我们希望更好地利用长期记忆。长期记忆在dnbd模型中,它实际上是一个大矩阵,每个线向量实际上是一个深层语义表示。这个模型中有三种神经网络,可以控制对长期记忆机制的访问,因为如果有长期记忆,重要的是从长期记忆中读取它。有三种神经网络可以控制这种读数。我们都在朝着这个方向努力。
以下是我们在诺亚方舟实验室所做的一些基础研究的简要介绍。卢正东博士、尚博士等合作教师共同努力。
有两个主要任务,这两个任务都是研究我们沿着这条思路做什么。
首先是在知识地图上提问和回答知识。假设我们有很多数据,例如,姚明的身高是多少,2.29米。如果我们能有这样的观点,知识库中的哪个单元对应于答案,如果我们有大量的数据,我们的目标是有一个学习系统,即学习神经网络,然后建立一个自动问答系统。当一个新问题出现时,我们可以从数据库和知识库中找到答案。然后,生成自然语言答案,这是我们现在正在做的工作。
如果你能很好地完成这个设置,你就能真正地自动建立这个问答系统,这是知识库的一个例子。
这个想法基本上就是我刚才介绍的神经符号处理的想法。也就是说,在问题出现之后,我们有一个编码器,它将问题转换成内部表示。它既有符号又有神经表征(矢量表征)。这个三角形是一个符号,这个黄色条代表神经表征(向量)。我们知识库中的单元图也由符号单元图和相应的向量来表示。整个知识有两种表现形式。在问答过程中,如前所述,我们在知识库中找到答案,并生成中间表示。解码器通过答案和编码器产生问题的表示,并最终产生答案。
我们刚刚开始从知识库中找到答案,第二种可能性是关系数据库。我们的知识不是在网络表示中给出的,而是在数据库的表中给出的,因此我们实际上可以做类似的事情。也就是说,我们提出了一个模型,可以使这个关系数据库既具有符号性又具有神经性。长期记忆有这样一个完整的知识表征。当一个问题出现时,把它转换成中间的神经表征,然后搜索和匹配找到答案,最后产生答案。在这种情况下,我们进一步改进了这个模型,希望将符号和神经处理更有效地结合起来。
以下是该报告的摘要。今天我将和大家一起观看的神经符号处理是一个重要的研究方向。如果你问我,这是自然语言处理未来发展最重要的方向之一。
它的主要应用应该是这种广泛的知识问答,这种智能信息和知识管理。我们都看到业内每个人都在朝着这个方向努力,并取得了一些成绩。然而,要真正将这些技术投入实际应用,仍有许多具体问题需要解决,还有许多实际工作要做。然而,我认为我们仍然对这个方向充满信心,我们仍然认为这将是非常令人兴奋的未来。
问:我认为你刚才的报告中有一句很好的话,那就是我们应该怀疑人工智能是否能在数学上模拟人类智能。在这里,我想谈谈现在流行的聊天机器人。当人们交谈时,他们仅限于一轮对话,或在一个未指明的领域。我们在多轮对话和开放式问答方面做得很差。你认为人工智能目前能实现到什么程度?就目前的技术而言,它有一个粗略的解决时间吗?
李航:我认为数据仍然是一个瓶颈。现在每个人都没有数据。事实上,在一定程度上,无论是大公司还是小公司,每个人的数据都是不够的,因为在多轮对话中其复杂性会突然增加。这不仅仅是从一轮到多轮,大数据也有所增加。它应该会成倍增加大数据。
我个人的观点是,在开放领域进行多轮这样的聊天是非常困难的。短期内可能看不到。然而,如果它是基于任务驱动的,那么它应该可以在拥有特定数据之后进行,并且它确实需要数据来推进。
问:您刚才提到了两种表示,一种是传统符号的表示,现在是知识地图中间的表示,另一种是矢量化的表示。我认为矢量化的一个优点是,虽然我们有很多知识,但是很难用当前的逻辑符号来描述它,矢量化不一定准确,但是我们可以从大量的语料库中学习到一些东西,虽然我们不知道它是否正确。但是,当传统符号很难表达的时候,怎么能像你刚才说的那样把它们结合起来呢?
李航:应用驱动程序很困难,所以你不知道用向量来表达是否合理,所以只能根据最终的应用结果来判断。事实上,每个人对知识的理解以及我们日常工作和生活中使用的一些知识都是潜意识的,我们真的不知道它是什么形式和内容。如果我们把这些东西放到电脑里,我们会发现语言中有很多歧义,知识中有更多的不确定性。
这些事情都是你说的。现在我们只能在一些页面上看到它们。我们如何表达它们?例如,我们的默认绑定仍然是一个非常简单和粗鲁的方法。但是我们可以看到,它可以解决一些问题,这意味着应用程序启动可以帮助我们找到这些更好的表示方法,并更好地学习它们。
无论如何,我认为了解两个知识非常重要:一个是应用驱动的,另一个是特定的领域。
请务必区分字段和应用程序。当然,你也可以说我是一般领域,这也是一个,但一般来说,如果要使用知识,它可能会在金融,医学,甚至更详细的领域,这可以在现实中使用更多,更容易评估这个应用,看看这种表示方法是好是坏。
雷锋。(公开号码:雷锋。网站)还将发布刘冰教授在芝加哥伊利诺伊大学的演讲记录。请期待它。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章
地址:http://www.6st8.com/zbxw/6159.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。