麻省理工科技评论:想理解中文 人工智能还得继续努力
本篇文章1749字,读完约4分钟
[综合/观察网韩]会写散文的百度脑瓜和阿里巴巴的天猫精灵打败了科杰的阿尔法戈……...近年来,人工智能不再仅仅是科学家口中的一个高级概念,而是逐渐进入了公众的视野。
然而,麻省理工学院科技评论网站在7月25日发表了一篇文章,认为识别中文不仅对疯子来说很难,对人工智能来说也不太容易。人工智能要想有效识别中文,需要更加努力。
在麻省理工的评论中,列举了代表中国企业的语音识别人工智能,如阿里和百度。
事实上,类似产品在美国的流行已经引起了中国技术投资者的兴趣。研究公司idc预测,到2020年,51%的智能驾驶行业、68%的手机和可穿戴设备行业将覆盖基于会话的人工智能系统。
最著名的可穿戴设备之一:谷歌眼镜(数据地图)
然而,评论认为人工智能可能需要在真正“理解”中文的道路上更加努力。
首先,就输入字符而言,输入中文有点困难。现在,如果我们想用键盘输入中文,最常用的方法是拼音输入法。
然而,汉语的特点是有四个声调,所以不同声调的汉字可能出现在同一个拼音组合下,而且同音字很多。在这种情况下,我们必须做一个“单词选择”的工作,从许多同音字中选择一个我们想要的。
毕竟,如果你不选词,你真的不知道如何打这些古代散文,如“嵇姬是非常渴望击中鸡”和“石石,一个石头诗人,爱狮子,发誓吃十只狮子”...
面对博大精深的中国文化,我的心情非常复杂
一些智能输入法可能会根据上下文推荐一些字符,但这种推荐的准确性相对有限。
因此,或许正因为如此,中国的主流通信应用(比如微信)主要是用声音来传递信息。在美国,这一程序中的主要沟通方式通常是文本。
面对这个问题,一些人工智能的开发者将试图通过语音命令来实现人机通信。这样,机器将用户的声音转换成文本,然后根据文本的含义给出反馈。
这种方法对某些特定的任务非常有效。例如,用户可以与机器交谈,并要求移动电话执行特定的指令,例如“查询天气”或“将单词翻译成英语”。然而,一旦对话中有许多不同的话题或语境,这种方法就不是很有效。
解决中文对话的另一个挑战是,作为一种语言,中文本身就很复杂。例如,即使是相同的字,按不同的顺序排列,也可能有完全不同的意思,如“脑满膘”、“脑满膘肠”……或“雾锁山,天连尾水。”
在这种情况下,如果你想理解一个句子的意思,你必须通过上下文。
此外,汉语句子不像英语句子那样使用空格来区分单词。因此,语言处理器必须使算法正确断词。
此外,中文没有时态,所以机器在判断时间线时有些困难。
“我不知道怎么和siri调情。无论如何,它已经让我哭了。”图/智虎用户@姚蜜图
图/@在同一张桌子上,来做我机智的年轻训练
人工智能面临的挑战还包括对汉语语义的理解。
中国地域辽阔,方言数量众多,可能彼此完全不同。例如,虽然福建人和广东人长期相爱并互相残杀,但他们可能无法顺利交谈。
此外,同一个句子在不同语境中的意思可能会完全不同。最典型的一句是“如果你来早了,你就等着;如果你迟到了,就等着吧。”
那么,在处理中文指令时,我们应该如何解决这些问题呢?
清华大学的一位教授指出,如果你想真正理解说话者的意图并实现恰当的交流,计算机需要考虑微妙的线索,如语调和重音。
另一位副教授也表示,计算机需要正确理解人类的情感,因为人类的决策并不完全依赖于逻辑。
说方言的西里来自中国街/“西里和我的故事”
幸运的是,中国研究人员的优势之一是大量用户提供大量数据。因为支持计算机语音理解的神经网络需要大量的训练数据,公司拥有的数据越多,其神经网络将变得越智能。
像百度和阿里巴巴这样的公司都受益于广泛的用户基础。根据麻省理工科技评论给出的数据,截至2016年底,百度每月活跃手机用户达到6.65亿;截至今年3月,阿里巴巴的每月活跃手机用户也达到了5.07亿。
此外,阿里巴巴的一名研究员也给出了另一种解决方案:使用相关主题下的数据来训练神经网络,而不是完全依赖大数据。
例如,如果您想训练神经网络来理解与“运动医学”主题相关的说明,您可以使用“运动”和“医学”主题中的数据。
这种方法不如大数据好,但是如果没有大数据,这种方法至少可以保证技术人员仍然可以在某些课题上训练神经网络。
这样,也许,你能否顺利掌握汉语就可以成为检验人工智能语言理解功能的试金石了~
标题:麻省理工科技评论:想理解中文 人工智能还得继续努力
地址:http://www.6st8.com/zbxw/6023.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。