小米加入 AI 研究大家庭！联合西工大推出基于注意力机制的普通话语音识别算

来源：联合早报中文网作者：邵湖心更新时间：2020-09-07 08:44:02阅读：

本篇文章981字，读完约2分钟

雷锋。(公开号码:雷锋。小米最近发布了自己的智能扬声器，并加入了智能家居的战斗。就在我们认为小米只会触及“人工智能”这个热点的时候，小米的论文证明了他确实将人工智能视为一项严肃的企业业务。请允许我们代表人工智能研究大家庭欢迎小米公司，并向小米研究人员致敬。

本文是西北工业大学、陕西省语音与图像信息处理重点实验室和小米科技公司联合研究的结果。本文针对汉语识别任务，提出了一种基于注意机制的端到端学习模型。

根据《雷科技评论》的摘要，对该刊的编辑工作做了简要介绍。

近年来，越来越多的语言识别领域的研究采用了端到端的学习模式。这种学习模式可以直接将输入语音转录成相应的文本，而无需使用任何预定义的校准规则。根据雷锋的《人工智能科技评论》，研究人员在端到端学习模型的基础上，讨论了一种基于注意力的编解码模型，主要针对汉语语音识别，取得了良好的效果。

小米加入 AI 研究大家庭！联合西工大推出基于注意力机制的普通话语音识别算

图1，上图显示了编码模型。编码模型是一个blstm，它从输入X中提取h..

帧子采样技术也在训练中使用。在这项工作中，研究人员通过跳过帧来减少原始序列的长度，并对权重进行正则化，以获得更好的泛化能力和收敛效果。此外，本研究还探讨了两种不同注意机制的不同影响，即卷积注意和注意平滑，以及模型性能与波束搜索宽度之间的相关性。

小米加入 AI 研究大家庭！联合西工大推出基于注意力机制的普通话语音识别算

图2，上图显示了注意力和拼写模型。该模型由mlp(注意机制)和lstm(解码模型)组成。在每个时间步长t，mlp将通过组合隐式状态st-1和输入H来计算上下文向量ct..从而产生新的隐藏状态st和新的标签yt。

最后，本文提出的算法在mitv数据集上只实现了3.58%的字符错误率和7.43%的句子错误率，而没有使用任何词典或语言模型。此外，值得一提的是，该模型与三元组语言模型相结合，进一步实现了2.81%的字符错误率和5.77%的句子错误率。与其他两种基于内容的注意力算法和卷积注意力算法相比，本文提出的注意力平滑算法具有更好的性能。

小米加入 AI 研究大家庭！联合西工大推出基于注意力机制的普通话语音识别算