搜狗推出“唇语识别”技术打造多形态的人机交互

来源：联合早报中文网作者：邵湖心更新时间：2020-09-21 14:36:23阅读：

本篇文章1033字，读完约3分钟

北京，12月14日(新华社)——从键盘打字到触摸屏，再到语音交互和手势交互，人工智能技术的发展正在推动人机交互向更加多样化的方向转变。今天，中国著名的互联网公司搜狗引进了人机交互的新技术——唇语识别，这也是业界第一个公开展示的唇语识别系统。通过机器视觉识别，不需要听声音，但只有通过识别说话者的嘴唇运动，它才能解释说话者所说的话。

与语音识别不同，唇语识别是一种基于机器视觉和自然语言处理的技术，因此它比语音识别更难开发。据报道，搜狗首创了复杂的端到端深度神经网络技术来模拟汉语唇语序列。经过数千小时的真实唇语数据训练，它还得益于搜狗在自然语言处理方面的强大优势，最终达到了行业领先的唇语识别效果。在非特定的开放式口语测试集上，搜狗唇语识别系统的准确率达到60%以上，超过谷歌发布的英语唇语系统的准确率50%以上，在汽车、智能家居等垂直场景中甚至达到90%。在最近结束的乌镇世界互联网大会上，搜狗的嘴唇识别技术被公之于众。在行业内大多数唇识别技术的实用性尚未得到验证的环境下，中国唇识别系统在行业内的首次公开展示成功完成，引起了广泛关注。

搜狗推出“唇语识别”技术打造多形态的人机交互

当国内大部分企业聚集在智能语音和图像识别领域时，唇识别技术在搜狗的引入无疑将引领整个行业进入一个新的发展方向。作为人机交互的一种形式，未来的唇语识别技术可以辅助语音交互和图像识别，广泛应用于日常生活、安全、公益等领域。例如，在车辆场景中，当周围噪声过大时，会干扰语音命令。通过嘴唇识别技术，可以避免干扰，保证人机交互的准确性和稳定性。不方便讲话的公共场所也能保证讲话内容的私密性。；在安防领域，由于目前大多数监控摄像头都没有麦克风，他们往往只能看到嘴巴的形状却不知道说什么，这给案例分析带来了很多困难。唇语识别技术可以帮助公安人员获取重要的语音信息，为公共安全提供有效的支持。此外，唇语识别技术还可以发挥巨大的公益价值，帮助先天性听力障碍者或老年人更好地理解和表达自己。

搜狗推出“唇语识别”技术打造多形态的人机交互