百度Deep Voice 3：一个AI系统 2500个不同的角色

来源：联合早报中文网作者：邵湖心更新时间：2020-09-13 00:46:32阅读：

本篇文章754字，读完约2分钟

北京，10月27日(新华社)——最近，据国外媒体报道，百度新版本的深度语音可以通过深度学习技术输出各种声音，这也是百度深度语音系列的最后一个版本。该技术投入使用后，软硬件产品的用户体验将进一步提高。

作为一个完全由深度神经网络构建的高质量的tts系统，深度语音系列技术已经应用于百度的各种移动产品和第三方合作伙伴的软硬件产品中。最新的深声版本3可以在半小时内学会一种声音，并且可以同时“掌握”2500种声音。该系统的前几个版本侧重于合成一种或少量非常自然的类人声音，与之相比，第三个版本的深声系统旨在同时掌握大量细微差别的口音。

对于深度语音的第三版，百度开发人员表示，该系统可以高效地生成各种声音，可以应用于许多场景。例如，有声读物或视频游戏中的每个角色都可以有自己独特的声音，这将有效地增强用户体验。此外，他们还告诉媒体，通过使用大量高质量的数据集进行机器学习工程的额外培训，该系统将能够掌握10，000多种声音，这在之前发布的tts模型中是前所未有的。

百度Deep Voice 3：一个AI系统 2500个不同的角色

深度语音3架构图

今年年初，百度推出了深度语音，并利用流行的人工智能技术deep learning构建了一个能够实现文本到语音转换的系统。第一版《深沉的声音》经过几个小时的自学和训练，可以掌握一种声音，并合成短句。合成效果非常流畅自然，非常接近真人的发音。今年5月，百度推出了深度语音2，这是深度语音的升级产品。新系统可以在半小时的数据学习后模仿一个声音，单个系统可以学习数百种不同的口音。

百度Deep Voice 3：一个AI系统 2500个不同的角色