导航菜单

助老兵圆梦!百度大脑Meitron技术20句话即可合成专属声音

一直引领行业创新的百度脑语技术也取得了新的突破。 7月3日下午,“百度创建2019”百度AI开发者大会百度脑论坛隆重举行。百度语音技术部高级主管高亮在上午的主要论坛上解释了白海首席技术官王海峰发布的智能语音芯片。百度红军,这是去年昆仑芯片发布后芯片级别的又一新进展。世界领先的语音识别模型SMLTA,以及支持风格迁移的语音合成技术,Meitron也引人注目,而百度大脑语音技术再次提供了引人注目的成绩单。

img_pic_1562319301_0.jpg

在语音识别算法方面,Highlights首先介绍了流式多级截断注意模型SMLTA。据悉,百度创新地采用了基于传统注意力模型的第二代深度尖峰技术,并将整个句子动态切断为一段流识别。在此基础上,百度还采用了多层次的关注模型来进一步提高准确性。这不仅是世界上第一次实现局部注意力建模性能超越整句注意力建模,而且也是第一个在线语音识别系统的大规模在线注意力识别模型。

在流行的综艺节目《向往的生活》中,“古人的鬼魂”的小型智能音箱和客人的流程对话的回答,我相信很多人仍然生动,在这背后有祝福SMLTA语音模型。据高亮介绍,目前的SMLTA语音模型已经在百度输入法和小型智能音箱上推出,使识别准确率分别提高了15%和20%。

img_pic_1562319301_1.jpg

在语音合成领域,百度大脑推出了语音合成技术Meitron,它可以在节奏迁移,音色模拟和情感拟人化这三个挑战中将音色,节奏,情感等元素映射到不同的子空间。当可以任意组合不同的元素时,可以灵活地控制合成语音的风格。同时,可以降低语音合成的阈值,并且可以仅使用一个句子来制作人的专用语音。

MEITRON风格迁移技术的特点主要体现在音色转换,多情感阅读和节奏迁移三个方面。多情绪阅读意味着合成语音可以通过MEITRON技术注入不同的情感。节奏迁移意味着同一个人的声音可以说话。不同风格的文字,音调转换意味着您可以用少量的声音合成一个人的专属音库。结果,语音合成效果变得更加真实和丰富,并且改善了用户体验。今年5月,基于百度的大脑技术,百度的大脑智能语音技术合成了已故老排长的声音,让消失的声音重新出现在世界各地,反战退伍军人在64年来首次实现。在中华人民共和国成立70周年之际,“团圆”为老一代反战退伍军人送去了最好的礼物。

寻找技术突破,李洪志的雄心壮志。百度大脑推出首款智能语音芯片,百度弘毅备受瞩目。 “我们希望制造一种超低功耗,超低成本,超高精度的芯片,可以在降低成本的同时为我们的智能设备提供语音功能。这是我们的目标。”百度语音技术部高级主管高亮说。为此,弘毅芯片的设计,传统芯片设计方法的改造,遵循“软件定义芯片”的新设计理念。该芯片采用双核HiFi4架构,定制指令集,大容量存储器,TSMC 40nm工艺。在该硬件规范中,大约100mw的平均工作功耗可以支持远场语音交互核心的阵列信号处理和语音唤醒能力。

img_pic_1562319301_2.jpg

百度红军芯片在业界具有良好的竞争优势。首先,宏盛芯片指令集是定制的。百度拥有完整的知识产权,专门针对百度脑语音算法进行了优化。定义芯片级AI指令集无疑是长期竞争力的有效保证。其次,百度红军芯片与百度远场智能语音解决方案协调统一。百度最新的信号处理,唤醒和识别技术创新,如Deep Peak和Deep CNN唤醒,模型光束和其他最新算法都在芯片中下沉。此外,百度红军芯片是按照汽车的标准设计的,无论是在智能硬件上还是在车上,都有很大的想象空间。

百度红军可以在应用场景中实现边缘计算能力的三个方面,包括阵列信号处理能力,支持多达六个麦克风阵列语音信号输入,回声消除,声源定位等;集成Deep Peak和Deep CNN领先算法。自定义唤醒字的唤醒能力;并支持离线语音识别。

核心算法的创新突破和芯片的新发布使百度的大脑语音技术逐渐成为人工智能大生产时代的能力,使人工智能技术能够通过技术的力量赋予更多场景,改变人们的生活和服务于人们的生活。百度脑5.0通过不断的技术创新和突破,使每个开发人员能够平等,方便地获得AI功能,并加速工业智能。