【团队新作】自动化所语音内容识别方向新进展(之二)
2019/7/26 17:30:28紫冬君 中国科学院自动化研究所

    

     CASIA解锁更多智能之美

    

    

     【编者按】2019年9月15至19日,全球语音顶级学术会议INTERSPEECH2019将在在奥地利格拉茨举行。INTERSPEECH是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,吸引了全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

     自动化研究所智能交互团队共有9篇论文入选该会议,小编将继续从语音内容识别内容介绍以下2项进展。

     01

     基于联合对抗增强训练的鲁棒性端到端语音识别方法

    

     图1 基于联合对抗增强训练的鲁棒性端到端语音识别总体框图

     端到端系统在语音识别中取得了重大的突破。然而在复杂噪声环境下,端到端系统的鲁棒性依然面临巨大挑战。

     针对端到端系统不够鲁棒的问题,刘文举、聂帅、刘斌等人提出了基于联合对抗增强训练的鲁棒性端到端语音识别方法。具体地说,使用一个基于mask的语音增强网络、基于注意力机制的的端到端语音识别网络和判别网络的联合优化方案。判别网络用于区分经过语音增强网络之后的频谱和纯净语音的频谱,可以引导语音增强网络的输出更加接近纯净语音分布。通过联合优化识别、增强和判别损失,神经网络自动学习更为鲁棒的特征表示。

     所提方法在aishell-1数据集上面取得了较大的性能提升。

    

     Jointly Adversarial Enhancement Training for Robust End-to-End Speech&nbsp Recognition

     Bin Liu, Shuai Nie, Shan Liang, Wenju Liu, Meng Yu, Lianwu Chen, Shouye Peng,Changliang Li

     02

     方向感知的多通道说话人提取方法

    

     图2 方向感知的多通道说话人提取方法框图

     说话人提取是提取音频中目标说话人的声音。与语音分离不同,说话人提取不需要分离出音频中所有说话人的声音,而只关注某一特定说话人。目前主流的说话人提取方法是:说话人波束(SpeakerBeam)和声音滤波器(Voice filter)。

     这两种方法都只关注声音的频谱特征,而没有利用多通道信号的空间特性。因为声源是有方向性的,并且在实际环境中是空间可分的。所以,如果正确利用多通道的空间区分性,说话人提取系统可以更好地估计目标说话人。

     为了有效利用多通道的空间特性,刘文举、梁山、李冠君等人提出了方向感知的多通道说话人提取方法。首先多通道的信号先经过一组固定波束形成器,来产生不同方向的波束。进而DNN采用attention机制来确定目标信号所在的方向,来增强目标方向的信号。最后增强后的信号经过SpeakerBeam通过频谱线索来提取目标信号。

     提出的算法在低信噪比或同性别说话人混合的场景中性能提升明显。

    

     Direction-aware Speaker Beam for Multi-channel Speaker Extraction

     Guanjun Li, Shan Liang, Shuai Nie, Wenju Liu, Meng Yu, Lianwu Chen, Shouye Peng, Changliang Li

    

     智显未来,洞见新知Discover Intelligence Future

     更多精彩内容,欢迎关注

     中科院自动化所官方网站:

     http://www.ia.ac.cn

     欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

     审稿:刘斌

     编辑:鲁宁

     排版:刘琪

    

    

    http://weixin.100md.com
返回 中国科学院自动化研究所 返回首页 返回百拇医药