【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
2018/4/28 10:00:00 中国科学院自动化研究所

当前,语音识别系统在近场环境下已呈现出相当好的性能,甚至超过了人类水平。然而在真实环境中,语音信号不可避免会受到噪声和混响的干扰;特别是在远场条件下,由于声波在传播过程中能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重,极大地影响了语音识别等语音交互应用的性能。下图分别展示一段纯净语音和带噪语音的语谱图,可以看出,带噪语音的信号已被严重干扰,因此很难直接得到令人满意的语音识别效果。


图1 纯净和带噪语音的语谱图对比

图2 纯净、带噪、增强的语音分布示意图
图3 生成式对抗网络结构示意图
图4 深度对抗训练框架
深度对抗的联合训练策略有效减小了噪声环境语音数据和真实训练数据的分布差异,提升了声学模型的鲁棒性。相较于语音增强方法,该框架没有增加计算的流程和复杂度,并且不需要一一对应的带噪数据和纯净数据,可作为通用训练框架提升已有声学模型的噪声鲁棒性。
我们将提出的方法在Chime-4数据集上进行实验,评价标准为词错误率。结果显示:测试集上超过了基线系统(29.29 vs 33.11),效果良好,验证了该方法的有效性。
此外,刘文举研究组在基于深度对抗训练的领域自适应问题上进行了系列深入研究,目前已在OCR、鲁棒性语音识别和语音增强等领域取得多项优秀成果。


更多精彩内容,欢迎关注
中科院自动化所官方网站:
http://www.ia.ac.cn
欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。
作者:刘斌、聂帅、刘文举等
编辑:鲁宁、欧梨成
排版:智慧
中科院自动化研究所
微信:casia1956
欢迎搭乘自动化所AI旗舰号!
http://weixin.100md.com
返回 中国科学院自动化研究所 返回首页 返回百拇医药