• • 下一篇
余正涛1,栾逸雪1,王文君2,董凌2,相艳3,高盛祥1,1
摘要: 针对当前基于时频域的语音增强方法普遍通过短时傅里叶变换后利用频谱二阶统计量建模信号的线性特征,而忽略了语音中潜在的高阶非线性交互信息的问题。提出一种基于双谱非线性特征耦合的语音增强方法,该方法采用编解码结构作为整体框架,在编码器后引入双谱特征提取模块,以获取三阶统计量所揭示的相位耦合与非线性结构信息。并通过跳跃连接与编码器特征融合,实现更深层次的幅度与相位建模。在 VoiceBank+DEMAND 数据集上的实验结果显示,此方法在语音质量的感知评估(PESQ)指标上达到 3.57,较基线提升15.53%,在语音信号失真感知评分(CSIG)、背景噪声干扰评分(CBAK)和整体语音质量评分(COVL)指标上分别提升5.51%、3.08% 和10.31%。
中图分类号: