• • 下一篇
宋源1,陈锌1,李亚荣2,李永伟3,刘扬1,赵振1
摘要: 为解决基于语谱图特征输入的单通道语音分离方法存在的不同说话人时频点重叠导致分离效果欠佳的问题,提出一种基于听觉调制孪生网络的单通道语音分离模型。首先,通过频带划分和包络检波计算调制信号,进而利用傅里叶变换提取调制幅度谱;其次,基于突变点检测和匹配的方法获取调制幅度谱特征与语音片段之间的映射关系,实现语音片段的有效划分;随后,设计基于协同注意力机制的孪生网络提取不同说话人语音片段的鉴别性特征;之后,提出基于领域影响机制的自组织映射网络(N-SOM),通过划定动态邻域范围,实现了无需预先指定说话人数量的特征聚类,以获得不同说话人的掩膜矩阵;最后,为了避免在调制域重构信号产生伪影,设计时域滤波器将调制域掩膜转换为时域掩膜并结合相位信息重构语音信号。实验结果表明,所提模型在 WSJ0-2mix 和 WSJ0-3mix 数据集上的语音质量感知评价(PESQ)、信号失真比改进(SDRi)和尺度不变信号失真比改进(SI-SDRi)均优于双密度双树复小波变换(DDDTCWT)方法。
中图分类号: