摘要: 摘 要: 为解决声纹识别准确性易受外部因素影响的问题,提出了一种基于多尺度频率通道注意力融合时延神经网络模型的声纹识别算法。该模型在 ECAPA-TDNN 模型的基础上进行了三点改进,包括:加入了多尺度频率通道注意力前端以从话语中获得高分辨率的特征表示、添加了多尺度通道注意力模块结合局部和全局的特征以融合多尺度信息、嵌入了特征注意力融合模块为多尺度的融合特征加权。这些改进使得模型更好地利用多尺度的时频信息,提高识别能力。为了证明以上改进点能够有效提高声纹识别的准确性和可靠性,基于公开电话语音数据集,从数据增强方面设计了相关对比实验、从特征提取方面设计了识别效果对比实验以及模型改进部分的消融实验。实验结果表明,与ECAPA-TDNN模型相比,MFCA-TDNN 模型在等错误率和最小检测代价函数两个指标中的下降幅度分别为5.9%和7.9%,其中最低的等错误率可以降低至3.83%,最小的检测代价函数可达到0.2202。
中图分类号: