• • 下一篇
昝志辉,王雅静,李珂,杨智翔,杨光宇
摘要: 针对单一语音情感特征对语音信息表征不全面及模型对语音特征利用率低的问题,提出了一种基于SAA-CNN-BiLSTM网络的多特征融合语音情感识别方法。该方法引入噪声、音量和音速增强器对数据增强,使模型学习到多样化数据特征,将基频、时域以及频域特征进行多特征融合,从不同角度全面表达情感信息。在BiLSTM网络基础上引入CNN捕获输入数据的空间相关性,提取更具代表性的特征,构建简化加性注意力机制,简化显式查询键和查询向量,使注意力权重计算不依赖于特定查询信息,不同维度的特征能基于注意力权重进行相互关联和影响,特征之间的信息得以交互和融合,提高特征有效利用率。实验结果表明,该方法在EMO-DB、CASIA、SAVEE数据集上分别达到了87.02%、82.59%、73.13%的效果,相较于IncConv、NHPC-BiLSTM和DCRNN等方法,分别提升0.52~9.80个百分点、2.92~23.09个百分点、3.13~16.63个百分点。
中图分类号: