• • 下一篇
樊永红,黄鹤鸣
摘要: 语音情感识别旨在赋予计算机准确识别语音信号中情感状态的能力,如何高效地表征语音中的情感特征一直是语音情感识别的研究热点。目前,大多数研究都致力于利用深度学习方法直接从原始语音或语谱图中学习最优特征,这种学习模式可以提取到更完整的特征信息,但忽略了对特定特征更深层细化信息的学习,同时不能保证特征的可解释性。为了解决上述问题,提出一种基于卷积神经网络的渐进式表征学习语音情感识别方法CnnPRL,该方法在语音声学特征 的基础上利用卷积神经网络渐进式地提取具有可解释性的精细化情感特征。首先,手工提取可解释的浅层特征并选择出最优的特征集;其次,提出级联卷积网络和动态融合结构,细化浅层特征,学习深层情感表征;最后,构建并行异构卷积网络提取不同尺度的互补特征,利用融合模块实现多特征融合,捕获多粒度特征,整合来自不同特征尺度的深层情感信息。在保证时间复杂度的前提下,在数据集IEMOCAP、CASIA和EMODB上,相较于BiGRU-Focal,TLFMRF以及TIM-Net方法,CnnPRL在指标WAR上分别取得了1.63%、2.92%和2.82%的提升,说明方法CnnPRL有效;消融实验表明CnnPRL的每个模块都有利于提升模型的整体性能。
中图分类号: