• • 下一篇
殷兵1,凌震华2,林垠1,3,奚昌凤1,刘颖1
YIN Bing1, LING Zhenhua2, LIN
Yin1,3, XI Changfeng1, LIU
Ying1
摘要: 针对真实复杂场景下模态缺失带来的模型兼容性问题,提出一种支持任意模态输入的情感识别方法。首先,在预训练和精调阶段,采用模态随机丢弃的训练策略保证模型在推理阶段的兼容性;其次,分别提出时空掩码策略和基于跨模态注意力机制的特征融合机制,以减少模型过拟合的风险并提高模型跨模态特征融合的效果;最后,为了解决多种模态情感标签不一致带来的噪声标签问题,提出一种基于多原型聚类的自适应去噪策略,该策略为多种模态分别设置类中心,通过对比每种模态特征对应的聚类类别与其标签的一致性来去除噪声标签。在自建数据集上的实验结果表明,所提模型相比基线在WAR指标上,模态对齐推理提升6.98个百分点,视频缺失推理提升4.09个百分点,音频缺失推理提升33.05个百分点。与现有方法在视频公开数据集DFEW上对比,所提模型也取得了最高的WAR指标,达到了68.94%。
中图分类号: