摘要: 针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练模型(VLP)应用于多模态情感分析领域,提出了一种融合自监督和多层交叉注意力的多模态情感分析网络(Multimodal EmotionNet Fused Self-Supervised Learning and Multi-Layer Cross,MESM)。通过自监督学习强化视觉编码器模块并加入多层交叉注意力以更好地建模文本和视觉特征,使得模态内部信息更加丰富完整,同时使模态间的信息交互更加充分,并通过具有IO意识的快速、内存效率高的精确注意力(Flash Attention)解决Transformer中注意力计算高复杂度的问题。与目前主流的TomBERT、CLIP、VILT、ViLBERT相比,MESM在处理后的MVSA数据集上准确率和召回率达到最高,分别为71.3%和69.2%,证明该方法能在降低运算成本的前提下同时有效提高多模态信息融合的完整性。
中图分类号: