• • 下一篇
基于Swin Transformer与多尺度特征融合的图像描述方法#br#
王子怡1,李卫军1,2,刘雪洋1,丁建平1,刘世侠1,苏易礌1
1.北方民族大学 计算机科学与工程学院, 银川 750021;
2.图形图像智能处理国家民委重点实验室(北方民族大学), 银川 750021
摘要: 基于Transformer的图像描述方法通过多头注意力会在整个输入序列上计算注意力权重,缺乏层次化的特征提取能力,并且两阶段的图像描述方法限制了模型性能。针对上述问题,提出一种基于Swin Transformer与多尺度特征融合的图像描述方法(STMSF)。在编码器中通过Agent Attention保持全局上下文建模能力的同时,提高计算效率;在解码器中提出多尺度交叉注意力(MSCA),融合交叉注意力与深度可分离卷积,在得到多尺度特征的同时更充分地融合多模态特征。在MSCOCO数据集上与SCD-Net(Semantic-Conditional Diffusion Networks)方法相比,BLEU4(BiLingual Evaluation Understudy with 4-grams)和CIDEr(Consensus-based Image Description Evaluation)指标分别提升了1.1个百分点和5.3个百分点。对比实验和消融实验结果表明,所提的一阶段方法STMSF能够有效提高模型性能,生成高质量的图像描述语句。
中图分类号: