• • 下一篇
张军燕1,赵一鸣2,林兵3,吴允平4
摘要: 图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在图像多粒度特征提取不全面、图文关联性理解不充分的问题,提出一种通过提取图像多级视觉语义特征,与特征动态融合解码的方法。首先,编码器端提取多级视觉特征,通过图像局部特征提取器的辅助引导模块,以获取多粒度特征。然后,设计图文交互模块对图文信息语义关联进行动态关注;设计特征动态融合解码器,将带有图文信息动态权重的特征,经过闭环动态融合与关注、解码,以保证信息增强、无缺失,获得语义关联性的输出。最后生成图像中文描述语句。使用BLEU-n、Rouge、Meteor、CIDEr评价指标进行方法评估,将该方法与八种不同方法进行对比,在语义相关性的评分指标上有提升。其中与基线模型对比,在BLEU-1、BLEU-2、BLEU-3、BLEU-4、Rouge_L、Meteor、CIDEr分别提升了5.32%、6.76%、8.07%、9.78%、12.33%、4.88%、13.16%,表明该方法具有较好准确性。
中图分类号: