摘要: 视频文本检索(Video-Text Retrieval)作为视觉语言学习的一项基本任务,旨在根据给定的文本描述检索出具有相同语义信息的视频数据,或者根据给定的视频检索出具有相同语义信息的文本描述。如何准确挖掘视频和文本之间的潜在语义对应关系是解决这一任务的关键难点。然而,现有的视频文本检索方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱语义描述的视频文本对,导致模型擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,忽略了不同模态间隐藏的细节信息交互,从而影响模型检索性能。针对上述问题,文中提出一种跨模态信息融合的视频文本检索模型。具体来说,该模型以跨模态的方式利用相关的外部知识来改进模型检索性能。首先,构建两个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识来强化原始视频和文本特征表示;其次,设计了自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息进行特征融合,从而学习更具判别性的特征表示;最后,引入模态间和模态内相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,实现跨模态数据间的精准检索。在 MSR-VTT、DiDeMo 和 LSMDC 三个公共数据集上的实验结果表明,所提方法优于现有的视频文本检索方法。
中图分类号: