• • 下一篇
樊跃波1,陈明轩1,汤显1,高永彬1,李文超2
摘要: 人物交互检测任务旨在检测图像中所有人和物体之间的交互关系。目前的研究大多采用编码器-解码器结构进行端到端的训练,但这通常依赖于绝对位置编码,且在复杂的多对象交互场景中表现有限。针对现有方法依赖绝对位置编码难以有效捕捉人与物体相对空间关系,以及在复杂多对象交互场景中局部与全局信息整合不足的问题,提出一种结合跨维度交互特征提取与频域特征融合的新型人物交互检测模型。该模型首先改进了传统的Transformer编码器,额外引入了一种位置编码,通过与绝对位置编码的融合,使其能够对人与物体之间的相对关系进行建模。其次引入一种新的特征提取模块来加强图像信息的整合,通过跨维度交互捕捉图像中通道、空间和特征维度的交互特征,提升信息表达能力,同时利用离散余弦变换提取频域特征,捕捉更丰富的局部与全局信息。最后结合Wise-IoU损失函数提升检测精度与类别区分能力,使得模型可以更加灵活地处理不同类别的目标。实验在HICO-DET和V-COCO两个公开数据集上进行,结果表明,与GEN-VLKT模型相比,本文模型在HICO-DET数据集全部种类上的mAP提升了0.95个百分点,在VCOCO数据集场景1上的AP提升了0.9个百分点。
中图分类号: