• • 下一篇
张祖习,张战成*,胡伏原
摘要: 由于视频时空特征的多样性与复杂性,以及不同速度和尺度下动作的广泛性,针对现有方法在动作识别任务中普遍存在局部运动细节捕获不足和长程时序依赖关系挖掘不充分的问题,提出局部与长程时序互补建模的视频动作识别网络。该网络包含两级融合运动激励(SFME)和时序聚合通道激励(TACE)模块。SFME通过计算与融合相邻两帧特征图的一阶差分与二阶差分,并将融合后的权重对原始特征图的通道进行激励,以增强多级运动特征的细粒度提取能力,从而建模局部时序信息。TACE通过通道分组策略构建分层残差连接的金字塔结构,以扩大时序感受野和增强多尺度特征的学习能力。同时,设计时序通道注意力(TCA)机制,对聚合后的特征图进行动态调整,优化时序通道间的权重分配,从而建模长程时序信息。最后,将上述优势互补的模块融合嵌入至二维残差网络,实现端到端的动作识别。在Something-SomethingV1和V2两种验证集上,仅使用RGB视频帧作为输入,随机采样8帧策略时,所提网络的Top-1识别准确率分别达到50.6%和61.9%;16帧策略时,分别达到54.1%和65.6%。实验结果表明,所提网络能够高效建模视频的局部运动细节与长程时序依赖关系,为复杂时序场景下的动作识别任务提供新的思路。
中图分类号: