• • 下一篇
韦绍运1,成苗2
摘要: 针对当前视频语义分割技术在复杂户外动态场景中面临的时序多帧一致性缺失和相邻帧特征对齐偏差等问题,提出了一种新型的视频语义分割框架——STDA-Net(Spatiotemporal and Temporal Dynamics Alignment Network)。在动态视频分析中,时序特征一致性缺失导致相邻帧的分割结果不连贯,出现跳跃性变化,影响了动态场景的语义稳定性;而多帧特征对齐偏差则由于视频帧受到遮挡、光照变化等因素干扰,难以确保准确对齐,进而在特征融合时引入噪声,降低了分割效果。为了解决这些问题,STDA-Net引入了两个关键模块:多帧动态特征聚合模块(MFDA)与时域仿射运动增强模块(TACFM)。多帧动态特征聚合模块通过多尺度特征提取、通道自注意力机制与多帧多尺度小波融合策略,有效提升了帧间特征的一致性,减少了分割结果中的跳跃性变化,确保了动态场景中的稳定性。时域仿射运动增强模块结合仿射运动补偿技术,精确对齐非关键帧特征,并利用运行位移信息强化了边缘结构的感知能力,提高模型在快速变化场景中的准确性。通过在VSPW数据集和某轨道交通供电网监控视频数据集上的实验证明,STDA-Net在分割精度和时序一致性方面取得了显著提升。在VSPW数据集中,STDA-Net的VmIoU和mVC分别达到40.5%和86.4%,较基准模型TCBst-ppm分别提升4.0%和1.1%,较CFFM分别提升1.3%和1.2%。在轨道交通数据集中,STDA-Net的VmIoU和mVC分别达到67.5%和91.7%,较TCBst-ppm分别提高4.1%和6.2%,较CFFM分别提高2.3%和6.4%。实验结果充分验证了STDA-Net在复杂动态场景中的优势,显著提高了分割精度和一致性,展示了其在轨道交通等复杂动态环境下的适应性和优越性。
中图分类号: