《计算机应用》唯一官方网站 ›› 2021, Vol. 41 ›› Issue (12): 3565-3570.DOI: 10.11772/j.issn.1001-9081.2021061034
所属专题: 第十八届中国机器学习会议(CCML 2021)
• 第十八届中国机器学习会议(CCML 2021) • 上一篇 下一篇
收稿日期:
2021-05-12
修回日期:
2021-07-18
接受日期:
2021-07-22
发布日期:
2021-12-28
出版日期:
2021-12-10
通讯作者:
温静
作者简介:
李强(1995—),男,山西大同人,硕士研究生,主要研究方向:计算机视觉、图像处理。
基金资助:
Received:
2021-05-12
Revised:
2021-07-18
Accepted:
2021-07-22
Online:
2021-12-28
Published:
2021-12-10
Contact:
Jing WEN
About author:
LI Qiang, born in 1995, M. S. candidate. His research interests include computer vision, image processing.
Supported by:
摘要:
充分利用视频中的时空上下文信息能明显提高目标跟踪性能,但目前大多数基于深度学习的目标跟踪算法仅利用当前帧的特征信息来定位目标,没有利用同一目标在视频前后帧的时空上下文特征信息,导致跟踪目标易受到邻近相似目标的干扰,从而在跟踪定位时会引入一个潜在的累计误差。为了保留时空上下文信息,在SiamMask算法的基础上引入一个短期记忆存储池来存储历史帧特征;同时,提出了外观显著性增强模块(ASBM),一方面增强跟踪目标的显著性特征,另一方面抑制周围相似目标对目标的干扰。基于此,提出一种基于时空上下文信息增强的目标跟踪算法。在VOT2016、VOT2018、DAVIS-2016和DAVIS-2017等四个数据集上进行实验与分析,结果表明所提出的算法相较于SiamMask算法在VOT2016上的准确率和平均重叠率(EAO)分别提升了4个百分点和2个百分点;在VOT2018上的准确率、鲁棒性和EAO分别提升了3.7个百分点、2.8个百分点和1个百分点;在DAVIS-2016上的区域相似度、轮廓精度指标中的下降率均分别降低了0.2个百分点;在DAVIS-2017上的区域相似度、轮廓精度指标中的下降率分别降低了1.3和0.9个百分点。
中图分类号:
温静, 李强. 基于时空上下文信息增强的目标跟踪算法[J]. 计算机应用, 2021, 41(12): 3565-3570.
Jing WEN, Qiang LI. Object tracking algorithm based on spatio-temporal context information enhancement[J]. Journal of Computer Applications, 2021, 41(12): 3565-3570.
算法 | 准确率 | 稳健性 | 预期平均重叠率 |
---|---|---|---|
DaSiamRPN | 0.61 | 0.22 | 0.411 |
SiamRPN | 0.56 | 0.26 | 0.344 |
ATOM | — | — | — |
SiamRPN++ | 0.64 | 0.20 | 0.464 |
SiamMask-box | 0.618 | 0.210 | 0.419 |
SiamMask-MBR | 0.621 | 0.210 | 0.421 |
SiamAsbm-box | 0.631 | 0.218 | 0.425 |
SiamAsbm-MBR | 0.661 | 0.214 | 0.434 |
表1 在VOT2016数据集上的实验结果
Tab. 1 Experimental results on VOT2016 dataset
算法 | 准确率 | 稳健性 | 预期平均重叠率 |
---|---|---|---|
DaSiamRPN | 0.61 | 0.22 | 0.411 |
SiamRPN | 0.56 | 0.26 | 0.344 |
ATOM | — | — | — |
SiamRPN++ | 0.64 | 0.20 | 0.464 |
SiamMask-box | 0.618 | 0.210 | 0.419 |
SiamMask-MBR | 0.621 | 0.210 | 0.421 |
SiamAsbm-box | 0.631 | 0.218 | 0.425 |
SiamAsbm-MBR | 0.661 | 0.214 | 0.434 |
算法 | 准确率 | 稳健性 | 预期平均重叠率 |
---|---|---|---|
DaSiamRPN[ | 0.569 | 0.337 | 0.326 |
SiamRPN[ | 0.490 | 0.460 | 0.244 |
ATOM[ | 0.590 | 0.204 | 0.401 |
SiamRPN++[ | 0.600 | 0.234 | 0.414 |
SiamMask-box | 0.589 | 0.300 | 0.360 |
SiamMask-MBR[ | 0.592 | 0.286 | 0.359 |
SiamAsbm-box | 0.592 | 0.295 | 0.364 |
SiamAsbm-MBR | 0.629 | 0.258 | 0.370 |
表2 在VOT2018数据集上的实验结果
Tab. 2 Experimental results on VOT2018 dataset
算法 | 准确率 | 稳健性 | 预期平均重叠率 |
---|---|---|---|
DaSiamRPN[ | 0.569 | 0.337 | 0.326 |
SiamRPN[ | 0.490 | 0.460 | 0.244 |
ATOM[ | 0.590 | 0.204 | 0.401 |
SiamRPN++[ | 0.600 | 0.234 | 0.414 |
SiamMask-box | 0.589 | 0.300 | 0.360 |
SiamMask-MBR[ | 0.592 | 0.286 | 0.359 |
SiamAsbm-box | 0.592 | 0.295 | 0.364 |
SiamAsbm-MBR | 0.629 | 0.258 | 0.370 |
Baseline基础上增加的模块 | 准确率 | 稳健性 | 预期平均重叠率 | ||
---|---|---|---|---|---|
特征叠加 | 特征对齐 | 特征增强 | |||
0.592 | 0.286 | 0.359 | |||
√ | 0.589 | 0.300 | 0.354 | ||
√ | √ | 0.579 | 0.272 | 0.360 | |
√ | √ | 0.610 | 0.290 | 0.355 | |
√ | √ | √ | 0.629 | 0.258 | 0.370 |
表3 消融实验
Tab. 3 Ablation experiment
Baseline基础上增加的模块 | 准确率 | 稳健性 | 预期平均重叠率 | ||
---|---|---|---|---|---|
特征叠加 | 特征对齐 | 特征增强 | |||
0.592 | 0.286 | 0.359 | |||
√ | 0.589 | 0.300 | 0.354 | ||
√ | √ | 0.579 | 0.272 | 0.360 | |
√ | √ | 0.610 | 0.290 | 0.355 | |
√ | √ | √ | 0.629 | 0.258 | 0.370 |
算法 | 区域相似度 | 轮廓精度 | 时间稳定性 | ||||
---|---|---|---|---|---|---|---|
JM | JO | JD | FM | FO | FD | TM | |
Msk[ | 0.792 | 0.924 | 0.094 | 0.749 | 0.864 | 0.093 | 0.222 |
Osvos[ | 0.797 | 0.933 | 0.151 | 0.806 | 0.922 | 0.155 | 0.348 |
SegFlow[ | 0.761 | 0.906 | 0.121 | 0.760 | 0.855 | 0.104 | 0.194 |
SiamMask[ | 0.712 | 0.862 | 0.051 | 0.663 | 0.759 | 0.073 | 0.279 |
本文算法 | 0.714 | 0.854 | 0.049 | 0.666 | 0.751 | 0.071 | 0.279 |
表4 在DAVIS-2016数据集上的实验结果
Tab. 4 Experimental results on DAVIS-2016 dataset
算法 | 区域相似度 | 轮廓精度 | 时间稳定性 | ||||
---|---|---|---|---|---|---|---|
JM | JO | JD | FM | FO | FD | TM | |
Msk[ | 0.792 | 0.924 | 0.094 | 0.749 | 0.864 | 0.093 | 0.222 |
Osvos[ | 0.797 | 0.933 | 0.151 | 0.806 | 0.922 | 0.155 | 0.348 |
SegFlow[ | 0.761 | 0.906 | 0.121 | 0.760 | 0.855 | 0.104 | 0.194 |
SiamMask[ | 0.712 | 0.862 | 0.051 | 0.663 | 0.759 | 0.073 | 0.279 |
本文算法 | 0.714 | 0.854 | 0.049 | 0.666 | 0.751 | 0.071 | 0.279 |
算法 | 区域相似度 | 轮廓精度 | 时间稳定性 | ||||
---|---|---|---|---|---|---|---|
JM | JO | JD | FM | FO | FD | TM | |
OnAVOS[ | 0.616 | 0.674 | 0.279 | 0.691 | 0.754 | 0.266 | 0.431 |
Osvos[ | 0.566 | 0.636 | 0.261 | 0.639 | 0.736 | 0.270 | 0.529 |
SiamMask[ | 0.534 | 0.628 | 0.193 | 0.585 | 0.675 | 0.209 | 0.451 |
本文算法 | 0.609 | 0.704 | 0.180 | 0.611 | 0.665 | 0.200 | 0.430 |
表5 在DAVIS-2016数据集上的实验结果
Tab. 5 Experimental results on DAVIS-2016 dataset
算法 | 区域相似度 | 轮廓精度 | 时间稳定性 | ||||
---|---|---|---|---|---|---|---|
JM | JO | JD | FM | FO | FD | TM | |
OnAVOS[ | 0.616 | 0.674 | 0.279 | 0.691 | 0.754 | 0.266 | 0.431 |
Osvos[ | 0.566 | 0.636 | 0.261 | 0.639 | 0.736 | 0.270 | 0.529 |
SiamMask[ | 0.534 | 0.628 | 0.193 | 0.585 | 0.675 | 0.209 | 0.451 |
本文算法 | 0.609 | 0.704 | 0.180 | 0.611 | 0.665 | 0.200 | 0.430 |
算法 | 速度 | 算法 | 速度 |
---|---|---|---|
Msk[ | 0.1 | SiamMask[ | 55 |
Osvos[ | 0.1 | 本文算法 | 32 |
表6 速度分析 ( 帧率)
Tab. 6 Speed analysis
算法 | 速度 | 算法 | 速度 |
---|---|---|---|
Msk[ | 0.1 | SiamMask[ | 55 |
Osvos[ | 0.1 | 本文算法 | 32 |
1 | MAKOVSKI T, VÁZQUEZ G A, JIANG Y V. Visual learning in multiple-object tracking[J]. PLoS ONE, 2008, 3(5): No.e2228. 10.1371/journal.pone.0002228 |
2 | HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596. 10.1109/tpami.2014.2345390 |
3 | DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1090-1097. 10.1109/cvpr.2014.143 |
4 | DANELLJAN M, ROBINSON A, KHAN F S, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS9909. Cham: Springer, 2016: 472-488. 10.3384/diss.diva-147543 |
5 | BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS9914. Cham: Springer, 2016: 850-865. |
6 | LI B, YAN J J, WU W, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980. 10.1109/cvpr.2018.00935 |
7 | WANG Q, ZHANG L, BERTINETTO L, et al. Fast online object tracking and segmentation: a unifying approach[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1328-1338. 10.1109/cvpr.2019.00142 |
8 | GU X Q, CHANG H, MA B P, et al. Appearance-preserving 3D convolution for video-based person re-identification[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS12347. Cham: Springer, 2020: 228-243. |
9 | LAMPLE G, SABLAYROLLES A, RANZATO M, et al. Large memory layers with product keys[EB/OL]. (2019-12-16) [2021-03-20].. |
10 | ZHU Z, WANG Q, LI B, et al. Distractor-aware Siamese networks for visual object tracking[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS11213. Cham: Springer, 2018: 103-119. 10.1007/978-3-030-01240-3_7 |
11 | LI B, WU W, WANG Q, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4277-4286. 10.1109/cvpr.2019.00441 |
12 | DANELLJAN M, BHAT G, KHAN F S, et al. ATOM: accurate tracking by overlap maximization[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4655-4664. 10.1109/cvpr.2019.00479 |
13 | HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778. 10.1109/cvpr.2016.90 |
14 | LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS8693. Cham: Springer, 2014: 740-755. |
15 | RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. 10.1007/s11263-015-0816-y |
16 | XU N, YANG L J, FAN Y C, et al. YouTube-VOS: sequence-to-sequence video object segmentation[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS11209. Cham: Springer, 2018: 603-619. |
17 | KRISTAN M, LEONARDIS A, MATAS J, et al. The Visual Object Tracking VOT2016 challenge results[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS9914. Cham: Springer, 2016: 777-823. |
18 | KRISTAN M, LEONARDIS A, MATAS J, et al. The sixth Visual Object Tracking VOT2018 challenge results[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS11129. Cham: Springer, 2018: 3-53. |
19 | PERAZZI F, PONT-TUSET J, McWILLIAMS B, et al. A benchmark dataset and evaluation methodology for video object segmentation[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 724-732. 10.1109/cvpr.2016.85 |
20 | PONT-TUSET J, PERAZZI F, CAELLES S, et al. The 2017 DAVIS Challenge on Video Object Segmentation[EB/OL]. (2018-03-01) [2021-03-20].. |
21 | PERAZZI F, KHOREVA A, BENENSON R, et al. Learning video object segmentation from static images[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 3491-3500. 10.1109/cvpr.2017.372 |
22 | CAELLES S, MANINIS K K, PONT-TUSET J, et al. One-shot video object segmentation[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5320-5329. 10.1109/cvpr.2017.565 |
23 | CHENG J C, TSAI Y H, WANG S J, et al. SegFlow: joint learning for video object segmentation and optical flow[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 686-695. 10.1109/iccv.2017.81 |
24 | VOIGTLAENDER P, LEIBE B. Online adaptation of convolutional neural networks for video object segmentation[C]// Proceedings of the 2017 British Machine Vision Conference. Durham: BMVA Press, 2017: No.116. 10.5244/c.31.116 |
[1] | 李顺勇, 李师毅, 胥瑞, 赵兴旺. 基于自注意力融合的不完整多视图聚类算法[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2696-2703. |
[2] | 潘烨新, 杨哲. 基于多级特征双向融合的小目标检测优化模型[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2871-2877. |
[3] | 黄云川, 江永全, 黄骏涛, 杨燕. 基于元图同构网络的分子毒性预测[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2964-2969. |
[4] | 秦璟, 秦志光, 李发礼, 彭悦恒. 基于概率稀疏自注意力神经网络的重性抑郁疾患诊断[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2970-2974. |
[5] | 王熙源, 张战成, 徐少康, 张宝成, 罗晓清, 胡伏原. 面向手术导航3D/2D配准的无监督跨域迁移网络[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2911-2918. |
[6] | 刘禹含, 吉根林, 张红苹. 基于骨架图与混合注意力的视频行人异常检测方法[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2551-2557. |
[7] | 顾焰杰, 张英俊, 刘晓倩, 周围, 孙威. 基于时空多图融合的交通流量预测[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2618-2625. |
[8] | 石乾宏, 杨燕, 江永全, 欧阳小草, 范武波, 陈强, 姜涛, 李媛. 面向空气质量预测的多粒度突变拟合网络[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2643-2650. |
[9] | 姜文涛, 李宛宣, 张晟翀. 非线性时间一致性的相关滤波目标跟踪[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2558-2570. |
[10] | 吴筝, 程志友, 汪真天, 汪传建, 王胜, 许辉. 基于深度学习的患者麻醉复苏过程中的头部运动幅度分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2258-2263. |
[11] | 李欢欢, 黄添强, 丁雪梅, 罗海峰, 黄丽清. 基于多尺度时空图卷积网络的交通出行需求预测[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2065-2072. |
[12] | 张郅, 李欣, 叶乃夫, 胡凯茜. 基于暗知识保护的模型窃取防御技术DKP[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2080-2086. |
[13] | 赵亦群, 张志禹, 董雪. 基于密集残差物理信息神经网络的各向异性旅行时计算方法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2310-2318. |
[14] | 徐松, 张文博, 王一帆. 基于时空信息的轻量视频显著性目标检测网络[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2192-2199. |
[15] | 孙逊, 冯睿锋, 陈彦如. 基于深度与实例分割融合的单目3D目标检测方法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2208-2215. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||