《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (4): 1248-1254.DOI: 10.11772/j.issn.1001-9081.2022030426
所属专题: 多媒体计算与计算机仿真
收稿日期:
2022-04-06
修回日期:
2022-05-31
接受日期:
2022-06-10
发布日期:
2023-04-11
出版日期:
2023-04-10
通讯作者:
魏发南
作者简介:
窦光义(1999—),男,山东德州人,硕士研究生,主要研究方向:图像处理、目标跟踪;基金资助:
Guangyi DOU1,2, Fanan WEI1(), Chuangyi QIU1,2, Jianshu CHAO2
Received:
2022-04-06
Revised:
2022-05-31
Accepted:
2022-06-10
Online:
2023-04-11
Published:
2023-04-10
Contact:
Fanan WEI
About author:
DOU Guangyi, born in 1999, M. S. candidate. His research interests include image processing, objective tracking.Supported by:
摘要:
为了解决多目标跟踪(MOT)算法中由于模糊行人特征造成的身份切换(IDS)等跟踪问题,并验证行人外观在跟踪过程中的重要性,提出了一种基于中心点检测模型的注意力自相关网络(ASCN)。首先,对原图进行通道和空间注意力网络的学习以获得两种不同的特征图,并对深度信息完成解耦;然后,通过特征图之间的自相关性学习,获得更加准确的行人外观特征和行人方位信息,并将这些信息用于关联过程的跟踪;此外,制作了低帧率条件下视频的跟踪数据集,以验证改进算法的性能。在视频帧率条件不理想时,改进算法利用ASCN获取了行人外观信息,相较于仅利用方位信息的跟踪算法具有更好的准确率和鲁棒性。最后,将改进算法在MOT Challenge的MOT17数据集上进行测试。实验结果表明,与不加入ASCN的FairMOT(Fairness in MOT)相比,改进算法的跟踪平均准确率(MOTA)和识别F值(IDF1)指标分别提高了0.5和1.1个百分点,IDS数减少了32.2%,且在单卡NVIDIA Tesla V100上的运行速度达到了每秒21.2帧,这验证了改进算法不仅减少了跟踪过程中的错误,也提升了整体跟踪效果,且能够满足实时性要求。
中图分类号:
窦光义, 魏发南, 邱创一, 巢建树. 基于注意力自相关机制的跟踪外观特征[J]. 计算机应用, 2023, 43(4): 1248-1254.
Guangyi DOU, Fanan WEI, Chuangyi QIU, Jianshu CHAO. Tracking appearance features based on attention self-correlation mechanism[J]. Journal of Computer Applications, 2023, 43(4): 1248-1254.
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
---|---|---|---|---|---|---|
0.3 | 83.4 | 81.3 | 552 | 82.7 | 81.0 | 553 |
0.4 | 84.1 | 82.0 | 499 | 83.4 | 81.7 | 499 |
0.5 | 80.9 | 81.2 | 432 | 80.8 | 81.2 | 428 |
表1 不同阈值的实验结果
Tab. 1 Experimental results of different thresholds
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
---|---|---|---|---|---|---|
0.3 | 83.4 | 81.3 | 552 | 82.7 | 81.0 | 553 |
0.4 | 84.1 | 82.0 | 499 | 83.4 | 81.7 | 499 |
0.5 | 80.9 | 81.2 | 432 | 80.8 | 81.2 | 428 |
关联信息 | 算法 | MOTA/% | IDF1/% | IDS数 |
---|---|---|---|---|
方位 | TransTrack[ | 53.7 | 45.0 | 156 |
Chained-Tracker[ | 56.1 | 55.2 | 261 | |
ByteTrack[ | 60.2 | 58.9 | 249 | |
方位+外观 | RelationTrack[ | 60.9 | 67.0 | 59 |
CSTrack[ | 61.6 | 63.9 | 168 | |
FairMOT[ | 64.1 | 65.9 | 176 |
表2 各算法在MOT17-06上的结果
Tab. 2 Results of each algorithm on MOT17-06
关联信息 | 算法 | MOTA/% | IDF1/% | IDS数 |
---|---|---|---|---|
方位 | TransTrack[ | 53.7 | 45.0 | 156 |
Chained-Tracker[ | 56.1 | 55.2 | 261 | |
ByteTrack[ | 60.2 | 58.9 | 249 | |
方位+外观 | RelationTrack[ | 60.9 | 67.0 | 59 |
CSTrack[ | 61.6 | 63.9 | 168 | |
FairMOT[ | 64.1 | 65.9 | 176 |
数据集 | 原帧率/ (frame·s-1) | 帧数 | ||
---|---|---|---|---|
原数据集 | 20帧数据集 | 15帧数据集 | ||
总计 | 5 316 | 3 823 | 3 077 | |
MOT17-02 | 30 | 600 | 400 | 300 |
MOT17-04 | 30 | 1 050 | 700 | 525 |
MOT17-05 | 14 | 837 | 837 | 837 |
MOT17-09 | 30 | 525 | 350 | 263 |
MOT17-10 | 30 | 654 | 436 | 327 |
MOT17-11 | 30 | 900 | 600 | 450 |
MOT17-13 | 25 | 750 | 500 | 375 |
表3 数据集帧数对比
Tab. 3 Dataset frame number comparison
数据集 | 原帧率/ (frame·s-1) | 帧数 | ||
---|---|---|---|---|
原数据集 | 20帧数据集 | 15帧数据集 | ||
总计 | 5 316 | 3 823 | 3 077 | |
MOT17-02 | 30 | 600 | 400 | 300 |
MOT17-04 | 30 | 1 050 | 700 | 525 |
MOT17-05 | 14 | 837 | 837 | 837 |
MOT17-09 | 30 | 525 | 350 | 263 |
MOT17-10 | 30 | 654 | 436 | 327 |
MOT17-11 | 30 | 900 | 600 | 450 |
MOT17-13 | 25 | 750 | 500 | 375 |
算法 | MOT17_val | MOT17_test | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
FairMOT | 67.5 | 69.9 | 408 | 69.8 | 69.9 | 3 996 |
本文算法 | 70.2 | 72.0 | 305 | 71.1 | 71.4 | 3 276 |
表4 训练结果对比
Tab. 4 Comparison of training results
算法 | MOT17_val | MOT17_test | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
FairMOT | 67.5 | 69.9 | 408 | 69.8 | 69.9 | 3 996 |
本文算法 | 70.2 | 72.0 | 305 | 71.1 | 71.4 | 3 276 |
帧率 | ByteTrack | FairMOT | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
30 | 90.0 | 83.3 | 422 | 83.8 | 81.9 | 553 |
20 | 88.6 | 81.0 | 859 | 83.0 | 81.6 | 709 |
15 | 87.3 | 81.1 | 911 | 82.3 | 81.4 | 650 |
表5 不同帧率数据集上ByteTrack和FairMOT的对比结果
Tab. 5 Comparative results of ByteTrack and FairMOT on datasets at different frame rates
帧率 | ByteTrack | FairMOT | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
30 | 90.0 | 83.3 | 422 | 83.8 | 81.9 | 553 |
20 | 88.6 | 81.0 | 859 | 83.0 | 81.6 | 709 |
15 | 87.3 | 81.1 | 911 | 82.3 | 81.4 | 650 |
跟踪算法 | 20帧数据集 | 15帧数据集 | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
FairMOT | 83.0 | 81.6 | 709 | 82.3 | 81.4 | 650 |
FairMOT+ BYTE | 83.3 | 82.0 | 649 | 82.5 | 81.6 | 590 |
本文算法 | 82.3 | 82.3 | 553 | 81.4 | 82.0 | 555 |
表6 各算法在不同帧率数据集上的对比结果
Tab. 6 Comparative results of different algorithms on datasets at different frame rates
跟踪算法 | 20帧数据集 | 15帧数据集 | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
FairMOT | 83.0 | 81.6 | 709 | 82.3 | 81.4 | 650 |
FairMOT+ BYTE | 83.3 | 82.0 | 649 | 82.5 | 81.6 | 590 |
本文算法 | 82.3 | 82.3 | 553 | 81.4 | 82.0 | 555 |
算法 | MOT17_val | MOT17_train | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
baseline | 67.5 | 69.9 | 408 | 80.8 | 79.1 | 2 100 |
+ASCN | 68.7 | 72.2 | 370 | 82.4 | 81.2 | 1 713 |
+ASCN & BYTE | 70.2 | 72.0 | 305 | 82.8 | 81.2 | 1 416 |
表7 消融实验
Tab. 7 Ablation study
算法 | MOT17_val | MOT17_train | ||||
---|---|---|---|---|---|---|
MOTA/% | IDF1/% | IDS数 | MOTA/% | IDF1/% | IDS数 | |
baseline | 67.5 | 69.9 | 408 | 80.8 | 79.1 | 2 100 |
+ASCN | 68.7 | 72.2 | 370 | 82.4 | 81.2 | 1 713 |
+ASCN & BYTE | 70.2 | 72.0 | 305 | 82.8 | 81.2 | 1 416 |
算法 | MOTA/% | IDF1/% | IDS数 | 帧率/(frame·s-1) |
---|---|---|---|---|
Chained-Track[ | 66.6 | 57.4 | 5 529 | 6.8 |
CenterTrack[ | 67.8 | 64.7 | 3 039 | 17.5 |
FairMOT[ | 73.7 | 72.3 | 3 303 | 25.9 |
本文算法 | 74.2 | 73.4 | 2 238 | 21.2 |
表8 本文算法和与SOTA的比较
Tab. 8 Comparison of the proposed algorithm with SOTA
算法 | MOTA/% | IDF1/% | IDS数 | 帧率/(frame·s-1) |
---|---|---|---|---|
Chained-Track[ | 66.6 | 57.4 | 5 529 | 6.8 |
CenterTrack[ | 67.8 | 64.7 | 3 039 | 17.5 |
FairMOT[ | 73.7 | 72.3 | 3 303 | 25.9 |
本文算法 | 74.2 | 73.4 | 2 238 | 21.2 |
数据集 | FairMOT | 本文算法 | ||||
---|---|---|---|---|---|---|
误检数 | 漏检数 | IDS数 | 误检数 | 漏检数 | IDS数 | |
MOT17-01 | 383 | 2 289 | 31 | 71 | 2 352 | 21 |
MOT17-03 | 4 037 | 6 953 | 211 | 3 703 | 6 900 | 168 |
MOT17-07 | 1 050 | 4 832 | 122 | 486 | 5 198 | 75 |
MOT17-08 | 776 | 11 191 | 237 | 467 | 11 820 | 137 |
表9 跟踪算法错误对比
Tab. 9 Error comparison of tracking algorithms
数据集 | FairMOT | 本文算法 | ||||
---|---|---|---|---|---|---|
误检数 | 漏检数 | IDS数 | 误检数 | 漏检数 | IDS数 | |
MOT17-01 | 383 | 2 289 | 31 | 71 | 2 352 | 21 |
MOT17-03 | 4 037 | 6 953 | 211 | 3 703 | 6 900 | 168 |
MOT17-07 | 1 050 | 4 832 | 122 | 486 | 5 198 | 75 |
MOT17-08 | 776 | 11 191 | 237 | 467 | 11 820 | 137 |
1 | REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. 10.1109/tpami.2016.2577031 |
2 | REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08) [2022-03-20].. 10.1109/cvpr.2017.690 |
3 | WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]// Proceedings of the 2017 IEEE International Conference on Image Processing. Piscataway: IEEE, 2017:3645-3649. 10.1109/icip.2017.8296962 |
4 | WANG Z D, ZHENG L, LIU Y X, et al. Towards real-time multi-object tracking[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12356. Cham: Springer, 2020: 107-122. |
5 | ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3069-3087. 10.1007/s11263-021-01513-4 |
6 | ZHOU X Y, WANG D Q, KRÄHENBÜHL P. Objects as points[EB/OL]. (2019-04-25) [2022-03-20].. 10.5260/chara.21.2.8 |
7 | 温静,李强. 基于时空上下文信息增强的目标跟踪算法[J]. 计算机应用, 2021, 41(12): 3565-3570. 10.11772/j.issn.1001-9081.2021061034 |
WEN J, LI Q. Object tracking algorithm based on spatio-temporal context information enhancement[J]. Journal of Computer Applications, 2021, 41(12): 3565-3570. 10.11772/j.issn.1001-9081.2021061034 | |
8 | 李生武,张选德. 基于自注意力机制的多域卷积神经网络的视觉追踪[J]. 计算机应用, 2020, 40(8): 2219-2224. |
LI S W, ZHANG X D. Multi-domain convolutional neural network based on self-attention mechanism for visual tracking[J]. Journal of Computer Applications, 2020, 40(8): 2219-2224. | |
9 | 单兆晨,黄丹丹,耿振野,等. 免锚检测的行人多目标跟踪算法[J]. 计算机工程与应用, 2022, 58(10): 145-152. 10.3778/j.issn.1002-8331.2011-0050 |
SHAN Z C, HUANG D D, GENG Z Y, et al. Pedestrian multi-object tracking algorithm of anchor-free detection[J]. Computer Engineering and Applications, 2022, 58(10): 145-152. 10.3778/j.issn.1002-8331.2011-0050 | |
10 | BEWLEY A, GE Z Y, OTT L, et al. Simple online and realtime tracking[C]// Proceedings of the 2016 IEEE International Conference on Image Processing. Piscataway: IEEE, 2016:3464-3468. 10.1109/icip.2016.7533003 |
11 | CHEN L, AI H Z, ZHUANG Z J, et al. Real-time multiple people tracking with deeply learned candidate selection and person re-identification[C]// Proceedings of the 2018 IEEE International Conference on Multimedia and Expo. Piscataway: IEEE, 2018:1-6. 10.1109/icme.2018.8486597 |
12 | ZHANG Y F, SUN P Z, JIANG Y, et al. ByteTrack: multi-object tracking by associating every detection box[C]// Proceedings of the 2022 European Conference on Computer Vision, LNCS 13682. Cham: Springer, 2022:1-21. |
13 | ZHOU X Y, KOLTUN V, KRÄHENBÜHL P. Tracking objects as points[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12349. Cham: Springer, 2020:474-490. |
14 | WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018:3-19. |
15 | SUN P Z, CAO J K, JIANG Y, et al. TransTrack: multiple object tracking with transformer[EB/OL]. (2021-05-04) [2022-03-20].. |
16 | PENG J L, WANG C A, WAN F B, et al. Chained-Tracker: chaining paired attentive regression results for end-to-end joint multiple-object detection and tracking[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12349. Cham: Springer, 2020:145-161. |
17 | YU E, LI Z L, HAN S D, et al. RelationTrack: relation-aware multiple object tracking with decoupled representation[J]. IEEE Transactions on Multimedia, 2022, 2022(Early Access):1-1. 10.1109/tmm.2022.3150169 |
18 | LIANG C, ZHANG Z P, ZHOU X, et al. Rethinking the competition between detection and ReID in multi-object tracking[J]. IEEE Transactions on Image Processing, 2022, 31:3182-3196. 10.1109/tip.2022.3165376 |
19 | ESS A, LEIBE B, SCHINDLER K, et al. A mobile vision system for robust multi-person tracking[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2008:24-26. 10.1109/cvpr.2008.4587581 |
20 | ZHANG S S, BENENSON R, SCHIELE B. CityPersons: a diverse dataset for pedestrian detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:4457-4465. 10.1109/cvpr.2017.474 |
21 | DOLLÁR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: a benchmark[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009:304-311. 10.1109/cvpr.2009.5206631 |
22 | XIAO T, LI S, WANG B C, et al. Joint detection and identification feature learning for person search[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:3376-3385. 10.1109/cvpr.2017.360 |
23 | ZHONG Z, ZHENG L, ZHENG Z D, et al. CamStyle: a novel data augmentation method for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1176-1190. 10.1109/tip.2018.2874313 |
24 | BERNARDIN K, STIEFELHAGEN R. Evaluating multiple object tracking performance: the clear mot metrics[J]. EURASIP Journal on Image and Video Processing, 2008, 2008: No.246309. 10.1155/2008/246309 |
25 | RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016:17-35. |
[1] | 李顺勇, 李师毅, 胥瑞, 赵兴旺. 基于自注意力融合的不完整多视图聚类算法[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2696-2703. |
[2] | 黄云川, 江永全, 黄骏涛, 杨燕. 基于元图同构网络的分子毒性预测[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2964-2969. |
[3] | 潘烨新, 杨哲. 基于多级特征双向融合的小目标检测优化模型[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2871-2877. |
[4] | 赵志强, 马培红, 黑新宏. 基于双重注意力机制的人群计数方法[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2886-2892. |
[5] | 秦璟, 秦志光, 李发礼, 彭悦恒. 基于概率稀疏自注意力神经网络的重性抑郁疾患诊断[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2970-2974. |
[6] | 王熙源, 张战成, 徐少康, 张宝成, 罗晓清, 胡伏原. 面向手术导航3D/2D配准的无监督跨域迁移网络[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2911-2918. |
[7] | 李力铤, 华蓓, 贺若舟, 徐况. 基于解耦注意力机制的多变量时序预测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2732-2738. |
[8] | 薛凯鹏, 徐涛, 廖春节. 融合自监督和多层交叉注意力的多模态情感分析网络[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2387-2392. |
[9] | 汪雨晴, 朱广丽, 段文杰, 李书羽, 周若彤. 基于交互注意力机制的心理咨询文本情感分类模型[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2393-2399. |
[10] | 高鹏淇, 黄鹤鸣, 樊永红. 融合坐标与多头注意力机制的交互语音情感识别[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2400-2406. |
[11] | 刘禹含, 吉根林, 张红苹. 基于骨架图与混合注意力的视频行人异常检测方法[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2551-2557. |
[12] | 李钟华, 白云起, 王雪津, 黄雷雷, 林初俊, 廖诗宇. 基于图像增强的低照度人脸检测[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2588-2594. |
[13] | 莫尚斌, 王文君, 董凌, 高盛祥, 余正涛. 基于多路信息聚合协同解码的单通道语音增强[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2611-2617. |
[14] | 顾焰杰, 张英俊, 刘晓倩, 周围, 孙威. 基于时空多图融合的交通流量预测[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2618-2625. |
[15] | 石乾宏, 杨燕, 江永全, 欧阳小草, 范武波, 陈强, 姜涛, 李媛. 面向空气质量预测的多粒度突变拟合网络[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2643-2650. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||