《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (2): 608-614.DOI: 10.11772/j.issn.1001-9081.2022010100
• 多媒体计算与计算机仿真 • 上一篇
收稿日期:
2022-01-25
修回日期:
2022-04-25
接受日期:
2022-04-26
发布日期:
2022-05-31
出版日期:
2023-02-10
通讯作者:
崔柳
作者简介:
李文举(1964—),男,辽宁营口人,教授,博士,CCF会员,主要研究方向:计算机视觉、模式识别、智能检测基金资助:
Wenju LI, Gan ZHANG, Liu CUI(), Wanghui CHU
Received:
2022-01-25
Revised:
2022-04-25
Accepted:
2022-04-26
Online:
2022-05-31
Published:
2023-02-10
Contact:
Liu CUI
About author:
LI Wenju, born in 1964, Ph. D., professor. His research interests include computer vision, pattern recognition, intelligent detection.Supported by:
摘要:
针对交通标志识别模型检测速度与识别精度不均衡,以及受遮挡目标和小目标难以检测的问题,对YOLOv5模型进行改进,提出一种基于坐标注意力(CA)的轻量级交通标志识别模型。首先,通过在主干网络中融入CA机制,有效地捕获位置信息和通道之间的关系,从而更准确地获取感兴趣区域,避免过多的计算开销;然后,通过在特征融合网络中加入跨层连接,在不增加成本的情况下融合更多的特征信息,提高网络的特征提取能力,并改善对遮挡目标的检测效果;最后,引入改进的CIoU函数计算定位损失,以缓解检测过程中样本尺寸分布不均衡的现象,并进一步提高对小目标的识别精度。在TT100K数据集上应用所提模型时,识别精度达到了91.5%,召回率达到了86.64%,与传统的YOLOv5n模型相比分别提高了20.96%和11.62%,且帧处理速率达到了140.84 FPS。实验结果比较充分地验证了所提模型在真实场景中对交通标志检测与识别的准确性与实时性。
中图分类号:
李文举, 张干, 崔柳, 储王慧. 基于坐标注意力的轻量级交通标志识别模型[J]. 计算机应用, 2023, 43(2): 608-614.
Wenju LI, Gan ZHANG, Liu CUI, Wanghui CHU. Lightweight traffic sign recognition model based on coordinate attention[J]. Journal of Computer Applications, 2023, 43(2): 608-614.
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv5n | 0.756 4 | 0.776 2 | 333.33 | 1.820 | 3.85 |
YOLOv5s | 0.820 3 | 0.859 0 | 250.00 | 7.140 | 14.00 |
YOLOv5m | 0.825 6 | 0.880 1 | 128.20 | 21.040 | 40.60 |
YOLOv5l | 0.830 0 | 0.890 0 | 75.75 | 46.370 | 80.90 |
YOLOv5x | 0.853 0 | 0.913 0 | 44.64 | 86.510 | 165.00 |
YOLOv5n (1 280×1 280) | 0.868 1 | 0.850 0 | 156.25 | 1.824 | 4.44 |
表1 传统YOLOv5模型的训练结果对比
Tab. 1 Training results comparison of traditional YOLOv5 models
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv5n | 0.756 4 | 0.776 2 | 333.33 | 1.820 | 3.85 |
YOLOv5s | 0.820 3 | 0.859 0 | 250.00 | 7.140 | 14.00 |
YOLOv5m | 0.825 6 | 0.880 1 | 128.20 | 21.040 | 40.60 |
YOLOv5l | 0.830 0 | 0.890 0 | 75.75 | 46.370 | 80.90 |
YOLOv5x | 0.853 0 | 0.913 0 | 44.64 | 86.510 | 165.00 |
YOLOv5n (1 280×1 280) | 0.868 1 | 0.850 0 | 156.25 | 1.824 | 4.44 |
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv5n-P6 | 0.815 7 | 0.820 0 | 263.15 | 3.172 | 6.51 |
YOLOv5s-P6 | 0.840 1 | 0.835 1 | 208.30 | 12.480 | 24.30 |
YOLOv5m-P6 | 0.865 4 | 0.854 9 | 111.11 | 35.530 | 68.30 |
YOLOv5l-P6 | 0.872 3 | 0.871 0 | 68.02 | 76.500 | 146.00 |
YOLOv5x-P6 | 0.8762 | 0.8786 | 40.32 | 140.450 | 268.00 |
YOLOv5n-P6 (1 280×1 280) | 0.875 0 | 0.852 0 | 149.25 | 3.180 | 7.13 |
表2 不同深度的YOLOv5-P6模型的训练结果对比
Tab. 2 Training results comparison of YOLOv5-P6 models with different depths
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv5n-P6 | 0.815 7 | 0.820 0 | 263.15 | 3.172 | 6.51 |
YOLOv5s-P6 | 0.840 1 | 0.835 1 | 208.30 | 12.480 | 24.30 |
YOLOv5m-P6 | 0.865 4 | 0.854 9 | 111.11 | 35.530 | 68.30 |
YOLOv5l-P6 | 0.872 3 | 0.871 0 | 68.02 | 76.500 | 146.00 |
YOLOv5x-P6 | 0.8762 | 0.8786 | 40.32 | 140.450 | 268.00 |
YOLOv5n-P6 (1 280×1 280) | 0.875 0 | 0.852 0 | 149.25 | 3.180 | 7.13 |
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv5n-P6+ 坐标注意力 | 0.847 0 | 0.833 5 | 232.56 | 3.210 | 6.6 |
YOLOv5s-P6+ 坐标注意力 | 0.851 9 | 0.836 3 | 217.39 | 12.620 | 24.5 |
YOLOv5m-P6+ 坐标注意力 | 0.835 2 | 0.815 8 | 107.53 | 35.930 | 69.1 |
YOLOv5l-P6+ 坐标注意力 | 0.826 0 | 0.811 2 | 64.52 | 77.390 | 148.0 |
YOLOv5x-P6+ 坐标注意力 | 0.823 2 | 0.800 3 | 36.63 | 142.140 | 272.0 |
YOLOv5n-P6+ 坐标注意力(1 280×1 280) | 0.8987 | 0.8535 | 144.93 | 3.216 | 7.22 |
表3 不同深度的YOLOv5-P6模型结合坐标注意力的训练结果对比
Tab. 3 Training results comparison of YOLOv5-P6 models with different depths combined with coordinate attention
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv5n-P6+ 坐标注意力 | 0.847 0 | 0.833 5 | 232.56 | 3.210 | 6.6 |
YOLOv5s-P6+ 坐标注意力 | 0.851 9 | 0.836 3 | 217.39 | 12.620 | 24.5 |
YOLOv5m-P6+ 坐标注意力 | 0.835 2 | 0.815 8 | 107.53 | 35.930 | 69.1 |
YOLOv5l-P6+ 坐标注意力 | 0.826 0 | 0.811 2 | 64.52 | 77.390 | 148.0 |
YOLOv5x-P6+ 坐标注意力 | 0.823 2 | 0.800 3 | 36.63 | 142.140 | 272.0 |
YOLOv5n-P6+ 坐标注意力(1 280×1 280) | 0.8987 | 0.8535 | 144.93 | 3.216 | 7.22 |
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv3 | 0.820 0 | 0.831 4 | 36.76 | 58.74 | 237.00 |
RetinaNet-NeXt | 0.874 5 | 0.790 0 | |||
YOLOv3-A | 0.885 0 | 0.922 0 | 1.25 | ||
YOLOv4 | 0.869 0 | 0.889 0 | 35.84 | 244.00 | |
YOLOX-Nano | 0.613 0 | 349.65 | 2.25 | 17.40 | |
Faster R-CNN | 0.715 0 | 0.765 0 | 11.11 | 159.54 | |
FA-SSD | 0.802 0 | 13.60 | |||
YOLOv5n-P6+ 坐标注意力+ 跨层连接 (1 280×1 280) | 0.910 5 | 0.855 0 | 140.84 | 3.26 | 7.32 |
本文模型 | 0.915 0 | 0.866 4 | 140.84 | 3.26 | 7.32 |
表4 本文模型与其他最新模型的训练结果对比
Tab. 4 Comparison of training results between the proposed model and other latest models
模型 | 精度 | 召回率 | 帧处理 速率/FPS | 参数量/106 | 模型 大小/MB |
---|---|---|---|---|---|
YOLOv3 | 0.820 0 | 0.831 4 | 36.76 | 58.74 | 237.00 |
RetinaNet-NeXt | 0.874 5 | 0.790 0 | |||
YOLOv3-A | 0.885 0 | 0.922 0 | 1.25 | ||
YOLOv4 | 0.869 0 | 0.889 0 | 35.84 | 244.00 | |
YOLOX-Nano | 0.613 0 | 349.65 | 2.25 | 17.40 | |
Faster R-CNN | 0.715 0 | 0.765 0 | 11.11 | 159.54 | |
FA-SSD | 0.802 0 | 13.60 | |||
YOLOv5n-P6+ 坐标注意力+ 跨层连接 (1 280×1 280) | 0.910 5 | 0.855 0 | 140.84 | 3.26 | 7.32 |
本文模型 | 0.915 0 | 0.866 4 | 140.84 | 3.26 | 7.32 |
1 | HE S H, CHEN L, ZHANG S Y, et al. Automatic recognition of traffic signs based on visual inspection[J]. IEEE Access, 2021, 9: 43253-43261. 10.1109/access.2021.3059052 |
2 | 于硕. 交通标志识别技术综述[J]. 科技资讯, 2019, 17(6): 15-16. |
YU S. Overview of traffic sign recognition technology[J]. Science and Technology Information, 2019, 17(6): 15-16. | |
3 | FLEYEH H, BISWAS R, DAVAMI E. Traffic sign detection based on AdaBoost color segmentation and SVM classification[C]// Proceedings of the EuroCon 2013. Piscataway: IEEE, 2013: 2005-2010. 10.1109/eurocon.2013.6625255 |
4 | 杜影丽,贾永红,韩静敏. 自然场景车载视频道路交通限速标志的检测与识别方法[J]. 测绘地理信息, 2018, 43(2): 32-34, 37. 10.14188/j.2095-6045.2018018 |
DU Y L, JIA Y H, HAN J M. A detection and recognition method for traffic speed limit signs based on vehicle videos[J]. Journal of Geomatics, 2018, 43(2): 32-34, 37. 10.14188/j.2095-6045.2018018 | |
5 | 陈名松,吴冉冉,张泽功,等. 基于改进CapsNet的交通标志分类模型[J]. 计算机应用研究, 2020, 37(S2):367-368, 371. |
CHEN M S, WU R R, ZHANG Z G, et al. Traffic sign classification model based on improved CapsNet[J]. Application Research of Computers, 2020, 37(S2):367-368, 371. | |
6 | 郭璠,张泳祥,唐琎,等. YOLOv3-A:基于注意力机制的交通标志检测网络[J]. 通信学报, 2021, 42(1):87-99. |
GUO F, ZHANG Y X, TANG J, et al. YOLOv3-A: a traffic sign detection network based on attention mechanism[J]. Journal on Communications, 2021, 42(1):87-99. | |
7 | JIN Y M, FU Y S, WANG W Q, et al. Multi-feature fusion and enhancement single shot detector for traffic sign recognition[J]. IEEE Access, 2020, 8: 38931-38940. 10.1109/access.2020.2975828 |
8 | WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2020: 1571-1580. 10.1109/cvprw50498.2020.00203 |
9 | HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 13708-13717. 10.1109/cvpr46437.2021.01350 |
10 | TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 10778-10787. 10.1109/cvpr42600.2020.01079 |
11 | LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8759-8768. 10.1109/cvpr.2018.00913 |
12 | ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12993-13000. 10.1609/aaai.v34i07.6999 |
13 | ZHU Z, LIANG D, ZHANG S H, et al. Traffic-sign detection and classification in the wild[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2110-2118. 10.1109/cvpr.2016.232 |
14 | XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. New York: JMLR.org, 2015: 2048-2057. 10.1109/cvpr.2015.7298935 |
15 | HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141. 10.1109/cvpr.2018.00745 |
16 | WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19. |
17 | LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 936-944. 10.1109/cvpr.2017.106 |
18 | HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. 10.1109/tpami.2015.2389824 |
19 | JIANG B R, LUO R X, MAO J Y, et al. Acquisition of localization confidence for accurate object detection[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11218. Cham: Springer, 2018: 816-832. |
20 | REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 658-666. 10.1109/cvpr.2019.00075 |
21 | 龚祎垄,吴勇,陈铭峥. 针对TT100K交通标志数据集的扩增策略[J]. 福建电脑, 2019, 35(11):70-71. |
GONG Y L, WU Y, CHEN M Z. An enlargement strategy for TT100K traffic sign data set[J]. Journal of Fujian Computer, 2019, 35(11):70-71. | |
22 | 张干,李文举,张耀星. 基于改进的YOLOv5算法的交通标志识别[C]// 21全国仿真技术学术会议论文集. 北京: 计算机仿真杂志社, 2021:182-185, 249. 10.1109/iccnea50255.2020.00021 |
ZHANG G, LI W J, ZHANG Y X. Traffic sign recognition based on improved YOLOv5 algorithm[C]// Proceedings of the 2021 China Simulation Technology Conference. Beijing: Periodical Office of Computer Simulation, 2021:182-185, 249. 10.1109/iccnea50255.2020.00021 |
[1] | 王萍, 陈楠, 鲁磊. 基于场景先验及注意力引导的跌倒检测算法[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 529-535. |
[2] | 陈刚, 廖永为, 杨振国, 刘文印. 基于多特征融合的多尺度生成对抗网络图像修复算法[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 536-544. |
[3] | 李克文, 杨建涛, 黄宗超. 基于边界极限点特征的改进YOLOv3目标检测[J]. 《计算机应用》唯一官方网站, 2023, 43(1): 81-87. |
[4] | 孙泽强, 陈炳才, 崔晓博, 王磊, 陆雅诺. 融合频域注意力机制和解耦头的YOLOv5带钢表面缺陷检测[J]. 《计算机应用》唯一官方网站, 2023, 43(1): 242-249. |
[5] | 杨洪刚, 陈洁洁, 徐梦飞. 双线性内卷神经网络用于眼底疾病图像分类[J]. 《计算机应用》唯一官方网站, 2023, 43(1): 259-264. |
[6] | 吕玉超, 姜茜, 徐英豪, 朱习军. 基于多尺度特征融合的改进臂丛神经分割方法[J]. 《计算机应用》唯一官方网站, 2023, 43(1): 273-279. |
[7] | 王宇航, 周永霞, 吴良武. 基于高斯函数的池化算法[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2800-2806. |
[8] | 强赞霞, 鲍先富. 基于卷积长短期记忆的残差注意力去雨网络[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2858-2864. |
[9] | 尹靖涵, 瞿绍军, 姚泽楷, 胡玄烨, 秦晓雨, 华璞靖. 基于YOLOv5的雾霾天气下交通标志识别模型[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2876-2884. |
[10] | 孟昱煜, 郭静. 信息熵改进主成分分析模型的链路预测算法[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2823-2829. |
[11] | 杨瑞杰, 郑贵林. 基于InceptionV3和特征融合的人脸活体检测[J]. 《计算机应用》唯一官方网站, 2022, 42(7): 2037-2042. |
[12] | 董宁, 程晓荣, 张铭泉. 基于物联网平台的动态权重损失函数入侵检测系统[J]. 《计算机应用》唯一官方网站, 2022, 42(7): 2118-2124. |
[13] | 张达为, 刘绪崇, 周维, 陈柱辉, 余瑶. 基于改进YOLOv3的实时交通标志检测算法[J]. 《计算机应用》唯一官方网站, 2022, 42(7): 2219-2226. |
[14] | 刘志华, 陈文洁, 陈爱斌. 基于自注意力机制时频谱同源特征融合的鸟鸣声分类[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1260-1268. |
[15] | 胡新荣, 张君宇, 彭涛, 刘军平, 何儒汉, 何凯. 级联跨域特征融合的虚拟试衣[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1269-1274. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||