《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (12): 3927-3932.DOI: 10.11772/j.issn.1001-9081.2022121887
收稿日期:
2022-12-22
修回日期:
2023-03-21
接受日期:
2023-03-22
发布日期:
2023-04-03
出版日期:
2023-12-10
通讯作者:
姬晓飞
作者简介:
张可心(1996—),女,辽宁锦州人,硕士研究生,主要研究方向:图像处理、视频分析与处理;基金资助:
Xiaofei JI(), Kexin ZHANG, Lirong TANG
Received:
2022-12-22
Revised:
2023-03-21
Accepted:
2023-03-22
Online:
2023-04-03
Published:
2023-12-10
Contact:
Xiaofei JI
About author:
ZHANG Kexin, born in 1996, M. S. candidate. Her research interests include image processing, video analysis and processing.Supported by:
摘要:
图书定位是实现图书馆智能化发展的重要技术之一,精确的书脊分割算法成为实现该目标的一大难题。基于以上情况,提出改进DeepLabv3+网络的图书书脊分割算法,以解决图书密集排列、图书存在倾斜角度和书脊纹理极相似等情况下的书脊分割难点。首先,为了提取图书图像更密集的金字塔特征,将原始DeepLabv3+网络中的空洞金字塔池化(ASPP)替换为多空洞率、多尺度的DenseASPP (Dense Atrous Spatial Pyramid Pooling)模块;其次,针对原始DeepLabv3+网络对大长宽比的目标对象分割边界不敏感的问题,在DenseASPP模块的支路加入条形池化(SP)模块以增强书脊的长条形特征;最后,参考ViT (Vision Transformer)中的多头自注意(MHSA)机制,提出一种全局信息增强的自注意模块,以增强网络获取长距离特征的能力。将所提算法在开源数据库上进行对比测试,实验结果表明,与原始DeepLabv3+网络分割算法相比,所提算法在近竖直书脊数据库上的平均交并比(MIoU)提升了1.8个百分点;在倾斜书脊数据库上的MIoU提升了4.1个百分点,达到了93.3%。以上验证了所提算法实现了有一定倾斜角度的、密集的和大长宽比的书脊目标的精确分割。
中图分类号:
姬晓飞, 张可心, 唐李荣. 改进DeepLabv3+网络的图书书脊分割算法[J]. 计算机应用, 2023, 43(12): 3927-3932.
Xiaofei JI, Kexin ZHANG, Lirong TANG. Book spine segmentation algorithm based on improved DeepLabv3+ network[J]. Journal of Computer Applications, 2023, 43(12): 3927-3932.
网络层数 | MIoU/% | 网络层数 | MIoU/% |
---|---|---|---|
3 | 79.4 | 5 | 91.2 |
4 | 88.5 | 6 | 89.9 |
表1 DenseASPP模块的网络层数对分割效果的影响
Tab.1 Influence of number of network layers of DenseASPP module on segmentation effect
网络层数 | MIoU/% | 网络层数 | MIoU/% |
---|---|---|---|
3 | 79.4 | 5 | 91.2 |
4 | 88.5 | 6 | 89.9 |
骨架网络 | 引入自注意模块 | MIoU |
---|---|---|
Xception | 是 | 92.7 |
否 | 92.2 | |
MobileNetV2 | 是 | 93.8 |
否 | 93.1 |
表2 引入自注意模块前后的实验结果对比 (%)
Tab.2 Comparison of experimental results before and after introduction of self-attention module
骨架网络 | 引入自注意模块 | MIoU |
---|---|---|
Xception | 是 | 92.7 |
否 | 92.2 | |
MobileNetV2 | 是 | 93.8 |
否 | 93.1 |
数据库 | 算法 | 批次 | 骨架网络 | MIoU/% |
---|---|---|---|---|
近竖直 书脊 数据库 | Mask R-CNN算法* | 2 | ResNet50 | 87.5 |
改进Mask R-CNN算法* | 2 | ResNet50 | 85.3 | |
DeepLabv3+算法* | 4 | MobileNet V2 | 92.3 | |
本文算法 | 4 | MobileNet V2 | 94.1 | |
倾斜 书脊 数据库 | Mask R-CNN算法* | 2 | ResNet50 | 81.3 |
改进Mask R-CNN算法* | 2 | ResNet50 | 93.5 | |
DeepLabv3+算法* | 4 | MobileNet V2 | 89.2 | |
本文算法 | 4 | MobileNet V2 | 93.3 |
表3 不同网络分割算法在开源数据库上的测试结果
Tab.3 Test results of different network segmentation algorithms on open-source database
数据库 | 算法 | 批次 | 骨架网络 | MIoU/% |
---|---|---|---|---|
近竖直 书脊 数据库 | Mask R-CNN算法* | 2 | ResNet50 | 87.5 |
改进Mask R-CNN算法* | 2 | ResNet50 | 85.3 | |
DeepLabv3+算法* | 4 | MobileNet V2 | 92.3 | |
本文算法 | 4 | MobileNet V2 | 94.1 | |
倾斜 书脊 数据库 | Mask R-CNN算法* | 2 | ResNet50 | 81.3 |
改进Mask R-CNN算法* | 2 | ResNet50 | 93.5 | |
DeepLabv3+算法* | 4 | MobileNet V2 | 89.2 | |
本文算法 | 4 | MobileNet V2 | 93.3 |
1 | TABASSUM N, CHOWDHURY S, HOSSEN M K, et al. An approach to recognize book title from multi-cell bookshelf images [C]// Proceedings of the 2017 IEEE International Conference on Imaging, Vision & Pattern Recognition. Piscataway: IEEE, 2017:1-6. 10.1109/icivpr.2017.7890886 |
2 | 康洪雷,牛连强,冯庸,等.基于视觉的错序在架图书检测系统 [J].软件工程,2018,21(4):18-22. |
KANG H L, NIU L Q, FENG Y, et al. A vision-based system to detect books with incorrect sequence on shelf [J]. Software Engineering, 2018, 21(4):18-22. | |
3 | 崔晨,任明武.一种基于文本检测的书脊定位方法 [J].计算机与数字工程,2020,48(1):178-182,251. 10.3969/j.issn.1672-9722.2020.01.034 |
CUI C, REN M W. A spine location method based on text detection [J]. Computer and Digital Engineering, 2020, 48(1): 178-182,251. 10.3969/j.issn.1672-9722.2020.01.034 | |
4 | NEVETHA M P, BARSKAR A. Automatic book spine extraction and recognition for library inventory management [C]// Proceedings of the 3rd International Symposium on Women in Computing and Informatics. New York: ACM, 2015:44-48. 10.1145/2791405.2791506 |
5 | UÇKUN F A, ÖZER H, NURBAŞ E, et al. Direction finding using convolutional neural networks and convolutional recurrent neural networks [C]// Proceedings of the 2020 28th Signal Processing and Communications Applications Conference. Piscataway: IEEE, 2020:1-4. 10.1109/siu49456.2020.9302448 |
6 | CAI W, HU D. QRS complex detection using novel deep learning neural networks [J]. IEEE Access, 2020, 8: 97082-97089. 10.1109/access.2020.2997473 |
7 | SAXENA N, K B N, RAMAN B. Semantic segmentation of multispectral images using Res-Seg-net model [C]// Proceedings of the 2020 IEEE 14th International Conference on Semantic Computing. Piscataway: IEEE, 2020:154-157. 10.1109/icsc.2020.00030 |
8 | ZHANG Z, LIU Q, WANG Y. Road extraction by deep residual U-Net [J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753. 10.1109/lgrs.2018.2802944 |
9 | ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation [EB/OL]. (2018-07-18) [2022-12-18]. . 10.1007/978-3-030-00889-5_1 |
10 | CAO K, ZHANG X. An improved Res-UNet model for tree species classification using airborne high-resolution images [J]. Remote Sensing, 2020, 12(7): 1128. 10.3390/rs12071128 |
11 | CHEN L-C, PAPANDREOU G, KOKKINOS I. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. (2014-12-22) [2022-12-18]. . 10.1109/tpami.2017.2699184 |
12 | CHEN L-C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848. 10.1109/tpami.2017.2699184 |
13 | CHEN L-C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-06-05) [2022-12-18]. . 10.1007/978-3-030-01234-2_49 |
14 | CHEN L-C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [EB/OL]. (2018-08-22) [2022-12-18]. . 10.1007/978-3-030-01234-2_49 |
15 | XIE Y, ZHANG J, SHEN C, et al. CoTr: efficiently bridging CNN and Transformer for 3D medical image segmentation [C]// Proceedings of the 2021 International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2021: 171-180. 10.1007/978-3-030-87199-4_16 |
16 | DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22) [2022-12-18]. . |
17 | LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [EB/OL]. (2021-08-17) [2022-12-18]. . 10.1109/iccv48922.2021.00986 |
18 | CHEN J, LU Y, YU Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. (2021-02-08) [2022-12-18]. . 10.48550/arXiv.2102.04306 |
19 | AZAD R, HEIDARI M, SHARIATNIA M, et al. TransDeepLab: convolution-free Transformer-based DeepLabv3+ for medical image segmentation [EB/OL]. (2022-08-01) [2022-12-18]. . 10.1007/978-3-031-16919-9_9 |
20 | SRINIVAS A, LIN T-Y, PARMAR N, et al. Bottleneck Transformers for visual recognition [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2021: 16514-16524. 10.1109/cvpr46437.2021.01625 |
21 | 曾文雯,杨阳,钟小品.一种用于在架图书书脊语义分割的山字形网络 [J].图像与信号处理, 2020, 9(4): 218-225. 10.12677/JISP.2020.94026 |
ZENG W W, YANG Y, ZHONG X P. A mountain-shaped network for semantic segmentation of books spines on-shelves [J]. Image and Signal Processing, 2020, 9(4): 218-225. 10.12677/JISP.2020.94026 | |
22 | 曾文雯,杨阳,钟小品. 基于改进Mask R-CNN的在架图书书脊图像实例分割方法 [J].计算机应用研究, 2021,38(11):3456-3459,3505. 10.19734/j.issn.1001-3695.2021.01.0069 |
ZENG W W, YANG Y, ZHONG X P. Improved Mask R-CNN based instance segmentation method for spine image of books on shelves [J]. Application Research of Computers, 2021, 38(11):3456-3459,3505. 10.19734/j.issn.1001-3695.2021.01.0069 |
[1] | 刘新忠, 赵澳庆, 谢文武, 杨志和. 基于BERT-GAT-CorNet多标签中文短文本分类方法[J]. 《计算机应用》唯一官方网站, 2023, 43(S2): 18-21. |
[2] | 李龚林, 范一晨, 米宇舰, 李明. 动态微调的模型集成算法Bagging-DyFAS[J]. 《计算机应用》唯一官方网站, 2023, 43(S2): 28-33. |
[3] | 谭朋柳, 张露玉, 徐光勇, 徐滕. 基于多粒度自注意力机制的抑郁症预测模型[J]. 《计算机应用》唯一官方网站, 2023, 43(S2): 34-40. |
[4] | 张博, 徐彦彦, 王志恒, 闫悦菁. 面向自然场景的不规则文本检测方法[J]. 《计算机应用》唯一官方网站, 2023, 43(S2): 9-17. |
[5] | 王啸飞, 鲍胜利, 陈炯环. 基于潜在因子模型在子空间上的缺失值注意力聚类算法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3772-3778. |
[6] | 曹建乐, 李娜娜. 基于多层次注意力的语义增强情感分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3703-3710. |
[7] | 王正刚, 刘忠, 金瑾, 刘伟. 基于改进蝶形反馈型神经网络的海关风险布控方法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3955-3964. |
[8] | 夏飞, 陈帅琦, 华珉, 蒋碧鸿. 基于改进BERT的电力领域中文分词方法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3711-3718. |
[9] | 许亮, 张春, 张宁, 田雪涛. 融合多Prompt模板的零样本关系抽取模型[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3668-3675. |
[10] | 夏吾吉 黄鹤鸣 更藏措毛 范玉涛. 基于无监督学习和监督学习的抽取式文本摘要综述 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 王海涵 朱焱. 融合反讽机制的攻击性言论检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 李众 王雅婧 马巧梅. 基于空洞卷积的医学图像超分辨率重建算法研究[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2940-2947. |
[13] | 尚爱国 朱欣娟. 基于多任务学习的意图检测和槽位填充联合方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 杨先凤 汤依磊 李自强. 基于交替注意力机制和图卷积网络的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 陈炯环, 鲍胜利, 王啸飞, 李若凡. 融合卷积与自注意力机制的基因型填补算法[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3534-3539. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||