在边缘端设备部署YOLOv8L模型进行道路裂缝检测可以实现较高的精度,但难以保证实时检测。针对此问题,提出一种可部署到边缘计算设备Jetson AGX Xavier上的基于改进YOLOv8模型的目标检测算法。首先,利用部分卷积设计Faster Block结构以替换YOLOv8 C2f模块中的Bottleneck结构,并将改进后的C2f模块记为C2f-Faster;其次,在YOLOv8主干网络中的每个C2f-Faster模块之后接一个SE(Squeeze-and-Excitation)通道注意力层,进一步提高检测的精度。在开源道路损害数据集RDD20(Road Damage Detection 20)上的实验结果表明:所提方法的平均F1得分为0.573,每秒检测帧数(FPS)为47,模型大小为55.5 MB,相较于GRDDC2020 (Global Road Damage Detection Challenge 2020)的SOTA(State-Of-The-Art)模型,F1得分提高了0.8个百分点,FPS提高了291.7%,模型大小减小了41.8%,实现了在边缘设备上对道路裂缝实时且准确的检测。
目前,医学图像分割模型广泛采用基于全卷积网络(FCN)的U型网络(U-Net)作为骨干网,但卷积神经网络(CNN)在捕捉长距离依赖能力上的劣势限制了分割模型性能的进一步提升。针对上述问题,研究者们将Transformer应用到医学图像分割模型中以弥补CNN的不足,结合Transformer和U型结构的分割网络成为研究热点之一。在详细介绍U-Net和Transformer之后,按医学图像分割模型中Transformer模块所处的位置,包括仅在编码器或解码器、同时在编码器和解码器、作为过渡连接和其他位置进行分类,讨论各模型的基本内容、设计理念以及可改进的地方,并分析了Transformer处于不同位置的优缺点。根据分析结果可知,决定Transformer所在位置的最大因素是目标分割任务的特点,而且Transformer结合U-Net的分割模型能更好地利用CNN和Transformer各自的优势,提高模型的分割性能,具有较大的发展前景和研究价值。
针对目前电动车头盔小目标检测的精度低、鲁棒性差,相关系统不完善等问题,提出了基于改进YOLOv5s的电动车头盔检测算法。所提算法引入卷积块注意力模块(CBAM)和协调注意力(CA)模块,采用改进的非极大值抑制(NMS),即DIoU-NMS(Distance Intersection over Union-Non Maximum Suppression);同时增加多尺度特征融合检测,并结合密集连接网络改善特征提取效果;最后,建立了电动车驾驶人头盔检测系统。在自建的电动车头盔佩戴数据集上,当交并比(IoU)为0.5时,所提算法的平均精度均值(mAP)比原始YOLOv5s提升了7.1个百分点,召回率(Recall)提升了1.6个百分点。实验结果表明,所提改进的YOLOv5s算法更能满足在实际情况中对电动车及驾驶员头盔的检测精度要求,一定程度上降低了电动车交通事故的发生率。
6自由度(DoF)位姿估计是计算机视觉与机器人技术中的一项关键技术,它能从给定的输入图像中估计物体的6DoF位姿,即3DoF平移和3DoF旋转,已经成为机器人操作、自动驾驶、增强现实等领域中的一项至关重要的任务。首先,介绍了6DoF位姿的概念以及基于特征点对应、基于模板匹配、基于三维特征描述符等传统方法存在的问题;然后,以基于特征对应、基于像素投票、基于回归和面向多物体实例、面向合成数据、面向类别级的不同角度详细介绍了当前主流的基于深度学习的6DoF位姿估计算法,归纳整理了在位姿估计方面常用的数据集以及评价指标,并对部分算法进行了实验性能评价;最后,给出了当前位姿估计面临的挑战和未来的重点研究方向。
针对海上船舶目标检测准确率不高的问题,提出一种基于改进YOLOv5的轻量级船舶目标检测算法YOLOShip。首先将空洞卷积与通道注意力(CA)引入空间金字塔快速池化(SPPF)模块,以融合不同尺度的空间特征细节信息,强化语义信息,提升区分前景与背景的能力;其次将协同注意力与轻量化的混合深度卷积引入特征金字塔网络(FPN)和路径聚合网络(PAN)结构中,以强化网络中的重要特征,获取含有更多细节信息的特征,并提升模型检测能力及定位精度;然后考虑到数据集中目标分布不均匀及尺度变化相对较小的特点,在修改锚框,减少检测头数量以精简模型的同时进一步提升模型性能;最后,引入更加灵活的多项式损失(PolyLoss)以优化二元交叉熵损失(BCE Loss),提升模型收敛速度及模型精度。在SeaShips数据集上的实验结果表明,相较于YOLOv5s,YOLOShip的精确率、召回率、mAP@0.5与mAP@0.5:0.95分别提升4.2、5.7、4.6和8.5个百分点,能在满足检测速度要求的同时得到更优的检测精度,有效地实现了高速、高精度的船舶检测。
针对目标检测过程中存在的小目标漏检问题,提出一种基于注意力机制和多尺度上下文信息的改进YOLOv5目标检测算法。首先,在特征提取结构中加入多尺度空洞可分离卷积模块(MDSCM)以提取多尺度特征信息,在增大感受野的同时避免小目标信息的丢失;其次,在主干网络中添加注意力机制,并在通道信息中嵌入位置感知信息,进一步增强算法的特征表达能力;最后,使用Soft-NMS(Soft-Non-Maximum Suppression)代替YOLOv5使用的非极大值抑制(NMS),降低检测算法的漏检率。实验结果表明,改进算法在PASCAL VOC数据集、DOTA航拍数据集和DIOR光学遥感数据集上的检测精度分别达到了82.80%、71.74%和77.11%,相较于YOLOv5,分别提高了3.70、1.49和2.48个百分点;而且它对图像中小目标的检测效果更好。因此,改进的YOLOv5可以更好地应用到小目标检测场景中。
针对现有超分辨率重建网络具有较高的计算复杂度和存在大量内存消耗的问题,提出了一种基于Transformer-CNN的轻量级图像超分辨率重建网络,使超分辨率重建网络更适合应用于移动平台等嵌入式终端。首先,提出了一个基于Transformer-CNN的混合模块,从而增强网络捕获局部-全局深度特征的能力;其次,提出了一个改进的倒置残差块来特别关注高频区域的特征,以提升特征提取能力和减少推理时间;最后,在探索激活函数的最佳选择后,采用GELU (Gaussian Error Linear Unit)激活函数来进一步提高网络性能。实验结果表明,所提网络可以在图像超分辨率性能和网络复杂度之间取得很好的平衡,而且在基准数据集Urban100上4倍超分辨率的推理速度达到91 frame/s,比优秀网络SwinIR (Image Restoration using Swin transformer)快11倍,表明所提网络能够高效地重建图像的纹理和细节,并减少大量的推理时间。
2D/3D医学图像配准是骨科手术三维实时导航中的一项关键技术,然而传统的基于优化迭代的2D/3D配准方法需要经过多次迭代计算,无法满足医生在手术过程中对于实时配准的要求。针对该问题,提出一种基于自编码器的姿态回归网络来通过隐空间解码捕获几何姿态信息,从而快速地回归出术中X射线图像对应的术前脊椎位置的3D姿态,并经过重新投影生成最终的配准图像。通过引入新的损失函数,以“粗细”结合配准的方式对模型进行约束,保证了姿态回归的精确度。在CTSpine1K脊椎数据集中抽取100组CT扫描图像进行10折交叉验证,实验结果表明:所提出的模型所生成的配准结果图像与X射线图像的平均绝对误差(MAE)为0.04,平均目标配准误差(mTRE)为1.16 mm,单帧耗时1.7 s。与基于传统优化的方法相比,该模型配准时间大幅缩短。相较于基于学习的方法,该模型在快速配准的同时,保证了较高的配准精度。可见,所提模型可以满足术中实时高精配准的要求。
针对现有跨视角图像匹配算法精度低的问题,提出了一种基于多视角多监督网络(MMNet)的无人机(UAV)定位方法。首先,所提方法融合卫星视角和UAV视角,在统一的网络架构下学习全局和局部特征并以多监督方式训练分类网络并执行度量任务。具体来说,MMNet主要采用了重加权正则化三元组损失(RRT)学习全局特征,该损失利用重加权和距离正则化加权策略来解决多视角样本不平衡以及特征空间结构紊乱的问题。同时,为了关注目标地点中心建筑的上下文信息,MMNet对特征图进行方形环切割来获取局部特征。然后,分别用交叉熵损失和RRT执行分类和度量任务。最终,使用加权策略聚合全局和局部特征来表征目标地点图像。通过在当前流行的UAV数据集University-1652上进行实验,可知MMNet在UAV定位任务的召回率Recall@1 (R@1)及平均精准率(AP)上分别达到83.97%和86.96%。实验结果表明,相较于LCM、SFPN等方法,MMNet显著提升了跨视角图像的匹配精度,进而增强了UAV图像定位的实用性。
针对遥感图像目标尺寸小、目标方向任意和背景复杂等问题,在YOLOv5算法的基础上,提出一种基于几何适应与全局感知的遥感图像目标检测算法。首先,将可变形卷积与自适应空间注意力模块通过密集连接交替串联堆叠,在充分利用不同层级的语义和位置信息基础上,构建一个能够建模局部几何特征的密集上下文感知模块(DenseCAM);其次,在骨干网络末端引入Transformer,以较低的开销增强模型的全局感知能力,实现目标与场景内容的关系建模。在UCAS-AOD和RSOD数据集上与YOLOv5s6算法相比,所提算法的平均精度均值(mAP)分别提高1.8与1.5个百分点。实验结果表明,所提算法能够有效提高遥感图像目标检测的精度。
针对传统点云配准算法精度低、鲁棒性差以及放疗前后癌症患者无法实现精确放疗的问题,提出一种基于残差注意力机制的点云配准算法(ADGCNNLK)。首先,在动态图深度卷积网络(DGCNN)中添加残差注意力机制来有效地利用点云的空间信息,并减少信息损失;然后,利用添加残差注意力机制的DGCNN提取点云特征,这样做不仅可以在保持点云置换不变性的同时捕捉点云的局部几何特征,也可以在语义上将信息聚合起来,从而提高配准效率;最后,将提取到的特征点映射到高维空间中并使用经典的图像迭代配准算法LK进行配准。实验结果表明,所提算法与迭代最近点算法(ICP)、全局优化的ICP算法(Go-ICP)和PointNetLK相比,在无噪、有噪的情况下配准效果均最好。其中,在无噪情况下,与PointNetLK相比,所提算法的旋转均方误差降低了74.61%,平移均方误差降低了47.50%;在有噪声的情况下,与PointNetLK相比,所提算法的旋转均方误差降低了73.13%,平移均方误差降低了44.18%,说明所提算法与PointNetLK相比鲁棒性更强。将所提算法应用于放疗前后癌症患者人体点云模型的配准,从而辅助医生治疗,并实现了精确放疗。
视觉目标跟踪是计算机视觉中的重要任务之一,为实现高性能的目标跟踪,近年来提出了大量的目标跟踪方法,其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力,是目前视觉目标跟踪领域研究的热点。首先,根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类,概述相关原理和模型改进的关键技术,总结不同网络结构的优缺点;其次,对这类方法在公开数据集上的实验结果进行对比,分析网络结构对性能的影响,其中MixViT-L(ConvMAE)在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%,说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景;最后,对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结,并对今后的研究重点进行展望,通过与模型压缩、自监督学习以及Transformer可解释性分析相结合,可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。
针对现有的手写数学公式识别(HMER)方法经过卷积神经网络(CNN)多次池化后,图像分辨率降低、特征信息丢失,从而引起解析错误的问题,提出基于注意力机制编码器?解码器的HMER模型。首先,采用稠密卷积网络(DenseNet)作为编码器,使用稠密连接加强特征提取,促进梯度传播,并缓解梯度消失;其次,采用门控循环单元(GRU)作为解码器,并引入注意力机制,将注意力分配到图像的不同区域,从而准确地实现符号识别和结构分析;最后,对手写数学公式图像进行编码,将编码结果解码为LaTeX序列。在在线手写数学公式识别竞赛(CROHME)数据集上的实验结果表明,所提模型的识别率提升到40.39%,而在3个级别的允许误差范围内,识别率分别提升到52.74%、58.82%和62.98%。相较于双向长短期记忆(BLSTM)网络模型,所提模型的识别率提高了3.17个百分点;而在3个级别的允许误差范围内,识别率分别提高了8.52、11.56和12.78个百分点。可见,所提模型能够准确地解析手写数学公式图像,生成LaTeX序列,提升识别率。
为了生成更准确流畅的虚拟人动画,采用Kinect设备捕获三维人体姿态数据的同时,使用单目人体三维姿态估计算法对Kinect的彩色信息进行骨骼点数据推理,从而实时优化人体姿态估计效果,并驱动虚拟人物模型生成动画。首先,提出了一种时空优化的骨骼点数据处理方法,以提高单目估计人体三维姿态的稳定性;其次,提出了一种Kinect和遮挡鲁棒姿势图(ORPM)算法融合的人体姿态估计方法来解决Kinect的遮挡问题;最后,研制了基于四元数向量插值和逆向运动学约束的虚拟人动画系统,其能够进行运动仿真和实时动画生成。与仅利用Kinect捕获人体运动来生成动画的方法相比,所提方法的人体姿态估计数据鲁棒性更强,具备一定的防遮挡能力,而与基于ORPM算法的动画生成方法相比,所提方法生成的动画在帧率上提高了两倍,效果更真实流畅。
红外小目标所占像素较少,且缺乏颜色、纹理、形状等特征,因此难以有效地跟踪它们。针对这一问题,提出了一种基于状态信息的红外小目标跟踪方法。首先,将待跟踪小目标局部区域的目标、背景和干扰物进行编码以得到连续帧之间密集的局部状态信息;其次,将当前帧和上一帧的特征信息输入分类器,得到分类得分;然后,融合状态信息和分类得分,从而得到最终置信度并确定待跟踪小目标的中心位置;最后,更新状态信息并在连续帧之间传播,在此之后利用传播的状态信息完成对整个序列中红外小目标的跟踪。在DIRST(Dataset for Infrared detection and tRacking of dim-Small aircrafT)数据集上评估所提方法。实验结果显示,所提方法针对红外小目标的跟踪召回率达到了96.2%,精确率达到了97.3%,相较于目前最优秀的通过跟踪方法KeepTrack召回率和精确率分别提高了3.7%和3.7%。这表明所提方法在复杂的背景与干扰下能有效完成针对红外小目标的跟踪。