多媒体计算与计算机仿真

Select

1. 基于深度学习的医学影像分割研究综述

曹玉红, 徐海, 刘荪傲, 王紫霄, 李宏亮

《计算机应用》唯一官方网站 2021, 41 (8): 2273-2287. DOI: 10.11772/j.issn.1001-9081.2020101638

摘要（2060）

PDF （2539KB）（1680）

医学影像分割是计算机辅助诊断中的一项基础且关键的任务，目的在于从像素级别准确识别出目标器官、组织或病变区域。不同于自然场景下的图像，医学影像往往纹理复杂，同时受限于成像技术和成像设备，医学影像噪声大，边界模糊而不易判断。除此之外，对医学影像进行标注极大依赖于医疗专家的认知和经验，因此可用于训练中的标注数据少且存在标注误差。由于上述的医学影像边缘模糊不清、训练数据较少和标注误差较大等特点，基于传统图像分割算法搭建的辅助诊断系统难以满足临床应用的要求。近年来随着卷积神经网络（CNN）在计算机视觉和自然语言处理领域的广泛应用，基于深度学习的医学影像分割算法取得了极大的成功。首先概述了近几年基于深度学习的医学影像分割的研究进展，包括这些医学影像分割算法的基本结构、目标函数和优化方法。随后针对医学影像标注数据有限的问题，对目前半监督条件下医学影像分割的主流工作进行了整理归纳和分析。此外，还介绍了针对标注误差进行不确定度分析的相关工作。最后，总结分析了深度学习医学影像分割的特点并展望了未来的研究趋势。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于改进YOLOv8的嵌入式道路裂缝检测算法

耿焕同, 刘振宇, 蒋骏, 范子辰, 李嘉兴

《计算机应用》唯一官方网站 2024, 44 (5): 1613-1618. DOI: 10.11772/j.issn.1001-9081.2023050635

摘要（1724）

HTML （68）

PDF （2002KB）（2322）

在边缘端设备部署YOLOv8L模型进行道路裂缝检测可以实现较高的精度，但难以保证实时检测。针对此问题，提出一种可部署到边缘计算设备Jetson AGX Xavier上的基于改进YOLOv8模型的目标检测算法。首先，利用部分卷积设计Faster Block结构以替换YOLOv8 C2f模块中的Bottleneck结构，并将改进后的C2f模块记为C2f-Faster；其次，在YOLOv8主干网络中的每个C2f-Faster模块之后接一个SE（Squeeze-and-Excitation）通道注意力层，进一步提高检测的精度。在开源道路损害数据集RDD20（Road Damage Detection 20）上的实验结果表明：所提方法的平均F1得分为0.573，每秒检测帧数（FPS）为47，模型大小为55.5 MB，相较于GRDDC2020 （Global Road Damage Detection Challenge 2020）的SOTA（State-Of-The-Art）模型，F1得分提高了0.8个百分点，FPS提高了291.7%，模型大小减小了41.8%，实现了在边缘设备上对道路裂缝实时且准确的检测。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于Transformer的U型医学图像分割网络综述

傅励瑶, 尹梦晓, 杨锋

《计算机应用》唯一官方网站 2023, 43 (5): 1584-1595. DOI: 10.11772/j.issn.1001-9081.2022040530

摘要（1691）

HTML （85）

PDF （1887KB）（1179）

目前，医学图像分割模型广泛采用基于全卷积网络（FCN）的U型网络（U-Net）作为骨干网，但卷积神经网络（CNN）在捕捉长距离依赖能力上的劣势限制了分割模型性能的进一步提升。针对上述问题，研究者们将Transformer应用到医学图像分割模型中以弥补CNN的不足，结合Transformer和U型结构的分割网络成为研究热点之一。在详细介绍U-Net和Transformer之后，按医学图像分割模型中Transformer模块所处的位置，包括仅在编码器或解码器、同时在编码器和解码器、作为过渡连接和其他位置进行分类，讨论各模型的基本内容、设计理念以及可改进的地方，并分析了Transformer处于不同位置的优缺点。根据分析结果可知，决定Transformer所在位置的最大因素是目标分割任务的特点，而且Transformer结合U-Net的分割模型能更好地利用CNN和Transformer各自的优势，提高模型的分割性能，具有较大的发展前景和研究价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于改进YOLOv5s电动车头盔的自动检测与识别

朱周华, 齐琦

《计算机应用》唯一官方网站 2023, 43 (4): 1291-1296. DOI: 10.11772/j.issn.1001-9081.2022020313

摘要（1250）

HTML （58）

PDF （2941KB）（442）

PDF（mobile）（3142KB）（52）

针对目前电动车头盔小目标检测的精度低、鲁棒性差，相关系统不完善等问题，提出了基于改进YOLOv5s的电动车头盔检测算法。所提算法引入卷积块注意力模块（CBAM）和协调注意力（CA）模块，采用改进的非极大值抑制（NMS），即DIoU-NMS（Distance Intersection over Union-Non Maximum Suppression）；同时增加多尺度特征融合检测，并结合密集连接网络改善特征提取效果；最后，建立了电动车驾驶人头盔检测系统。在自建的电动车头盔佩戴数据集上，当交并比（IoU）为0.5时，所提算法的平均精度均值（mAP）比原始YOLOv5s提升了7.1个百分点，召回率（Recall）提升了1.6个百分点。实验结果表明，所提改进的YOLOv5s算法更能满足在实际情况中对电动车及驾驶员头盔的检测精度要求，一定程度上降低了电动车交通事故的发生率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 遥感影像变化检测综述

任秋如, 杨文忠, 汪传建, 魏文钰, 钱芸芸

《计算机应用》唯一官方网站 2021, 41 (8): 2294-2305. DOI: 10.11772/j.issn.1001-9081.2020101632

摘要（1186）

PDF （1683KB）（1687）

变化检测作为土地利用/土地覆盖检测的关键技术，其目的是在同一区域不同时期的遥感数据中检测出变化的部分及其类型。针对传统的变化检测方法中存在繁重的人工劳动和检测结果效果差等问题，大量基于遥感影像的变化检测方法被提出。为了深入了解基于遥感影像的变化检测技术以及进一步研究变化检测方法，通过对大量有关变化检测的研究进行整理、分析和比较，对变化检测进行了较为全面的综述。首先阐述了变化检测的发展历程；然后从数据选择及预处理、变化检测技术、后处理及精度评价这三个方面详细归纳了变化检测的研究进展，其中变化检测技术主要从分析单元和比较方法的方面分别进行概括；最后对变化检测各个阶段存在的问题进行了总结并提出了未来的发展方向。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于深度学习的双通道夜视图像复原方法

牛康力, 谌雨章, 沈君凤, 曾张帆, 潘永才, 王绎冲

计算机应用 2021, 41 (6): 1775-1784. DOI: 10.11772/j.issn.1001-9081.2020091411

摘要（841）

PDF （1916KB）（761）

针对夜间场景光线微弱、能见度低导致夜视图像信噪比低、成像质量差的问题，提出了基于深度学习的双通道夜视图像复原方法。首先，用两种基于全连接多尺度残差学习分块（FMRB）的卷积神经网络（CNN）分别对红外夜视图像和微光夜视图像进行多尺度特征提取和层次特征融合，从而得到重建的红外图像和增强的微光图像；然后，两种处理后的图像通过自适应加权平均算法进行融合，并根据场景的不同自适应地凸显两个图像中具有更高显著性的有效信息；最后，得到分辨率高且视觉效果好的夜视复原图像。使用基于FMRB的深度学习网络得到的红外夜视重建图像，相较于卷积神经网络超分辨率（SRCNN）重建算法得到的在峰值信噪比（PSNR）和结构相似性（SSIM）的平均值上分别提升了3.56 dB和0.091 2；相较于MSRCR，得到的微光夜视增强图像在PSNR和SSIM的平均值上分别提升了6.82 dB和0.132 1。实验结果表明，所提方法得到的重建图像的清晰度明显得到改善，获得的增强图像的亮度也明显得到提升，而且前二者的融合图像的视觉效果较好，可见所提方法能有效改善夜视图像的复原效果。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于人体骨架特征编码的健身动作识别方法

郭天晓, 胡庆锐, 李建伟, 沈燕飞

计算机应用 2021, 41 (5): 1458-1464. DOI: 10.11772/j.issn.1001-9081.2020071113

摘要（839）

PDF （1143KB）（1312）

健身动作识别是智能健身系统的核心环节。为了提高健身动作识别算法的精度和速度，并减少健身动作中人体整体位移对识别结果的影响，提出了一种基于人体骨架特征编码的健身动作识别方法。该方法包括三个步骤：首先，构建精简的人体骨架模型，并利用人体姿态估计技术提取骨架模型中各关节点的坐标信息；其次，利用人体中心投影法提取动作特征区域以消除人体整体位移对动作识别的影响；最后，将特征区域编码作为特征向量并输入多分类器进行动作识别，同时通过优化特征向量长度使识别率和速度达到最优。实验结果表明，本方法在包含28种动作的自建健身数据集上的动作识别率为97.24%，证明该方法能够有效识别各类健身动作；在公开的KTH和Weizmann数据集上，所提方法的动作识别率分别为91.67%和90%，优于其他同类型方法。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于双相机捕获面部表情及人体姿态生成三维虚拟人动画

刘洁, 李毅, 朱江平

计算机应用 2021, 41 (3): 839-844. DOI: 10.11772/j.issn.1001-9081.2020060993

摘要（811）

PDF （1377KB）（710）

为了生成表情丰富、动作流畅的三维虚拟人动画，提出了一种基于双相机同步捕获面部表情及人体姿态生成三维虚拟人动画的方法。首先，采用传输控制协议（TCP）网络时间戳方法实现双相机时间同步，采用张正友标定法实现双相机空间同步。然后，利用双相机分别采集面部表情和人体姿态。采集面部表情时，提取图像的2D特征点，利用这些2D特征点回归计算得到面部行为编码系统（FACS）面部行为单元，为实现表情动画做准备；以标准头部3D坐标值为基准，根据相机内参，采用高效 n点投影（EP nP）算法实现头部姿态估计；之后将面部表情信息和头部姿态估计信息进行匹配。采集人体姿态时，利用遮挡鲁棒姿势图（ORPM）方法计算人体姿态，输出每个骨骼点位置、旋转角度等数据。最后，在虚幻引擎4（UE4）中使用建立的虚拟人体三维模型来展示数据驱动动画的效果。实验结果表明，该方法能够同步捕获面部表情及人体姿态，而且在实验测试中的帧率达到20 fps，能实时生成自然真实的三维动画。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于深度学习的RGB图像目标位姿估计综述

王一, 谢杰, 程佳, 豆立伟

《计算机应用》唯一官方网站 2023, 43 (8): 2546-2555. DOI: 10.11772/j.issn.1001-9081.2022071022

摘要（804）

HTML （37）

PDF （858KB）（623）

6自由度（DoF）位姿估计是计算机视觉与机器人技术中的一项关键技术，它能从给定的输入图像中估计物体的6DoF位姿，即3DoF平移和3DoF旋转，已经成为机器人操作、自动驾驶、增强现实等领域中的一项至关重要的任务。首先，介绍了6DoF位姿的概念以及基于特征点对应、基于模板匹配、基于三维特征描述符等传统方法存在的问题；然后，以基于特征对应、基于像素投票、基于回归和面向多物体实例、面向合成数据、面向类别级的不同角度详细介绍了当前主流的基于深度学习的6DoF位姿估计算法，归纳整理了在位姿估计方面常用的数据集以及评价指标，并对部分算法进行了实验性能评价；最后，给出了当前位姿估计面临的挑战和未来的重点研究方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于改进 YOLOv5的轻量级船舶目标检测算法

李佳东, 张丹普, 范亚琼, 杨剑锋

《计算机应用》唯一官方网站 2023, 43 (3): 923-929. DOI: 10.11772/j.issn.1001-9081.2022071096

摘要（681）

HTML （28）

PDF （4960KB）（401）

针对海上船舶目标检测准确率不高的问题，提出一种基于改进YOLOv5的轻量级船舶目标检测算法YOLOShip。首先将空洞卷积与通道注意力（CA）引入空间金字塔快速池化（SPPF）模块，以融合不同尺度的空间特征细节信息，强化语义信息，提升区分前景与背景的能力；其次将协同注意力与轻量化的混合深度卷积引入特征金字塔网络（FPN）和路径聚合网络（PAN）结构中，以强化网络中的重要特征，获取含有更多细节信息的特征，并提升模型检测能力及定位精度；然后考虑到数据集中目标分布不均匀及尺度变化相对较小的特点，在修改锚框，减少检测头数量以精简模型的同时进一步提升模型性能；最后，引入更加灵活的多项式损失（PolyLoss）以优化二元交叉熵损失（BCE Loss），提升模型收敛速度及模型精度。在SeaShips数据集上的实验结果表明，相较于YOLOv5s，YOLOShip的精确率、召回率、mAP@0.5与mAP@0.5：0.95分别提升4.2、5.7、4.6和8.5个百分点，能在满足检测速度要求的同时得到更优的检测精度，有效地实现了高速、高精度的船舶检测。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 基于注意力机制和上下文信息的目标检测算法

刘辉, 张琳玉, 王复港, 何如瑾

《计算机应用》唯一官方网站 2023, 43 (5): 1557-1564. DOI: 10.11772/j.issn.1001-9081.2022040554

摘要（675）

HTML （33）

PDF （3014KB）（408）

针对目标检测过程中存在的小目标漏检问题，提出一种基于注意力机制和多尺度上下文信息的改进YOLOv5目标检测算法。首先，在特征提取结构中加入多尺度空洞可分离卷积模块（MDSCM）以提取多尺度特征信息，在增大感受野的同时避免小目标信息的丢失；其次，在主干网络中添加注意力机制，并在通道信息中嵌入位置感知信息，进一步增强算法的特征表达能力；最后，使用Soft-NMS（Soft-Non-Maximum Suppression）代替YOLOv5使用的非极大值抑制（NMS），降低检测算法的漏检率。实验结果表明，改进算法在PASCAL VOC数据集、DOTA航拍数据集和DIOR光学遥感数据集上的检测精度分别达到了82.80%、71.74%和77.11%，相较于YOLOv5，分别提高了3.70、1.49和2.48个百分点；而且它对图像中小目标的检测效果更好。因此，改进的YOLOv5可以更好地应用到小目标检测场景中。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 基于深度学习的三维点云人脸识别

高工, 杨红雨, 刘洪

计算机应用 2021, 41 (9): 2736-2740. DOI: 10.11772/j.issn.1001-9081.2020111826

摘要（658）

PDF （1375KB）（769）

为了增强三维点云人脸识别系统针对多表情、多姿态的鲁棒性，提出一种基于深度学习的点云特征提取网络ResPoint。ResPoint网络使用了分组、采样和局部特征提取（ResConv）等模块，而在ResConv模块中使用了跳跃式连接，因此所提网络对于稀疏点云有很好的识别结果。首先通过人脸几何特征点定位鼻尖点，并以该点为中心切割出面部区域，切割出的区域有噪点并且有孔洞，因此对其进行高斯滤波和三维立方插值；其次，使用ResPoint网络对预处理后的点云数据提取特征；最后，在全连接层组合特征以实现三维人脸的分类。在CASIA三维人脸数据库上的实验中，与关系型卷积神经网络（RS-CNN）相比，ResPoint网络的识别正确率提高了5.06%。实验结果表明，ResPoint网络增加了网络深度的同时使用不同的卷积核提取特征，因此ResPoint网络有更好的特征提取能力。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于Transformer-CNN的轻量级图像超分辨率重建网络

陈豪, 夏振平, 程成, 林李兴, 张博文

《计算机应用》唯一官方网站 2024, 44 (1): 292-299. DOI: 10.11772/j.issn.1001-9081.2023010048

摘要（642）

HTML （24）

PDF （1855KB）（381）

针对现有超分辨率重建网络具有较高的计算复杂度和存在大量内存消耗的问题，提出了一种基于Transformer-CNN的轻量级图像超分辨率重建网络，使超分辨率重建网络更适合应用于移动平台等嵌入式终端。首先，提出了一个基于Transformer-CNN的混合模块，从而增强网络捕获局部-全局深度特征的能力；其次，提出了一个改进的倒置残差块来特别关注高频区域的特征，以提升特征提取能力和减少推理时间；最后，在探索激活函数的最佳选择后，采用GELU （Gaussian Error Linear Unit）激活函数来进一步提高网络性能。实验结果表明，所提网络可以在图像超分辨率性能和网络复杂度之间取得很好的平衡，而且在基准数据集Urban100上4倍超分辨率的推理速度达到91 frame/s，比优秀网络SwinIR （Image Restoration using Swin transformer）快11倍，表明所提网络能够高效地重建图像的纹理和细节，并减少大量的推理时间。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 基于姿态编码器的2D/3D脊椎医学图像实时配准方法

徐少康, 张战成, 姚浩男, 邹智伟, 张宝成

《计算机应用》唯一官方网站 2023, 43 (2): 589-594. DOI: 10.11772/j.issn.1001-9081.2021122147

摘要（628）

HTML （14）

PDF （2007KB）（359）

2D/3D医学图像配准是骨科手术三维实时导航中的一项关键技术，然而传统的基于优化迭代的2D/3D配准方法需要经过多次迭代计算，无法满足医生在手术过程中对于实时配准的要求。针对该问题，提出一种基于自编码器的姿态回归网络来通过隐空间解码捕获几何姿态信息，从而快速地回归出术中X射线图像对应的术前脊椎位置的3D姿态，并经过重新投影生成最终的配准图像。通过引入新的损失函数，以“粗细”结合配准的方式对模型进行约束，保证了姿态回归的精确度。在CTSpine1K脊椎数据集中抽取100组CT扫描图像进行10折交叉验证，实验结果表明：所提出的模型所生成的配准结果图像与X射线图像的平均绝对误差（MAE）为0.04，平均目标配准误差（mTRE）为1.16 mm，单帧耗时1.7 s。与基于传统优化的方法相比，该模型配准时间大幅缩短。相较于基于学习的方法，该模型在快速配准的同时，保证了较高的配准精度。可见，所提模型可以满足术中实时高精配准的要求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

15. 基于改进的Faster R-CNN的通用目标检测框架

马佳良, 陈斌, 孙晓飞

计算机应用 2021, 41 (9): 2712-2719. DOI: 10.11772/j.issn.1001-9081.2020111852

摘要（619）

PDF （2181KB）（563）

针对当前基于深度学习的检测器不能有效检测形状不规则或长宽相差悬殊的目标的问题，在传统Faster R-CNN算法的基础上，提出了一个改进的二阶段目标检测框架——Accurate R-CNN。首先，提出了新的交并比（IoU）度量——有效交并比（EIoU），通过提出中心度权重来降低训练数据中冗余包围框的占比。然后，提出了一个上下文相关的特征重分配模块（FRM），通过建模目标的远程依赖和局部上下文关系信息对特征进行重编码，以弥补池化过程中的形状信息损失。实验结果表明，在微软多场景通用目标（MS COCO）数据集上，对于包围框检测任务，当使用深度为50和101的残差网络（ResNet）作为骨干网络时，Accurate R-CNN比基线模型Faster R-CNN的平均精度（AP）分别提高了1.7个百分点和1.1个百分点，超越了使用同样骨干网络的基于掩膜的检测器。在添加掩膜分支后，对于实例分割任务，当使用两种不同深度的ResNet作为骨干网络时，Accurate R-CNN比Mask R-CNN的掩膜平均精度分别提高了1.2个百分点和1.1个百分点。研究结果显示，相较于基线模型，Accurate R-CNN在不同数据集、不同任务上均取得了更好的检测效果。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于多视角多监督网络的无人机图像定位方法

周金坤, 王先兰, 穆楠, 王晨

《计算机应用》唯一官方网站 2022, 42 (10): 3191-3199. DOI: 10.11772/j.issn.1001-9081.2021081518

摘要（617）

HTML （18）

PDF （2090KB）（221）

针对现有跨视角图像匹配算法精度低的问题，提出了一种基于多视角多监督网络（MMNet）的无人机（UAV）定位方法。首先，所提方法融合卫星视角和UAV视角，在统一的网络架构下学习全局和局部特征并以多监督方式训练分类网络并执行度量任务。具体来说，MMNet主要采用了重加权正则化三元组损失（RRT）学习全局特征，该损失利用重加权和距离正则化加权策略来解决多视角样本不平衡以及特征空间结构紊乱的问题。同时，为了关注目标地点中心建筑的上下文信息，MMNet对特征图进行方形环切割来获取局部特征。然后，分别用交叉熵损失和RRT执行分类和度量任务。最终，使用加权策略聚合全局和局部特征来表征目标地点图像。通过在当前流行的UAV数据集University-1652上进行实验，可知MMNet在UAV定位任务的召回率Recall@1 （R@1）及平均精准率（AP）上分别达到83.97%和86.96%。实验结果表明，相较于LCM、SFPN等方法，MMNet显著提升了跨视角图像的匹配精度，进而增强了UAV图像定位的实用性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

17. 基于几何适应与全局感知的遥感图像目标检测算法

顾勇翔, 蓝鑫, 伏博毅, 秦小林

《计算机应用》唯一官方网站 2023, 43 (3): 916-922. DOI: 10.11772/j.issn.1001-9081.2022010071

摘要（608）

HTML （23）

PDF （2184KB）（304）

针对遥感图像目标尺寸小、目标方向任意和背景复杂等问题，在YOLOv5算法的基础上，提出一种基于几何适应与全局感知的遥感图像目标检测算法。首先，将可变形卷积与自适应空间注意力模块通过密集连接交替串联堆叠，在充分利用不同层级的语义和位置信息基础上，构建一个能够建模局部几何特征的密集上下文感知模块（DenseCAM）；其次，在骨干网络末端引入Transformer，以较低的开销增强模型的全局感知能力，实现目标与场景内容的关系建模。在UCAS-AOD和RSOD数据集上与YOLOv5s6算法相比，所提算法的平均精度均值（mAP）分别提高1.8与1.5个百分点。实验结果表明，所提算法能够有效提高遥感图像目标检测的精度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 基于注意力机制的图像超分辨率重建

王永金, 左羽, 吴恋, 崔忠伟, 赵晨洁

计算机应用 2021, 41 (3): 845-850. DOI: 10.11772/j.issn.1001-9081.2020060979

摘要（595）

PDF （2394KB）（521）

目前，单幅图像超分辨率重建取得了很好的效果，然而大多数模型都是通过增加网络层数来达到好的效果，并没有去发掘各通道之间的相关性。针对上述问题，提出了一种基于通道注意力机制（CA）和深度可分离卷积（DSC）的图像超分辨率重建方法。整个模型采用多路径模式的全局和局部残差学习，首先利用浅层特征提取块来提取输入图像的特征；然后，在深层特征提取块中引入通道注意力机制，通过调整各通道的特征图权重来增加通道相关性，从而提取高频特征信息；最后，重建出高分辨率图像。为了减少注意力机制带来的巨大参数影响，在局部残差块中使用了深度可分离卷积技术以大大减少训练参数，同时采用自适应矩估计（Adam）优化器来加速模型的收敛，从而提高了算法性能。该方法在Set5、Set14数据集上进行图像重建，实验结果表明不仅该方法重建的图像具有更高的峰值信噪比（PSNR）和结构相似度（SSIM），而且所提模型的参数量减少为深度残差通道注意力网络（RCAN）模型的参数量的1/26。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于自动编码器的深度伪造图像检测方法

张亚, 金鑫, 江倩, 李昕洁, 董云云, 姚绍文

计算机应用 2021, 41 (10): 2985-2990. DOI: 10.11772/j.issn.1001-9081.2020122046

摘要（594）

PDF （769KB）（473）

基于深度学习的图像伪造方法生成的图像肉眼难辨，一旦该技术被滥用于制作虚假图像和视频，可能会对国家政治、经济、文化造成严重的负面影响，也可能会对社会生活和个人隐私构成威胁。针对上述问题，提出了一种基于自动编码器的深度伪造Deepfake图像检测方法。首先，借助高斯滤波对图像进行预处理，提取高频信息作为模型输入；然后，利用自动编码器对图像进行特征提取，并在编码器中添加注意力机制模块以获取更好的分类效果；最后，通过消融实验证明，采用所提的预处理方法和添加注意力机制模块有助于伪造图像检测。实验结果表明，与ResNet50、Xception以及InceptionV3相比，所提方法在数据集样本量较小且包含的场景丰富时，可以有效检测多种生成方法所伪造的图像，其平均准确率可达97.10%，明显优于对比方法，且其泛化性能也明显优于对比方法。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于残差注意力机制的点云配准算法

秦庭威, 赵鹏程, 秦品乐, 曾建朝, 柴锐, 黄永琦

《计算机应用》唯一官方网站 2022, 42 (7): 2184-2191. DOI: 10.11772/j.issn.1001-9081.2021071319

摘要（587）

HTML （15）

PDF （2278KB）（557）

针对传统点云配准算法精度低、鲁棒性差以及放疗前后癌症患者无法实现精确放疗的问题，提出一种基于残差注意力机制的点云配准算法（ADGCNNLK）。首先，在动态图深度卷积网络（DGCNN）中添加残差注意力机制来有效地利用点云的空间信息，并减少信息损失；然后，利用添加残差注意力机制的DGCNN提取点云特征，这样做不仅可以在保持点云置换不变性的同时捕捉点云的局部几何特征，也可以在语义上将信息聚合起来，从而提高配准效率；最后，将提取到的特征点映射到高维空间中并使用经典的图像迭代配准算法LK进行配准。实验结果表明，所提算法与迭代最近点算法（ICP）、全局优化的ICP算法（Go-ICP）和PointNetLK相比，在无噪、有噪的情况下配准效果均最好。其中，在无噪情况下，与PointNetLK相比，所提算法的旋转均方误差降低了74.61%，平移均方误差降低了47.50%；在有噪声的情况下，与PointNetLK相比，所提算法的旋转均方误差降低了73.13%，平移均方误差降低了44.18%，说明所提算法与PointNetLK相比鲁棒性更强。将所提算法应用于放疗前后癌症患者人体点云模型的配准，从而辅助医生治疗，并实现了精确放疗。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

21. 基于分组卷积进行特征融合的全景分割算法

冯兴杰, 张天泽

计算机应用 2021, 41 (7): 2054-2061. DOI: 10.11772/j.issn.1001-9081.2020091523

摘要（565）

PDF （1584KB）（576）

针对图像全景分割任务对于实践应用中现有网络结构运算不够快速的问题，提出一种基于分组卷积进行特征融合的全景分割算法。首先，通过自底向上的方式选择经典残差网络结构（ResNet）进行特征提取，并采用不同扩张率的空洞卷积空间金字塔池化操作（ASPP）对提取到的特征进行语义分割与实例分割的多尺度特征融合；然后，通过提出一种单路分组卷积上采样方法，整合语义与实例特征进行上采样特征融合至指定大小；最后，通过对语义分支、实例分支以及实例中心点这三个分支进行损失函数运算以得到更加精细的全景分割输出结果。该模型在CityScapes数据集上与注意力引导的联合全景分割网络（AUNet）、全景特征金字塔网络（Panoptic FPN）、亲和金字塔单阶段实例分割算法（SSAP）、联合全景分割网络（UPSNet）、Panoptic-DeepLab等方法进行了实验对比。实验结果表明，与对比方法中表现最好的Panoptic-DeepLab模型相比，所提模型在极大减少了解码网络参数量的情况下，全景分割质量（PQ）值为0.565，仅下降了0.003，在建筑物、火车、自行车等物体的分割质量上有0.3~5.5的提升，平均精确率（AP）、目标IoU阈值超过50%的平均精确率（AP ₅₀）分别提升了0.002与0.014，平均交并比（mIoU）值提升了0.06。可见该方法能提升图像全景分割速度，在PG、AP、mIoU三个指标上均有较好的精度，可以有效地完成全景分割任务。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于时域波形的半监督端到端虚假语音检测方法

方昕, 黄泽鑫, 张聿晗, 高天, 潘嘉, 付中华, 高建清, 刘俊华, 邹亮

《计算机应用》唯一官方网站 2023, 43 (1): 227-231. DOI: 10.11772/j.issn.1001-9081.2021101845

摘要（560）

HTML （15）

PDF （6257KB）（377）

现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好，但对实际应用中的未知攻击类型检测效果显著降低。因此，结合最近提出的双路径Res2Net（DP?Res2Net），提出一种基于时域波形的半监督端到端虚假语音检测方法。首先，为了解决训练数据集和测试数据集两者数据分布差异较大的问题，采用半监督学习进行领域迁移；然后，对于特征工程，直接将时域采样点输入DP?Res2Net中，增加局部的多尺度信息，并充分利用音频片段之间的依赖性；最后，输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量，用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能，实验结果表明它的等错误率（EER）为19.97%，与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的，且具有更高的泛化能力。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于Transformer的视觉目标跟踪方法综述

孙子文, 钱立志, 杨传栋, 高一博, 陆庆阳, 袁广林

《计算机应用》唯一官方网站 2024, 44 (5): 1644-1654. DOI: 10.11772/j.issn.1001-9081.2023060796

摘要（560）

HTML （22）

PDF （1615KB）（1259）

视觉目标跟踪是计算机视觉中的重要任务之一，为实现高性能的目标跟踪，近年来提出了大量的目标跟踪方法，其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力，是目前视觉目标跟踪领域研究的热点。首先，根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类，概述相关原理和模型改进的关键技术，总结不同网络结构的优缺点；其次，对这类方法在公开数据集上的实验结果进行对比，分析网络结构对性能的影响，其中MixViT-L（ConvMAE）在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%，说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景；最后，对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结，并对今后的研究重点进行展望，通过与模型压缩、自监督学习以及Transformer可解释性分析相结合，可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

24. 基于注意力机制编码器 ‒解码器的手写数学公式识别模型

陈路, 陈道喜, 陆一鸣, 陆卫忠

《计算机应用》唯一官方网站 2023, 43 (4): 1297-1302. DOI: 10.11772/j.issn.1001-9081.2022020278

摘要（548）

HTML （13）

PDF （1695KB）（257）

PDF（mobile）（993KB）（17）

针对现有的手写数学公式识别（HMER）方法经过卷积神经网络（CNN）多次池化后，图像分辨率降低、特征信息丢失，从而引起解析错误的问题，提出基于注意力机制编码器?解码器的HMER模型。首先，采用稠密卷积网络（DenseNet）作为编码器，使用稠密连接加强特征提取，促进梯度传播，并缓解梯度消失；其次，采用门控循环单元（GRU）作为解码器，并引入注意力机制，将注意力分配到图像的不同区域，从而准确地实现符号识别和结构分析；最后，对手写数学公式图像进行编码，将编码结果解码为LaTeX序列。在在线手写数学公式识别竞赛（CROHME）数据集上的实验结果表明，所提模型的识别率提升到40.39%，而在3个级别的允许误差范围内，识别率分别提升到52.74%、58.82%和62.98%。相较于双向长短期记忆（BLSTM）网络模型，所提模型的识别率提高了3.17个百分点；而在3个级别的允许误差范围内，识别率分别提高了8.52、11.56和12.78个百分点。可见，所提模型能够准确地解析手写数学公式图像，生成LaTeX序列，提升识别率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于Kinect的人体姿态估计优化和动画生成

赵威, 李毅

《计算机应用》唯一官方网站 2022, 42 (9): 2830-2837. DOI: 10.11772/j.issn.1001-9081.2021061043

摘要（544）

HTML （24）

PDF （7004KB）（207）

为了生成更准确流畅的虚拟人动画，采用Kinect设备捕获三维人体姿态数据的同时，使用单目人体三维姿态估计算法对Kinect的彩色信息进行骨骼点数据推理，从而实时优化人体姿态估计效果，并驱动虚拟人物模型生成动画。首先，提出了一种时空优化的骨骼点数据处理方法，以提高单目估计人体三维姿态的稳定性；其次，提出了一种Kinect和遮挡鲁棒姿势图（ORPM）算法融合的人体姿态估计方法来解决Kinect的遮挡问题；最后，研制了基于四元数向量插值和逆向运动学约束的虚拟人动画系统，其能够进行运动仿真和实时动画生成。与仅利用Kinect捕获人体运动来生成动画的方法相比，所提方法的人体姿态估计数据鲁棒性更强，具备一定的防遮挡能力，而与基于ORPM算法的动画生成方法相比，所提方法生成的动画在帧率上提高了两倍，效果更真实流畅。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 动态环境下基于深度学习的语义SLAM算法

郑思诚, 孔令华, 游通飞, 易定容

计算机应用 2021, 41 (10): 2945-2951. DOI: 10.11772/j.issn.1001-9081.2020111885

摘要（541）

PDF （1572KB）（1391）

针对应用场景中存在的运动物体会降低视觉同步定位与地图构建（SLAM）系统的定位精度和鲁棒性的问题，提出一种基于语义信息的动态环境下的视觉SLAM算法。首先，将传统视觉SLAM前端与YOLOv4目标检测算法相结合，在对输入图像进行ORB特征提取的同时，对该图像进行语义分割；然后，判断目标类型以获得动态目标在图像中的区域，剔除分布在动态物体上的特征点；最后，使用处理后的特征点与相邻帧进行帧间匹配来求解相机位姿。实验采用TUM数据集进行测试，测试结果表明，所提算法相较于ORB-SLAM2在高动态环境下在位姿估计精度上提升了96.78%，同时该算法的跟踪线程处理一帧的平均耗时为0.065 5 s，相较于其他应用在动态环境下的SLAM算法耗时最短。实验结果表明，所提算法能够实现在动态环境中的实时精确定位与建图。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于增强现实的手术导航系统快速标定算法

孙启昌, 麦永锋, 陈晓军

计算机应用 2021, 41 (3): 833-838. DOI: 10.11772/j.issn.1001-9081.2020060776

摘要（536）

PDF （1272KB）（955）

针对光学半透式头戴显示器（OST-HMD）在增强现实（AR）中的虚实融合问题，提出了一种基于光学定位跟踪系统的OST-HMD快速标定算法。首先，通过把OST-HMD中的虚拟标记点和其在真实世界中的对应点组成两个三维点集，对虚拟空间到光学定位追踪空间之间的映射进行估计，从而求解虚拟空间到真实场景的转换矩阵。然后，建立整个导航系统的矩阵传递关系，在此基础上设计并实现了基于AR的手术导航系统，并对其进行了精度验证实验和模型实验。实验结果表明，所提算法使虚拟基准点和对应的真实基准点之间的均方根误差达到1.39 ±0.49 mm，标定过程的平均耗时为23.8 s，证明该算法具有临床应用的潜力。

参考文献 | 相关文章 | 多维度评价

Select

28. 结合目标检测的室内场景识别方法

徐江浪, 李林燕, 万新军, 胡伏原

计算机应用 2021, 41 (9): 2720-2725. DOI: 10.11772/j.issn.1001-9081.2020111815

摘要（532）

PDF （1357KB）（446）

在目标检测网络（ObjectNet）和场景识别网络相结合的方法中，由于ObjectNet提取的目标特征和场景网络提取的场景特征的维度和性质不一致，且目标特征中存在影响场景判断的冗余信息，导致场景识别的准确率低。针对这个问题，提出一种改进的结合目标检测的室内场景识别方法。首先，在ObjectNet中引入类转换矩阵（CCM），将ObjectNet输出的目标特征进行转化，使得目标特征的维度与场景特征的维度相一致，以此减少特征维度不一致带来的信息丢失；然后采用上下文门控（CG）机制对特征中的冗余信息进行抑制，从而降低不相关信息的权重，提高了目标特征在场景识别中的作用。该方法在MIT Indoor67数据集上的识别准确率达到90.28%，与维护空间布局的对象语义特征（SOSF）方法相比识别准确率提高了0.77个百分点；其在SUN397数据集上识别准确率达到81.15%，与交替专家层次结构（HoAS）方法相比识别准确率提高了1.49个百分点。实验结果表明，所提方法提高了室内场景识别的准确率。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于感知哈希和切块的视频相似度检测方法

吴悦, 雒江涛, 刘锐, 胡钟尹

计算机应用 2021, 41 (7): 2070-2075. DOI: 10.11772/j.issn.1001-9081.2020081177

摘要（531）

PDF （1358KB）（332）

长期以来视频侵权问题层出不穷，而检测视频相似度是视频侵权的重要手段。针对现有视频相似度检测方法中存在的多特征关系难以关联、时间复杂度高等问题，提出一种基于感知哈希和切块的快速对比方法。首先，利用视频的关键图像帧生成数字指纹集；然后，基于切块的方法构建相应的倒排索引，提高数字指纹间的对比速度；最后，根据得到的数字指纹间的汉明距离进行相似度判定。实验结果表明，与传统的感知哈希对比方法相比，该方法能在保证检测准确度的前提下将检测时间平均缩短93%；与多特征哈希（MTH）、自学习哈希（STH）、光哈希（SPH）等三种常见方法相比，所提方法的平均准确率均值（mAP）分别提高了1.4%、2%和2.3%，检测时间分别缩短了24%、32%和16%，验证了所提方法的可行性。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于状态信息的红外小目标跟踪方法

唐鑫, 彭博, 滕飞

《计算机应用》唯一官方网站 2023, 43 (6): 1938-1942. DOI: 10.11772/j.issn.1001-9081.2022050762

摘要（528）

HTML （14）

PDF （1552KB）（175）

红外小目标所占像素较少，且缺乏颜色、纹理、形状等特征，因此难以有效地跟踪它们。针对这一问题，提出了一种基于状态信息的红外小目标跟踪方法。首先，将待跟踪小目标局部区域的目标、背景和干扰物进行编码以得到连续帧之间密集的局部状态信息；其次，将当前帧和上一帧的特征信息输入分类器，得到分类得分；然后，融合状态信息和分类得分，从而得到最终置信度并确定待跟踪小目标的中心位置；最后，更新状态信息并在连续帧之间传播，在此之后利用传播的状态信息完成对整个序列中红外小目标的跟踪。在DIRST（Dataset for Infrared detection and tRacking of dim-Small aircrafT）数据集上评估所提方法。实验结果显示，所提方法针对红外小目标的跟踪召回率达到了96.2%，精确率达到了97.3%，相较于目前最优秀的通过跟踪方法KeepTrack召回率和精确率分别提高了3.7%和3.7%。这表明所提方法在复杂的背景与干扰下能有效完成针对红外小目标的跟踪。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章