多媒体计算与计算机仿真

Select

1. 不规则物体点云切片中的多轮廓分割算法

张瑾, 徐文, 周宇乔, 刘凯

《计算机应用》唯一官方网站 2023, 43 (10): 3209-3216. DOI: 10.11772/j.issn.1001-9081.2022101536

摘要（135）

HTML （6）

PDF （4343KB）（59）

使用切片法进行不规则物体点云体积测量时，现有的多边形拆分再重组（PSR）算法难以正确拆分较近的轮廓，进而导致计算精度较低。针对这一问题，提出一种多轮廓分割算法——改进最近点搜索（INPS）算法。首先，通过局部点的单次使用原则分割多轮廓；其次，使用多边形内点判定（PIP）算法判断轮廓的包含关系，以确认轮廓面积的正负；最后，采用切片面积乘以厚度并累加的方式获取不规则物体点云的体积。实验结果表明，在两个公开点云数据集和一个化学电子密度等值面点云数据集上，所提算法都能实现高正确率的边界分割，具有一定的普适性；且该算法体积测量的平均相对误差为0.043 6%，低于PSR算法的0.062 7%，可见所提算法实现了高正确率的边界分割。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 面向语音增强的双复数卷积注意聚合递归网络

余本年, 詹永照, 毛启容, 董文龙, 刘洪麟

《计算机应用》唯一官方网站 2023, 43 (10): 3217-3224. DOI: 10.11772/j.issn.1001-9081.2022101533

摘要（126）

HTML （4）

PDF （1993KB）（74）

针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题，提出一种双复数卷积注意聚合递归网络（DCCARN）的语音增强方法。首先，建立双复数卷积网络，对短时傅里叶变换后的语谱图特征进行两分支信息编码；其次，将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注；再次，使用长短期记忆（LSTM）网络处理长时间序列信息，并用两解码器还原语谱图特征并聚合这些特征；最后，经短时逆傅里叶变换生成目标语音波形，以达到抑制噪声的目的。在公开数据集VBD（Voice Bank+DMAND）和加噪的TIMIT数据集上进行的实验的结果表明，与相位感知的深度复数卷积递归网络（DCCRN）相比，DCCARN在客观语音感知质量指标（PESQ）上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息，更有效地抑制噪声，并提高语音的清晰度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于多特征融合的点云场景语义分割

郝雯, 汪洋, 魏海南

《计算机应用》唯一官方网站 2023, 43 (10): 3202-3208. DOI: 10.11772/j.issn.1001-9081.2023020119

摘要（206）

HTML （11）

PDF （2678KB）（106）

为挖掘特征间的语义关系以及空间分布信息，并通过多特征增强进一步改善点云语义分割的效果，提出一种基于多特征融合的点云场景语义分割网络（MFF-Net）。所提网络以点的三维坐标和改进后的边特征作为输入，首先，利用K-近邻（KNN）算法搜寻点的近邻点，并在三维坐标和近邻点间坐标差值的基础上计算几何偏移量，从而增强点的局部几何特征表示；其次，将中心点与近邻点间的距离作为权重信息更新边特征，并引入空间注意力机制，获取特征间的语义信息；再次，通过计算近邻特征间的差值，利用均值池化操作进一步提取特征间的空间分布信息；最后，利用注意力池化操作融合三边特征。实验结果表明，所提网络在S3DIS（Stanford 3D large-scale Indoor Spaces）数据集上的平均交并比（mIoU）达到了67.5%，总体准确率（OA）达到了87.2%，相较于PointNet++分别提高10.2和3.4个百分点，可见MFF-Net在大型室内/室外场景均能获得良好的分割效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 融合视觉特征增强机制的机器人弱光环境抓取检测

李淦, 牛洺第, 陈路, 杨静, 闫涛, 陈斌

《计算机应用》唯一官方网站 2023, 43 (8): 2564-2571. DOI: 10.11772/j.issn.1001-9081.2023050586

摘要（271）

HTML （26）

PDF （2821KB）（617）

现有的机器人抓取操作通常在良好光照条件下开展，此时目标细节清晰、区域对比度高，而在夜间、遮挡等弱光环境下目标的视觉特征微弱，会导致现有的机器人抓取检测模型的检测准确率急剧下降。为提高弱光场景下稀疏、微弱抓取特征的表征能力，提出一种融合视觉特征增强机制的抓取检测模型，通过视觉增强子任务为抓取检测施加特征增强约束。对于抓取检测模块，采用仿U-Net框架的编码器-解码器结构实现特征的高效融合；对于弱光增强模块，从局部、全局层面分别提取纹理、颜色信息，以实现兼顾目标细节与视觉效果的特征增强。此外，分别构建弱光Cornell数据集和弱光Jacquard数据集两个新的弱光抓取基准数据集，并基于上述数据集开展对比实验。实验结果表明，所提弱光抓取检测模型在基准数据集上的准确率分别达到了95.5%和87.4%，与生成抓取卷积神经网络（GG-CNN）、生成残差卷积神经网络（GR-ConvNet）等现有抓取检测模型相比，准确率在弱光Cornell数据集提升11.1、1.2个百分点，在弱光Jacquard数据集上提升5.5、5.0个百分点，取得了较好的抓取检测效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 真实复杂场景下基于残差收缩网络的单幅图像超分辨率方法

李颖, 黄超, 孙成栋, 徐勇

《计算机应用》唯一官方网站 2023, 43 (12): 3903-3910. DOI: 10.11772/j.issn.1001-9081.2022111697

摘要（175）

HTML （2）

PDF （3309KB）（97）

真实世界中极少存在成对的高低分辨率图像对，传统的基于图像对训练模型的单幅图像超分辨率（SR）方法采用合成数据集的方式得到训练集时仅考虑了双线性下采样退化，且传统图像超分辨率方法在面向真实的未知退化图像时重建效果较差。针对上述问题，提出一种面向真实复杂场景的图像超分辨率方法。首先，采用不同焦距对景物进行拍摄并配准得到相机采集的真实高低分辨率图像对，构建一个场景多样的数据集CSR（Camera Super-Resolution dataset）；其次，为了尽可能地模拟真实世界中的图像退化过程，根据退化因素参数随机化和非线性组合退化改进图像退化模型，并且结合高低分辨率图像对数据集和图像退化模型以合成训练集；最后，由于数据集中考虑了退化因素，引入残差收缩网络和U-Net改进基准模型，尽可能地减少退化因素在特征空间中的冗余信息。实验结果表明，所提方法在复杂退化条件下相较于次优BSRGAN（Blind Super-Resolution Generative Adversarial Network）方法，在RealSR和CSR测试集中PSNR指标分别提高了0.7 dB和0.14 dB，而SSIM分别提高了0.001和0.031。所提方法在复杂退化数据集上的客观指标和视觉效果均优于现有方法。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 基于图模型与注意力机制的室外场景点云分割模型

廉飞宇, 张良, 王杰栋, 靳于康, 柴玉

《计算机应用》唯一官方网站 2023, 43 (12): 3911-3917. DOI: 10.11772/j.issn.1001-9081.2022111704

摘要（117）

HTML （1）

PDF （2141KB）（77）

针对在多对象且空间拓扑关系复杂的室外场景环境中相似地类区分难的问题，提出一种结合图模型与注意力机制模块的A-Edge-SPG（Attention-EdgeConv SuperPoint Graph）图神经网络。首先，利用图割和几何特征结合的方法对超点进行分割；其次，在超点内部构造局部邻接图，从而在捕获场景中点云的上下文信息的同时利用注意力机制模块凸显关键信息；最后，构建超点图（SPG）模型，并采用门控循环单元（GRU）聚合超点和超边特征，实现对不同地类点云间的精确分割。在Semantic3D数据集上对A-Edge-SPG模型和SPG-Net（SPG neural Network）模型的语义分割效果进行比较分析。实验结果表明，相较于SPG模型，A-Edge-SPG模型在总体分割精度（OA）、平均交并比（mIoU）和平均精度均值（mAA）上分别提升了1.8、5.1和2.8个百分点，并且在高植被、矮植被等相似地类的分割精度上取得了明显的提升，改善了相似地类间语义分割的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 基于边界框标注的弱监督显著性目标检测算法

王强, 黄小明, 佟强, 刘秀磊

《计算机应用》唯一官方网站 2023, 43 (6): 1910-1918. DOI: 10.11772/j.issn.1001-9081.2022050706

摘要（272）

HTML （8）

PDF （3663KB）（174）

针对以往的弱监督显著性目标检测算法存在的显著目标定位不准确问题，提出一种基于边界框标注的弱监督显著目标检测算法。所提算法利用图像中所有目标的最小外接矩形框，即边界框，作为监督信息。首先基于边界框标注和GrabCut算法生成初始显著图；然后在此基础上设计了一个缺失修正模块，以得到优化后的显著图；最后结合传统方法和深度学习方法各自的优势，将优化后的显著图作为伪真值，通过神经网络学习一个显著性目标检测模型。在4个公开数据集上与6种无监督、4种弱监督的显著性检测算法进行比较的实验结果显示，所提算法在所有数据集上的最大F度量值（Max-F）和平均绝对误差（MAE）均明显优于对比算法：与同样基于边界框标注的弱监督方法SBB（Saliency Bounding Boxes）相比，所提算法的标注方法更简单，在ECSSD、DUTS-TE、HKU-IS、DUT-OMRON等4个数据集上进行实验，Max-F分别提高了1.82%、4.00%、1.27%和5.33%，MAE分别降低了13.89%、15.07%、8.77%和13.33%。可见，所提算法是一种具有良好检测性能的弱监督显著目标检测算法。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于双解码器的Transformer多目标跟踪方法

王利, 宣士斌, 秦续阳, 李紫薇

《计算机应用》唯一官方网站 2023, 43 (6): 1919-1929. DOI: 10.11772/j.issn.1001-9081.2022050753

摘要（295）

HTML （14）

PDF （4498KB）（206）

多目标跟踪（MOT）任务需要同时跟踪多个目标并保证目标身份的连续性。针对当前MOT过程中存在目标遮挡、目标ID切换（IDSW）和目标丢失等问题，对基于Transformer的MOT模型进行改进，提出了一种基于双解码器的Transformer多目标跟踪方法。首先，在第一帧中通过模型初始化生成一组轨迹，并在此后的每一帧中用注意力建立帧与帧之间的关联；其次，利用双解码器修正跟踪目标信息，一个解码器用于检测目标，一个解码器用于跟踪目标；然后，完成跟踪后利用直方图模板匹配找回丢失的目标；最后，用卡尔曼滤波跟踪预测遮挡目标，并将遮挡结果与新检测出的目标关联，从而保证跟踪结果的连续性。此外，在TrackFormer的基础上添加表观统计特性和运动特征建模，以实现不同结构之间的融合。在MOT17数据集上的实验结果表明，相较于TrackFomer模型，所提模型的身份F1得分（IDF1）提升了0.87个百分点，多对象跟踪准确性（MOTA）提升了0.41个百分点，IDSW数量减少了16.3%。所提方法在MOT16和MOT20数据集上也取得了不错的成绩。可见所提方法能够有效应对物体遮挡问题，维持目标身份信息，减少目标身份丢失。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 基于实例分割与毕达哥拉斯模糊决策的目标跟踪

赵元龙, 单玉刚, 袁杰, 赵康迪

《计算机应用》唯一官方网站 2023, 43 (6): 1930-1937. DOI: 10.11772/j.issn.1001-9081.2022050674

摘要（167）

HTML （6）

PDF （3011KB）（68）

为了解决目标跟踪中的尺度变化、相似性干扰、遮挡等问题，提出一种基于实例分割与毕达哥拉斯模糊决策的目标跟踪算法。在实例分割网络YOLACT++ （improved You Only Look At CoefficienTs）的基础上，融合3种不同的匹配方式针对不同场景预测跟踪结果；同时提出一种基于毕达哥拉斯模糊决策的模板更新机制，即根据预测结果的质量作出是否更新目标模板和更换匹配方式的决定。实验结果表明，所提算法能够更准确地跟踪存在尺度变化、相似性干扰、遮挡等问题的视频序列。相较于SiamMask算法，所提算法在DAVIS 2016、DAVIS 2017数据集上的区域相似度分别提高了12.3、15.3个百分点，在VOT2016、VOT2018数据集上的预期平均重叠率（EAO）分别提高了4.2、4.1个百分点，且所提算法的平均跟踪速度为每秒32.00帧，满足实时性要求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于残差编解码-生成对抗网络的正弦图修复的稀疏角度锥束CT图像重建

靳鑫, 刘仰川, 朱叶晨, 张子健, 高欣

《计算机应用》唯一官方网站 2023, 43 (6): 1950-1957. DOI: 10.11772/j.issn.1001-9081.2022050773

摘要（271）

HTML （8）

PDF （5739KB）（179）

稀疏投影可有效缩短锥束CT（CBCT）扫描剂量和扫描时间，但会导致重建图像中出现大量条状伪影。正弦图修复可以生成缺失角度的投影数据，并提高重建图像质量。基于这些，提出了一种用于稀疏角度CBCT重建的正弦图修复的残差编解码-生成对抗网络（RED-GAN）。该网络利用残差编解码结构（RED）模块替换Pix2pixGAN（Pix2pix Generative Adversarial Network）中的U-Net生成器，并利用基于PatchGAN（Patch Generative Adversarial Network）的条件判别器鉴别修复后的正弦图和真实正弦图，从而进一步提升网络性能。利用真实CBCT投影数据进行网络训练后，分别在1/2、1/3、1/4稀疏采样条件下测试所提网络，并把RED-GAN与线性插值法、残差编解码-卷积神经网络（RED-CNN）和Pix2pixGAN对比。实验结果表明，RED-GAN的正弦图修复结果在3种条件下均优于对比方法，并在1/4稀疏采样条件下所提网络的优势最为明显。在正弦图域中，RED-GAN的均方根误差（RMSE）下降了7.2%，峰值信噪比（PSNR）上升了1.5%，结构相似性（SSIM）上升了1.4%；在重建图像域中，RMSE下降了5.4%，PSNR上升了1.6%，SSIM上升了1.0%。可见，RED-GAN适用于高质量的稀疏角度CBCT重建，在快速低剂量CBCT扫描领域具有潜在的应用价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 保留梯度和轮廓的可见光与红外图像融合

韩林凯, 姚江伟, 王坤峰

《计算机应用》唯一官方网站 2023, 43 (11): 3574-3578. DOI: 10.11772/j.issn.1001-9081.2022101553

摘要（188）

HTML （1）

PDF （2124KB）（200）

为了解决可见光与红外图像采用基础拉普拉斯融合（Laplacian Blending）时，存在热源物体的轮廓不清晰以及曝光严重区域图像内容缺失的问题，提出一种保留红外轮廓与梯度信息的图像融合方法。首先，对输入图像进行颜色空间转换和自适应形态学去噪，并将两幅图像的梯度对比和红外图像突出目标的轮廓作为像素活动信息的权值；其次，同时分解权值与输入图像，并采用基于相似度的比较调整权重分配；最后，重构图像并转换颜色空间。在主观评价中，所提方法未产生伪影和怪异色彩，图像中的发热目标轮廓清晰；在客观评价指标中，该方法的熵（EN）为7.49，边缘梯度（EI）为74.61，平均梯度（AG）为7.23，与传统多尺度变换方法（包括非下采样轮廓波变换（NSCT）方法和基于非下采样剪切波变换（NSST）多尺度熵方法）和深度学习方法（结合残差网络（ResNet）与零相位分量分析（ZCA）的图像融合方法）相比，它的EN分别提升了0.10、0.58和0.75，EI分别提升了6.65、20.35和37.35，AG分别提升了0.73、2.19和3.55；而且它在Intel i5系列计算机上的处理速度达到5 frame/s，计算复杂度低。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 基于多峰标签分布学习的多任务年龄估计方法

何建辉, 胡春龙, 束鑫

《计算机应用》唯一官方网站 2023, 43 (5): 1578-1583. DOI: 10.11772/j.issn.1001-9081.2022040606

摘要（185）

HTML （5）

PDF （1036KB）（47）

针对面部年龄估计中标签序数信息和类间相关性提取难的问题，提出一种多峰分布（MPD）年龄编码，并基于该年龄编码构建了一个多任务年龄估计方法MPDNet（MPD Network）。首先，利用MPD将年龄标签转化为年龄分布，以提取年龄标签间的相关信息，构建年龄老化趋势的阶段性；然后，采用一个轻量级网络进行多阶段的特征提取，并对提取的特征分别进行标签分布学习（LDL）和回归学习；最后，共享两个学习任务的输出，并在训练过程中通过反向传播互相优化，避免传统标签分布学习中对分布结果直接进行回归导致的误差传播。在MORPH Ⅱ数据集上的实验结果表明，MPDNet的平均绝对误差（MAE）达到2.67，与基于VGGNets （Visual Geometry Group Networks）构建的DEX（Deep EXpectation）、RankingCNN （Ranking Convolutional Neural Network）等方法相当，而参数仅为VGGNets的1/788.6；而且MPDNet也优于同体量的C3AE（extremely Compact yet efficient Cascade Context-based Age Estimation model）、SSR-Net （Soft Stagewise Regression Network）等方法。MPDNet能够较好地利用年龄标签间丰富的相关信息来提取更具判别力的年龄特征，提高年龄估计任务的预测精度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

13. 基于单模态的多尺度特征融合人体行为识别方法

刘锁兰, 田珍珍, 王洪元, 林龙, 王炎

《计算机应用》唯一官方网站 2023, 43 (10): 3236-3243. DOI: 10.11772/j.issn.1001-9081.2022101473

摘要（173）

HTML （10）

PDF （1425KB）（167）

针对人体行为识别任务中未能充分挖掘超距关节点之间潜在关联的问题，以及使用多模态数据带来的高昂训练成本的问题，提出一种单模态条件下的多尺度特征融合人体行为识别方法。首先，将人体的原始骨架图进行全局特征关联，并利用粗尺度的全局特征捕获远距离关节点间的联系；其次，对全局特征关联图进行局部划分以得到融合了全局特征的互补子图（CSGF），利用细尺度特征建立强关联，并形成多尺度特征的互补；最后，将CSGF输入时空图卷积模块中提取特征，并聚合提取后的结果以输出最终的分类结果。实验结果表明，在行为识别权威数据集NTU RGB+D60上，所提方法的准确率分别为89.0%（X-sub）和94.2%（X-view）；在具有挑战性的大规模数据集NTU RGB+D120上，所提方法的准确率分别为83.3%（X-sub）和85.0%（X-setup），与单模态下的ST-TR（Spatial-Temporal TRansformer）相比，分别提升1.4和0.9个百分点，与轻量级SGN（Semantics-Guided Network）相比，分别提升4.1和3.5个百分点。可见，所提方法能够充分挖掘多尺度特征的协同互补性，并有效提高单模态条件下模型的识别准确率和训练效率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 用于肺部病灶图像分割的多尺度稠密融合网络

卢小燕, 徐杨, 袁文昊

《计算机应用》唯一官方网站 2023, 43 (10): 3282-3289. DOI: 10.11772/j.issn.1001-9081.2022101545

摘要（200）

HTML （9）

PDF （3560KB）（176）

针对主流的深度学习网络难以完整分割肺部病灶、区域边界预测模糊的问题，提出一种基于U-Net的多尺度稠密融合网络（MDF-Net）。首先，引入多分支密集跳层连接以捕获多级上下文信息，并在网络末端引入信息加权融合（IWF）模块进行逐级融合，以解决网络中的特征损失问题；其次，设计一种自注意力金字塔模块，使用各金字塔层对特征图进行不同规模的切分处理，并使用自注意力机制计算像素关联度，从而增强局部与全局区域的感染特征显著性；最后，设计一种区别于传统U-Net的上采样模式的上采样残差（UR）模块，多分支的残差结构与通道特征激励使网络能够还原更加丰富的微小病灶特征。在两个公开数据集上的实验结果显示，与UNeXt相比，所提网络的准确度（ACC）分别提升了1.5%和1.4%，平均交并比（MIoU）分别提升了3.9%和1.9%，实验结果验证了MDF-Net具有更好的肺部病灶分割性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

15. 基于U-Net的多尺度特征增强视网膜血管分割算法

张志昂, 廖光忠

《计算机应用》唯一官方网站 2023, 43 (10): 3275-3281. DOI: 10.11772/j.issn.1001-9081.2022091437

摘要（248）

HTML （16）

PDF （2624KB）（138）

针对传统视网膜血管分割算法存在血管分割精度低和病灶区域误分割等缺点，提出一种基于U-Net的多尺度特征增强视网膜血管分割算法（MFEU-Net）。首先，为解决梯度消失问题，设计一种改进的特征信息增强残差模块（FIE-RM）替代U-Net的卷积块；其次，为扩大感受野并提高对血管信息特征的抽取能力，在U-Net的底部引入多尺度密集空洞卷积模块；最后，为减少编解码过程中的信息损失，在U-Net的跳跃连接处构建多尺度通道增强模块。在DRIVE（Digital Retinal Images for Vessel Extraction）和CHASE_DB1数据集上的实验结果表明，与在视网膜血管分割方面表现次优的算法CS-Net（Channel and Spatial attention Network）相比，MFEU-Net的F1分数分别提高了0.35和1.55个百分点，曲线下面积（AUC）分别提高了0.34和1.50个百分点，这验证了MFEU-Net可以有效提高对视网膜血管分割的准确性和鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

16. 保持细节几何特征的三维网格模型轻量化算法

张韵, 王淑营, 郑庆, 张海柱

《计算机应用》唯一官方网站 2023, 43 (4): 1226-1232. DOI: 10.11772/j.issn.1001-9081.2022030434

摘要（320）

HTML （9）

PDF （3119KB）（220）

对三维模型进行轻量化的一个重要策略是利用网格简化算法减少模型表面的三角面片数量，其中广泛使用的边折叠算法相较于其他网格简化算法效率更高、简化效果更好，然而该算法存在简化过程中可能损坏或丢失部分细节几何特征的问题。为了解决上述问题，提出通过增加曲线近似曲率和模型待折叠边的一阶邻域三角形的平均面积作为惩罚因子，以优化原始算法的边折叠代价。首先，根据几何中曲线曲率的定义，提出了曲线近似曲率的计算公式；其次，在顶点法向量的计算过程中，使用面积加权和内角加权两个阶段对初始法向量进行修正，从而考虑更加丰富的模型几何信息。通过实验验证了优化后算法的性能，与经典的二次误差测度（QEM）算法、顾及角度误差的网格简化算法相比，优化算法处理后的模型的最大误差分别至少降低了73.96%和49.77%；与QEM算法相比，优化算法处理后的模型Hausdorff距离至少降低了17.69%。可见，在模型轻量化的过程中，优化算法能够减少模型的形变，更好地维持自身的细节几何特征。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

17. 结合注意力的双分支残差低光照图像增强

祖佳贞, 周永霞, 陈乐

《计算机应用》唯一官方网站 2023, 43 (4): 1240-1247. DOI: 10.11772/j.issn.1001-9081.2022030479

摘要（253）

HTML （4）

PDF （4669KB）（514）

在低光条件下拍摄的照片会因曝光不足而产生一系列的视觉问题，如亮度低、信息丢失、噪声和颜色失真等。为了解决上述问题，提出一个结合注意力的双分支残差低光照图像增强网络。首先，采用改进InceptionV2提取浅层特征；其次，使用残差特征提取块（RFB）和稠密残差特征提取块（DRFB）提取深层特征；然后，融合浅层和深层特征，并将融合结果输入亮度调整块（BAM）调整亮度，最终得到增强图像。同时，结合注意力机制设计特征融合块（FFM）捕获重要的特征信息，以帮助恢复低光照图像的暗部区域。此外，引入一个联合损失函数从多方面衡量网络训练损失。实验结果表明，相较于鲁棒的视网膜大脑皮层模型（RRM）、Zero-DCE（Zero-Reference Deep Curve Estimation）和EnlightenGAN（Enlighten Generative Adversarial Network），在LOL（LOw-Light）数据集上，所提网络的峰值信噪比（PSNR）指标分别提高了49.9%、40.0%和18.5%；在LOL-V2数据集上，结构相似性（SSIM）指标分别提高了20.3%、50.0%和34.5%。所提网络在提高低光照图像亮度的同时降低了噪声，减少了颜色失真和伪影，得到的增强图像更加清晰自然。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 基于注意力自相关机制的跟踪外观特征

窦光义, 魏发南, 邱创一, 巢建树

《计算机应用》唯一官方网站 2023, 43 (4): 1248-1254. DOI: 10.11772/j.issn.1001-9081.2022030426

摘要（194）

HTML （5）

PDF （2258KB）（74）

为了解决多目标跟踪（MOT）算法中由于模糊行人特征造成的身份切换（IDS）等跟踪问题，并验证行人外观在跟踪过程中的重要性，提出了一种基于中心点检测模型的注意力自相关网络（ASCN）。首先，对原图进行通道和空间注意力网络的学习以获得两种不同的特征图，并对深度信息完成解耦；然后，通过特征图之间的自相关性学习，获得更加准确的行人外观特征和行人方位信息，并将这些信息用于关联过程的跟踪；此外，制作了低帧率条件下视频的跟踪数据集，以验证改进算法的性能。在视频帧率条件不理想时，改进算法利用ASCN获取了行人外观信息，相较于仅利用方位信息的跟踪算法具有更好的准确率和鲁棒性。最后，将改进算法在MOT Challenge的MOT17数据集上进行测试。实验结果表明，与不加入ASCN的FairMOT（Fairness in MOT）相比，改进算法的跟踪平均准确率（MOTA）和识别F值（IDF1）指标分别提高了0.5和1.1个百分点，IDS数减少了32.2%，且在单卡NVIDIA Tesla V100上的运行速度达到了每秒21.2帧，这验证了改进算法不仅减少了跟踪过程中的错误，也提升了整体跟踪效果，且能够满足实时性要求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

19. 基于渐进比率掩蔽目标的自适应噪声估计方法

高建清, 屠彦辉, 马峰, 付中华

《计算机应用》唯一官方网站 2023, 43 (4): 1303-1308. DOI: 10.11772/j.issn.1001-9081.2022030384

摘要（311）

HTML （2）

PDF （1425KB）（58）

基于深度学习的语音增强算法的性能通常优于传统的基于噪声抑制的语音增强算法。然而当训练数据和测试数据之间存在不匹配时，基于深度学习的语音增强算法通常无法正常工作。针对上述问题，提出一种新的基于渐进比率掩蔽（PRM）的自适应噪声估计（PRM-ANE）方法，并把它作为语音识别系统的预处理方法。所提方法综合利用了具有帧级别的噪声跟踪能力的改进最小统计量控制递归平均（IMCRA）算法和具有学习噪声和语音之间复杂非线性映射关系的渐进学习算法这两种算法。首先，使用二维卷积神经网络（2D-CNN）学习随信噪比（SNR）增加的PRM；其次，通过传统的帧级语音增强算法组合句子级估计的PRM，进行语音增强；最后，将基于多级别信息融合的增强语音直接作为语音识别系统的输入，从而提高识别系统性能。在CHiME-4真实测试集上的实验结果表明，所提方法可以实现7.42%的相对字识别错误率（WER），与IMCRA语音增强方法相比下降了51.41%，可见所提方法能够有效提升下游识别任务的性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

20. 基于多级跳跃残差组的运动人像去模糊网络

纪佳奇, 卢振坤, 熊福棚, 张甜, 杨豪

《计算机应用》唯一官方网站 2023, 43 (10): 3244-3250. DOI: 10.11772/j.issn.1001-9081.2022091457

摘要（176）

HTML （7）

PDF （3316KB）（61）

为解决复原后的运动模糊人像图像的轮廓模糊、细节丢失等问题，提出了基于多级跳跃残差组生成对抗网络（GAN）的运动人像去模糊方法。首先，改进残差块以构造多级跳跃残差组模块，并改进PatchGAN的结构以使GAN能够更好地结合各层的图像特征；其次，使用多损失融合的方法优化网络，从而增强重建后图像的真实纹理；最后，采用端到端的模式将运动模糊的人像图像进行盲去模糊操作，并输出清晰的人像图像。在CelebA数据集上的实验结果表明，相较于DeblurGAN（Deblur GAN）、尺度循环网络（SRN）和MSRAN（Multi-Scale Recurrent Attention Network）等基于卷积神经网络（CNN）的方法，所提方法的峰值信噪比（PSNR）和结构相似度（SSIM）分别至少提高了0.46 dB和0.05；同时，所提方法的模型参数更少，修复速度更快，且复原后的人像图像具有更多的纹理细节。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

21. WT-U-Net++：基于小波变换的表面缺陷检测网络

何国欢, 朱江平

《计算机应用》唯一官方网站 2023, 43 (10): 3260-3266. DOI: 10.11772/j.issn.1001-9081.2022091452

摘要（204）

HTML （8）

PDF （2792KB）（71）

针对传统机器视觉算法在表面缺陷检测中精度低、无法适应环境变化和噪声影响的问题，提出一种基于小波变换（WT）的改进UNet++——WT-U-Net++。首先，由WT获取缺陷图像的高频与低频分量，再通过多尺度模块MCI（Mix-Conv Inception）提取高、低频分量的细节特征；其次，将MCI模块提取到的细节特征与原始图像融合，并将融合结果作为改进UNet++的输入；再次，在UNet++的下采样阶段引入通道注意力模块，从而使网络在捕获更多上下文语义信息的同时提高跨层特征级联的质量，而在上采样阶段采用反卷积恢复更多的缺陷细节信息；最后，从UNet++的多个输出中选择最佳结果作为检测结果。在铁轨、磁瓦、硅钢油污这3个公开缺陷数据集上的实验结果表明，相较于次优的UNet++，WT-U-Net++的交并比（IoU）分别提高了7.98%、4.63%和8.74%，相似度度量指标（DSC）分别提高了4.26%、2.99%和4.64%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

22. 基于多尺度阶梯时频Conformer GAN的语音增强算法

金玉堂, 王以松, 王丽会, 赵鹏利

《计算机应用》唯一官方网站 2023, 43 (11): 3607-3615. DOI: 10.11772/j.issn.1001-9081.2022111734

摘要（124）

HTML （1）

PDF （4515KB）（152）

针对频率域语音增强算法中因相位混乱产生人工伪影，导致去噪性能受限、语音质量不高的问题，提出一种基于多尺度阶梯型时频Conformer生成对抗网络（MSLTF-CMGAN）的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入，生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖；其次，利用Mask Decoder分支学习振幅掩码，而Complex Decoder分支则直接学习干净的语谱图，融合这两个Decoder分支的输出可得到重建后的语音；最后，利用指标判别器判别语音的评价指标得分，通过极大极小训练使生成器生成高质量的语音。采用主观评价平均意见得分（MOS）和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比，结果显示，所提算法的MOS信号失真（CSIG）和MOS噪声失真（CBAK）比目前最先进的方法CMGAN（基于Conformer的指标生成对抗网络语音增强模型）分别提高了0.04和0.07，尽管它的MOS整体语音质量（COVL）和语音质量的感知评估（PESQ）略低于CMGAN，但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

23. 基于多分支混合注意力的小目标检测算法

秦强强, 廖俊国, 周弋荀

《计算机应用》唯一官方网站 2023, 43 (11): 3579-3586. DOI: 10.11772/j.issn.1001-9081.2022111660

摘要（181）

HTML （8）

PDF （2960KB）（151）

针对图像中的小目标特征信息少、占比低、易受环境影响等特点，提出一种基于多分支混合注意力的小目标检测算法SMAM-YOLO。首先，将通道注意力（CA）和空间注意力（SA）相结合，重新组合连接结构，提出一种混合注意力模块（MAM），增强模型对小目标特征在空间维度上的表达能力。其次，根据不同大小的感受野对目标影响的不同，基于混合注意力提出一种多分支混合注意力模块（SMAM）；根据输入特征图的尺度自适应调整感受野大小，同时使用混合注意力增强不同分支下对小目标特征信息的捕获能力。最后，使用SMAM改进YOLOv5中的核心残差模块，提出一种基于CSPNet（Cross Stage Partial Network）和SMAM的特征提取模块CSMAM，而且CSMAM的额外计算开销可以忽略不计。在TinyPerson数据集上的实验结果表明，与基线算法YOLOv5s相比，当交并比（IoU）阈值为0.5时，SMAM-YOLO算法的平均检测精度（mAP₅₀）提升了4.15个百分点，且检测速度达到74 frame/s；此外，与现有的一些主流小目标检测模型相比，SMAM-YOLO算法在mAP₅₀上平均提升了1.46~6.84个百分点，且能满足实时性检测的需求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

24. 全局时空特征耦合的多景深三维形貌重建

张江峰, 闫涛, 陈斌, 钱宇华, 宋艳涛

《计算机应用》唯一官方网站 2023, 43 (3): 894-902. DOI: 10.11772/j.issn.1001-9081.2022101589

摘要（142）

HTML （3）

PDF （2603KB）（54）

针对现有三维形貌重建模型无法有效融合全局时空信息的问题，设计深度聚焦体积（DFV）模块保留聚焦和离焦的过渡信息，并在此基础上提出全局时空特征耦合（GSTFC）模型提取多景深图像序列的局部与全局的时空特征信息。首先，在收缩路径中穿插3D-ConvNeXt模块和3D卷积层，捕捉多尺度局部时空特征，同时，在瓶颈模块中添加3D-SwinTransformer模块捕捉多景深图像序列局部时序特征的全局关联关系；然后，通过自适应参数层将局部时空特征和全局关联关系融合为全局时空特征，并输入扩张路径引导生成聚焦体积；最后，聚焦体积通过DFV提取序列权重信息，并保留聚焦与离焦的过渡信息，得到最终深度图。实验结果表明，GSTFC在FoD500数据集上的均方根误差（RMSE）相较于最先进的全聚焦深度网络（AiFDepthNet）下降了12.5%，并且比传统的鲁棒聚焦体积正则化的聚焦形貌恢复（RFVR-SFF）模型保留了更多的景深过渡关系。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于梯度引导加权 ‒延迟负梯度衰减损失的长尾图像缺陷检测

李巍, 梁斯昕, 张建州

《计算机应用》唯一官方网站 2023, 43 (10): 3267-3274. DOI: 10.11772/j.issn.1001-9081.2022091413

摘要（188）

HTML （5）

PDF （2403KB）（122）

针对目前图像缺陷检测模型对长尾缺陷数据集中尾部类检测效果较差的问题，提出一个基于梯度引导加权?延迟负梯度衰减损失（GGW-DND Loss）。首先，根据检测器分类节点的累积梯度比值分别对正负梯度重新加权，减轻尾部类分类器的受抑制状态；其次，当模型优化到一定阶段时，直接降低每个节点产生的负梯度，以增强尾部类分类器的泛化能力。实验结果表明，在自制图像缺陷数据集和NEU-DET（NEU surface defect database for Defect Detection Task）上，所提损失的尾部类平均精度均值（mAP）优于二分类交叉熵损失（BCE Loss），分别提高了32.02和7.40个百分点；与EQL v2（EQualization Loss v2）相比，分别提高了2.20和0.82个百分点，验证了所提损失能有效提升网络对尾部类的检测性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 基于跨域自适应的立体匹配算法

李传彪, 毕远伟

《计算机应用》唯一官方网站 2023, 43 (10): 3230-3235. DOI: 10.11772/j.issn.1001-9081.2022091398

摘要（181）

HTML （11）

PDF （2684KB）（97）

虽然卷积神经网络（CNN）在有监督立体匹配任务中取得了较好的进展，但多数CNN算法的跨域表现较差。针对跨数据域的立体匹配问题，提出一种基于CNN的使用迁移学习实现域自适应立体匹配任务的跨域自适应立体匹配（CASM-Net）算法。所提算法使用一个可供迁移的特征提取模块提取丰富的广域特征用于跨域立体匹配任务；并且，设计一个自适应代价优化模块，从而通过自适应地利用不同感受野的相似度信息优化代价，进而得到最优的代价分布；此外，提出一个视差分数预测模块，以量化不同区域的立体匹配能力，并通过调整图像的视差搜索范围进一步优化视差结果。实验结果表明：在KITTI2012和KITTI2015数据集上，CASM-Net算法的2-PE-Noc、2-PE-All和3-PE-fg相较于PSMNet（Pyramid Stereo Matching Network）算法分别降低了6.1%、3.3%和19.3%；在Middlebury数据集上，在未经重新训练的情况下，在和其他算法的对比中，CASM-Net算法在所有样本上取得了最优或次优的2-PE结果。可见，CASM-Net算法具有改善跨域立体匹配的作用。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 基于不可分提升小波的双U-Former图像去雨网络

刘斌, 方思严

《计算机应用》唯一官方网站 2023, 43 (10): 3251-3259. DOI: 10.11772/j.issn.1001-9081.2022091422

摘要（239）

HTML （8）

PDF （5959KB）（103）

针对基于张量积小波的去雨方法无法捕获所有方向的高频雨纹的问题，提出基于不可分提升小波的双U-Former网络（DUFN）。首先，利用各向同性的不可分提升小波捕捉各个方向的高频雨纹，相较于哈尔小波等张量积小波只能捕捉3个方向的高频雨纹，DUFN能获得更全面的雨纹信息；其次，在各尺度上串联两个由Transformer Block（TB）构成的U-Net，将浅层解码器的语义特征传递到深层阶段，并更彻底地去除雨纹；同时，使用尺度引导编码器通过浅层各尺度信息引导编码阶段，并利用基于CBAM（Convolutional Block Attention Module）的门控融合模块（GFM）使融合过程更专注于有雨区域。实验结果表明，相较于先进方法SPDNet（Structure-Preserving Deraining Network），在Rain200H、Rain200L、Rain1200和Rain12这4个合成数据集上，DUFN的结构相似度（SSIM）平均提高了0.009 7，在Rain200H、Rain200L和Rain12这3个合成数据集上，DUFN的峰值信噪比（PSNR）平均提高了0.657 dB；在真实世界数据集SPA-Data上，相较于先进方法ECNetLL（Embedding Consistency Network+Layered Long short-term memory），DUFN的PSNR和SSIM分别提高了0.976 dB和0.003 1。验证了DUFN可以通过增强捕捉高频信息的能力提升去雨性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 融合用户需求和边界约束的平面图生成算法

王若莹, 吕凡, 赵柳清, 胡伏原

《计算机应用》唯一官方网站 2023, 43 (2): 575-582. DOI: 10.11772/j.issn.1001-9081.2021122143

摘要（321）

HTML （10）

PDF （2582KB）（176）

平面图设计是房屋设计的重要过程，而现有的自动化平面图设计方法缺乏考虑用户需求和建筑边界的共同约束，存在生成房间形状缺角、房间之间遮挡严重以及房间超越边界的布局不合理问题。针对上述问题，提出一种融合用户需求和边界约束的房屋平面图生成对抗网络（GBC-GAN），它由约束布局生成器和房间关系鉴别器构成。首先，将用户指定的房屋布局需求（包括房间数量和类型以及房屋之间的邻接方位关系）转化为约束关系图结构，之后对建筑边界和约束关系图分别编码并进行特征融合；然后，在约束布局生成器中引入边界框预测模块以将平面图生成问题转化为各房间对象边界框生成问题，并利用几何边界优化损失来解决房间之间遮挡严重、房间超越边界的问题；最后，将房间边界框布局和约束关系图输入到房间关系鉴别器训练生成符合房间对象及其关系的平面图布局。在大型真实建筑数据集RPLAN上，该方法的弗雷歇距离（FID）和结构相似性指数（SSIM）比House-GAN方法分别提升了4.39%和2.3%。实验结果表明，在不同用户需求和边界限制条件下，所提方法提高了房屋平面图的合理性和真实性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

29. 基于高分辨率网络和图卷积网络的三维人体重建模型

苏亚婷, 刘翠响

《计算机应用》唯一官方网站 2023, 43 (2): 583-588. DOI: 10.11772/j.issn.1001-9081.2021122075

摘要（207）

HTML （7）

PDF （2124KB）（136）

针对单目图像重建人体时出现的头部姿态翻转和图像特征间隐式空间线索缺失的问题，提出了一种基于高分辨率网络（HRNet）和图卷积网络（GCN）的三维人体重建模型。首先利用HRNet和残差块作为主干网络从原始图像中提取丰富的人体特征信息，然后使用GCN来捕获特征之间隐式的空间线索以获得空间精确的特征表示，最后使用此特征来预测多人线性蒙皮模型（SMPL）的参数以得到更加准确的重建结果；同时为了有效解决人体头部姿态翻转的问题，对SMPL的关节点重新进行了定义，在原有关节的基础上增加对头部关节点的定义。实验结果表明，所提模型能够准确地重建出三维人体，在2D数据集LSP上的重建准确率达到了92.41%，在3D数据集MPI-INF-3DHP上的关节误差和重建误差也大幅降低，平均误差仅分别为97.73 mm和64.63 mm，验证了所提模型在人体重建领域的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

30. 动态环境下视觉定位与建图的运动分割研究进展

朱东莹, 钟勇, 杨观赐, 李杨

《计算机应用》唯一官方网站 2023, 43 (8): 2537-2545. DOI: 10.11772/j.issn.1001-9081.2022070972

摘要（251）

HTML （15）

PDF （2687KB）（170）

动态环境中视觉定位与建图系统受环境中动态物体的影响，定位与建图误差增加同时鲁棒性下降。而对输入图像的运动分割可显著提高动态环境下视觉定位与建图系统的性能。动态环境中的动态物体可分为运动物体与潜在运动物体。当前动态物体识别方法存在运动主体混乱、实时性差的问题。因此，综述了视觉定位与建图系统在动态环境下的运动分割策略。首先，从场景的预设条件出发，将运动分割策略分为基于图像主体静止假设方法、基于先验语义知识的方法和不引入假设的多传感融合方法；然后，对这三类方法进行总结，并分析各方法的准确性和实时性；最后，针对视觉定位与建图系统在动态环境下运动分割策略的准确性、实时性难以平衡的问题，讨论并展望了动态环境下运动分割方法的发展趋势。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章