当期目录

    2025年 第45卷 第10期 刊出日期:2025-10-10 封面下载
    人工智能
    基于动态上采样的轻量级生成对抗网络DU-FastGAN
    徐国愚, 闫晓龙, 张一丹
    2025, 45(10):  3067-3073.  DOI: 10.11772/j.issn.1001-9081.2024101535
    摘要 ( )   HTML ( )   PDF (3450KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近年来,生成对抗网络(GAN)被广泛应用于数据增强,能有效缓解训练样本不足的问题,对模型训练具有重要研究意义。然而,现有用于数据增强的GAN模型存在对数据集要求高和模型收敛不稳定等问题,导致生成的图像易出现失真和形变。因此,提出一种基于动态上采样的轻量级GAN——DU-FastGAN(Dynamic-Upsample-FastGAN)进行数据增强。首先,通过动态上采样模块构建生成器,使生成器能够根据当前特征图的大小采用不同粒度的上采样方法,从而重建纹理,提高合成的整体结构和局部细节的质量;其次,为了使模型能够更好地获取图像的全局信息流,提出权重信息跳跃连接模块,以减小卷积及池化操作对特征的扰动,提高模型对不同特征的学习能力,使得模型生成图像的细节更逼真;最后,给出特征丢失损失函数,通过计算采样过程中对应特征图之间的相对距离提高模型生成质量。实验结果表明,相较于FastGAN、MixDL(Mixup-based Distance Learning)和RCL-master(Reverse Contrastive Learning-master)等方法,DU-FastGAN在10个小数据集上的FID(Fréchet Inception Distance)的最大降幅达到23.47%,能够有效缓解生成图像的失真和形变问题,并提高了生成图像的质量;同时,DU-FastGAN的模型训练时间在600 min内,实现了轻量级开销。

    针对中文文本分类的多模态对抗样本生成方法
    王永平, 刘垚, 张晓琳, 王静宇, 刘立新
    2025, 45(10):  3074-3082.  DOI: 10.11772/j.issn.1001-9081.2024091307
    摘要 ( )   HTML ( )   PDF (2802KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有中文文本对抗样本生成方法中重要词定位方法和变换策略单一,导致攻击成功率和对抗样本质量难以提高的问题,从汉字的形态、发音和语义角度,提出一种针对中文文本分类的多模态对抗样本生成方法。在计算词语重要性阶段,利用掩码模型和模型输出得到置信概率,并计算预测词的离散性且将它作为位置的敏感性,最终结合二者以确定扰动优先级;在对抗变换阶段,设计一种结合汉字的音形和语义特征的多模态攻击策略生成对抗样本,并通过词典、基于卷积神经网络(CNN)的字形相似比较模型和掩码语言模型(MLM)生成候选样本。实验结果表明,所提方法能对鲁棒性较强的BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa(Robustly optimized BERT pretraining approach)模型实现了33.2%~65.8%的攻击成功率。可见,通过对抗训练生成的对抗样本可以提升模型的鲁棒性。

    融合多头自注意力的标签语义嵌入联邦类增量学习方法
    王虎, 王晓峰, 李可, 马云洁
    2025, 45(10):  3083-3090.  DOI: 10.11772/j.issn.1001-9081.2024101458
    摘要 ( )   HTML ( )   PDF (1290KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    灾难性遗忘对联邦类增量学习(FCIL)构成了显著挑战,导致进行FCIL持续任务时性能下降的问题。针对此问题,提出一种融合多头自注意力(MHSA)的标签语义嵌入(LSE)的FCIL方法——ATTLSE(ATTention Label Semantic Embedding)。首先,融合MHSA的LSE和生成器;其次,在无数据知识蒸馏(DFKD)阶段,依靠融合MHSA的生成器生成更多有意义的数据样本,以指导用户端模型的训练,并降低灾难性遗忘问题在FCIL中的影响。实验结果表明,在CIFAR-100和Tiny_ImageNet数据集上,与LANDER(Label Text Centered Data-Free Knowledge Transfer)方法相比,ATTLSE的平均准确率提升了0.06~6.45个百分点,缓解了持续任务在联邦类增量学习上的灾难性遗忘问题。

    面向重尾噪声图像分类的残差网络学习方法
    宫智宇, 王士同
    2025, 45(10):  3091-3100.  DOI: 10.11772/j.issn.1001-9081.2024101407
    摘要 ( )   HTML ( )   PDF (2362KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对残差网络(ResNet)在图像分类中容易受未知重尾噪声影响导致识别准确率下降的问题,提出一种多分布重尾噪声自适应残差网络(MHTNA-ResNet)模型。首先,为抑制重尾噪声对最终预测的影响,设计一个多分布重尾噪声自适应层(MHTNA),该层使用多种重尾分布创建噪声模板,扰动干净的训练数据,使ResNet通过训练获得对重尾噪声图像的识别能力;其次,MHTNA在训练中进行自适应训练,使用最大似然估计法求解更新的噪声模板参数,并根据求解参数重新生成噪声模板,控制噪声始终遵循重尾分布;最后,测试时屏蔽MHTNA,对测试图像进行重尾噪声攻击,从而检验模型的抗噪能力。实验结果表明,与PRIME模型相比,面对重尾噪声的攻击,在CIFAR10、CIFAR100和MINI-ImageNet数据集上所提模型的分类准确率分别平均提升了3.86、7.10和5.46个百分点。可见,所提模型可以有效提高ResNet面对重尾噪声干扰时的鲁棒性。

    基于互信息和提示学习的中文无监督对比学习方法
    黄朋, 林佳瑜, 梁祖红
    2025, 45(10):  3101-3110.  DOI: 10.11772/j.issn.1001-9081.2024101464
    摘要 ( )   HTML ( )   PDF (1564KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    中文无监督对比学习面临多重挑战:1)中文句子结构灵活多变,语义模糊性较高,使得模型难以准确捕捉深层语义特征;2)在小规模数据集上,对比学习模型的特征表达能力不足,难以充分学习到有效的语义表示;3)数据增强过程中可能引入多余噪声,进一步加剧训练的不稳定性。这些问题共同限制了模型在中文语义理解上的表现。为了解决这些问题,提出一种基于互信息(MI)和提示学习的中文无监督对比学习(CMIPL)方法。首先,采用提示学习的数据增强方式构建对比学习所需的样本对,在保留全部文本信息和顺序的同时增加文本多样性,规范样本的输入结构,并为输入样本提供提示模板作为上下文,引导模型更深入地学习细粒度语义;其次,在预训练语言模型输出表示的基础上,使用提示模板去噪方法去除数据增强所引入的多余噪声;最后,将正样本结构信息融入模型训练体系之中,计算增强视图的注意力张量的MI,再将注意力MI引入损失函数,通过最小化损失函数,优化模型注意力的分布,最大化增强视图结构的对齐,使模型更好地拉近正样本对的距离。在ATEC、BQ、PAWSX这3个公开中文文本相似度数据集构建的小样本数据上进行对比实验。结果表明,所提方法的平均性能最佳,特别是在训练集数据量较少的情况下,在使用1%和10%样本量的条件下,与基线对比学习模型SimCSE(Simple Contrastive learning of Sentence Embeddings)相比,CMIPL的平均准确率和斯皮尔曼等级相关系数(SR)分别提高了3.45、4.07和1.64、2.61个百分点,验证了CMIPL在小样本中文无监督对比学习领域的有效性。

    结合边界信息的对比学习嵌套命名实体识别
    范锦涛, 陈艳平, 杨采薇, 林川
    2025, 45(10):  3111-3120.  DOI: 10.11772/j.issn.1001-9081.2024101525
    摘要 ( )   HTML ( )   PDF (2573KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个两阶段命名实体识别框架。在第一阶段,通过边界识别模型生成候选实体边界,并通过边界集成模块生成候选实体,减少不必要的负候选实体的生成;同时,在候选实体两侧插入注意力线索,生成对应的候选实体文本,使得模型能够感知上下文语义和边界信息。在第二阶段,提出一个双编码框架用于识别实体,通过对比学习将候选实体文本和实体类型注释映射到相同向量表征空间中,对比的对象不再是候选实体,而是带有注意力线索的句子。此外,设计带有标签语义的分类参数矩阵,丰富模型对候选实体的理解能力。实验结果表明,与Binder方法相比,所提方法在GENIA、ACE2005和ACE2004这3个嵌套数据集上的F1值分别提升了1.22、3.42和2.31个百分点,验证了所提方法对嵌套NER任务的有效性。

    基于大语言模型的中文开放领域实体关系抽取策略
    龚永罡, 陈舒汉, 廉小亲, 李乾生, 莫鸿铭, 刘宏宇
    2025, 45(10):  3121-3130.  DOI: 10.11772/j.issn.1001-9081.2024101536
    摘要 ( )   HTML ( )   PDF (3025KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    大语言模型(LLM)在中文开放领域的实体关系抽取(ERE)任务中存在抽取性能不稳定的问题,对某些特定领域文本和标注类别的识别精准率较低。因此,提出一种基于LLM的中文开放领域实体关系抽取策略——基于LLM多级对话策略(MLDS-LLM)。该策略利用LLM优秀的语义理解和迁移学习能力,通过多轮不同任务的对话实现实体关系抽取。首先,基于开放领域文本结构化逻辑和思维链(CoT)机制,使用LLM生成结构化摘要,避免模型产生关系、事实幻觉和无法兼顾后文信息的问题;其次,通过文本简化策略并引入可替换词表,减少上下文窗口的限制;最后,基于结构化摘要和简化文本构建多级提示模板,使用LLaMA-2-70B模型探究参数temperature对实体关系抽取的影响。测试了LLaMA-2-70B在使用所提策略前后进行实体关系抽取的精准率、召回率、调和平均值(F1)和精确匹配(EM)值。实验结果表明,在CL-NE-DS、DiaKG和CCKS2021等5个不同领域的中文数据集上,所提策略提升了LLM在命名实体识别(NER)和关系抽取(RE)上的性能。特别是在专业性强且模型零样本测试结果不佳的DiaKG和IEPA数据集上,在应用所提策略后,相较于少样本提示测试,在NER上模型的精准率分别提升了9.3和6.7个百分点,EM值提升了2.7和2.2个百分点;在RE上模型的精准率分别提升了12.2和16.0个百分点,F1值分别提升了10.7和10.0个百分点。实验结果验证了所提策略能有效提升LLM实体关系抽取的效果并解决模型性能不稳定的问题。

    用于半监督火灾检测的分布自适应和动态课程伪标签框架
    王磊, 胡节, 彭博
    2025, 45(10):  3131-3137.  DOI: 10.11772/j.issn.1001-9081.2024101452
    摘要 ( )   HTML ( )   PDF (1610KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对火灾图像标签过少、背景复杂多样导致的半监督目标检测困难的问题,提出一种用于半监督火灾检测的分布自适应和动态课程伪标签框架(DADCPL-SFD)。该框架主要由师生互学(ML)框架、软标签(SL)、分布自适应和动态课程伪标签这4个部分组成。首先,采用师生互学框架的半监督学习范式替换YOLOv5-l的全监督学习范式,以应对数据标签少的场景;其次,采用软标签以获取更多有效的伪标签正例,优化半监督学习过程;再次,引入分布自适应损失,减小源域和目标域的数据分布差异,使模型在不同域上表现一致;最后,设计一种基于课程思想的动态课程伪标签策略,根据伪标签生成的情况在不同训练时期调整阈值,以筛选更合理的伪标签。在火焰和烟雾数据集(DFS)多个监督比例上(1%、2%、5%和10%)的实验结果表明,相较于全监督学习,所提框架的平均精度均值(mAP)平均提升了5.32个百分点,在交并比(IoU)阈值为0.5下的平均精度(AP)平均提升了11.87个百分点,充分验证了DADCPL-SFD的高效性和准确性。

    融合BERT与X-means算法的微博舆情热度分析预测模型
    蒋章涛, 李欣, 张士豪, 赵心阳
    2025, 45(10):  3138-3145.  DOI: 10.11772/j.issn.1001-9081.2024091371
    摘要 ( )   HTML ( )   PDF (2525KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre,旨在融合微博参与用户的属性特征与热度变化的时域特征,以提高热度预测的准确性。首先,对微博原文和互动用户的数据进行预处理,利用微调后的StructBERT模型对这些数据分类,从而确定参与互动的用户与微博原文的关联度,作为用户对该微博热度增长的贡献度权重计算的参考值;其次,使用X-means算法,以互动用户的特征为依据进行聚类,基于所得聚集态的同质性特征过滤水军,并引入针对水军样本的权重惩罚机制,结合标签关联度,进一步构建微博热度指标模型;最后,通过计算先验热度值随时间变化的二阶导数与真实数据的余弦相似度预测未来微博热度变化。实验结果表明,BXpre在不同用户量级下输出的微博舆情热度排序结果更贴近真实数据,在混合量级测试条件下,BXpre的预测相关性指标达到了90.88%,相较于基于长短期记忆(LSTM)网络、极限梯度提升(XGBoost)算法和时序差值排序(TDR)的3种传统方法,分别提升了12.71、14.80和11.30个百分点;相较于ChatGPT和文心一言,分别提升了9.76和11.95个百分点。

    基于弱监督模态语义增强的多模态有害信息检测方法
    刘晋文, 王磊, 马博, 董瑞, 杨雅婷, 艾合塔木江·艾合麦提, 王欣乐
    2025, 45(10):  3146-3153.  DOI: 10.11772/j.issn.1001-9081.2024101453
    摘要 ( )   HTML ( )   PDF (1447KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    社交媒体上多模态有害信息的泛滥不仅损害公众利益,还严重扰乱社会秩序,亟需有效的检测方法。现有研究依赖预训练模型提取与融合多模态特征,忽视了通用语义在有害信息检测任务中的局限性,且未能充分考虑有害信息复杂多变的组合形式。为此,提出一种基于弱监督模态语义增强的多模态有害信息检测方法(weak-S),所提方法通过引入弱监督模态信息辅助多模态特征的有害语义对齐,并设计一种低秩双线性池化的多模态门控集成机制,以区分不同信息的贡献度。实验结果表明,所提方法在Harm-P和MultiOFF数据集上的F1值相较于SOTA (State-Of-The-Art)模型分别提高了2.2和3.2个百分点,验证了弱监督模态语义在多模态有害信息检测中的重要性。此外,所提方法在多模态夸张检测任务上取得了泛化性能的提升。

    基于Swin Transformer与多尺度特征融合的图像描述方法
    王子怡, 李卫军, 刘雪洋, 丁建平, 刘世侠, 苏易礌
    2025, 45(10):  3154-3160.  DOI: 10.11772/j.issn.1001-9081.2024101478
    摘要 ( )   HTML ( )   PDF (2194KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    基于Transformer的图像描述方法通过多头注意力会在整个输入序列上计算注意力权重,缺乏层次化的特征提取能力,并且两阶段的图像描述方法限制了模型性能。针对上述问题,提出一种基于Swin Transformer与多尺度特征融合的图像描述方法(STMSF)。在编码器中通过Agent Attention保持全局上下文建模能力的同时,提高计算效率;在解码器中提出多尺度交叉注意力(MSCA),融合交叉注意力与深度可分离卷积,在得到多尺度特征的同时更充分地融合多模态特征。实验结果表明,在MSCOCO数据集上与SCD-Net(Semantic-Conditional Diffusion Network)方法相比,STMSF的BLEU4(BiLingual Evaluation Understudy with 4-grams)和CIDEr(Consensus-based Image Description Evaluation)指标分别提升了1.1和5.3个百分点。对比实验和消融实验的结果表明,所提的一阶段STMSF能够有效提高模型性能,生成高质量的图像描述语句。

    基于图注意力机制的三维人体姿态估计时空上下文网络
    曾正东, 赵明
    2025, 45(10):  3161-3169.  DOI: 10.11772/j.issn.1001-9081.2024101489
    摘要 ( )   HTML ( )   PDF (3822KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近期关于人体姿态估计的研究表明,充分发挥二维姿态潜在空间信息的能力,获取具有代表性的特征,可产生更准确的三维姿态估计结果。因此,提出一种基于图注意力机制的时空上下文网络,该网络包括带滑动窗口的时间上下文网络(TCN)、由肢体引导的全局图注意力机制网络(EGAT)和基于姿态语法的局部图注意力卷积网络(PGCN)。首先,使用STCN将长序列的二维关节位置转化为单序列的人体姿态潜在特征,从而有效聚合和利用远、近距离的人体姿态信息,并大幅降低计算成本。其次,提出EGAT模块,以有效计算全局空间上下文。该模块将人体边缘节点视为“交通枢纽”,为它们与其他节点之间的信息交换建立桥梁。再次,利用图注意力机制进行自适应权值分配,对人体关节进行全局上下文计算。最后,设计PGCN模块,利用图卷积网络(GCN)计算和建模局部空间上下文,它强调人体对称节点的运动一致性和人体骨骼的运动关联结构。在Human3.6M和HumanEva-Ⅰ这2个复杂的标准数据集上评估所提模型。实验结果表明,所提模型具有更优越的性能,在输入帧长度为81的情况下,所提模型在数据集Human3.6M上的每个关节的平均位置误差(MPJPE)达43.5 mm,与目前先进算法MCFNet(Multi-scale Cross Fusion Network)相比降低了10.5%,体现出更高的准确度。

    聚合广义上下文特征的人体解析方法
    袁家奇, 黄荣, 董爱华, 周树波, 刘浩
    2025, 45(10):  3170-3178.  DOI: 10.11772/j.issn.1001-9081.2024101527
    摘要 ( )   HTML ( )   PDF (5857KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    人体解析旨在对人体图像进行细粒度部件分割。一些人体解析方法通过聚合上下文特征增强部件表示,但这些方法聚合上下文特征的范围受限。针对这个问题,设计聚合广义上下文特征的人体解析方法。该方法以人体拓扑结构先验为引导,不仅从当前图像的全局聚合上下文特征,还进一步将聚合的范围扩展到其他图像。这个扩展后的范围被定义为广义上下文。对于当前图像,设计十字条纹注意力模块(CSAM)聚合图像内的全局上下文特征。该模块通过部件分布刻画图像内的人体拓扑结构先验,并以此为引导在水平、竖直方向条纹内聚合上下文特征。对于其他图像,提出区域感知批注意力模块(RBAM),以批为单位聚合图像间上下文特征。由于人体拓扑结构的约束,批量人体图像间相似部件的位置偏差处于一定范围内。这使得RBAM能够学习不同人体图像相似部件间的空间偏移,并根据偏移,沿批维度从其他图像的相似部件区域中聚合特征。定量对比结果表明,与双任务互学习(DTML)相比,所提方法在LIP(Look Into Person)数据集上的平均交并比(mIoU)提高了0.43个百分点。可视化实验结果表明,所提方法能够从广义上下文中聚合当前图像的全局特征和其他图像的部件特征。

    基于融合特征状态空间模型的轻量化人体姿态估计
    李卓然, 李华, 王桐, 蒋朝哲
    2025, 45(10):  3179-3186.  DOI: 10.11772/j.issn.1001-9081.2024091351
    摘要 ( )   HTML ( )   PDF (2113KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在人体姿态估计(HPE)领域中,基于热图的方法存在量化误差大、计算复杂度高和需要对热图进行后处理等问题。针对上述问题,以坐标回归的SimCC方法为基线,提出一种基于融合特征的状态空间模型(MSSM)的轻量化HPE方法Lite-SimCC。首先,采用ShuffleNet V2作为骨干网络,替代原有的HRNet(High-Resolution Net),简化为单分支形式结构,并实现模型的轻量化;其次,为了降低精确率的损失,引入大核卷积提取全局特征信息;然后,设计MSSM,用于处理局部和全局长序列特征,增强关键点的表征能力;最后,提出一种基于软标签的损失函数,替代传统的one-hot损失计算方式。实验结果表明,与基线方法SimCC相比,Lite-SimCC的参数量少了87.1%,在COCO2017测试集上的平均精确率(AP)提升了1.4%,在MPII数据集上验证了Lite-SimCC在保证检测精确率的基础上有效降低了模型的参数量。

    基于动态图卷积网络的电梯乘客异常行为数据增强方法
    况世雄, 姚俊波, 陆佳炜, 王琪冰, 肖刚
    2025, 45(10):  3187-3194.  DOI: 10.11772/j.issn.1001-9081.2024101445
    摘要 ( )   HTML ( )   PDF (3930KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    目前,因缺乏足够多样化的异常行为数据,电梯乘客异常行为的识别方法存在准确率不高和泛化性能较差的问题。为解决这个问题,提出一种基于动态图卷积网络的行为数据增强方法(DGCN-BA)。首先,构建一种动态图卷积网络,用于捕捉电梯乘客行为中不同人体关节之间的空间关系和运动关联性;其次,利用这些特征进行姿势增强,获取更丰富和合理的姿势序列;最后,利用姿势序列在虚拟电梯场景中构建人物动作,生成大量电梯乘客异常行为视频数据。在公开数据集Human3.6M、3DHP和MuPoTS-3D,以及自建数据集上验证DGCN-BA的有效性。实验结果表明,相较于JMDA(Joint Mixing Data Augmentation)、DDPMs(Denoising Diffusion Probabilistic Models)数据增强方法,DGCN-BA在Human3.6M数据集上的平均每个关节位置误差(MPJPE)分别降低了2.9 mm和1.5 mm。可见,DGCN-BA能够更有效完成姿势估计任务,生成合理多样的异常行为数据,从而明显改善基于视频的电梯乘客异常行为识别效果。

    数据科学与技术
    面向大规模机构分散存储数据的基于属性的实体对齐算法
    曹泽毅, 昌燕, 赖仁鑫, 张仕斌, 秦智, 闫丽丽, 张雪健, 狄元灏
    2025, 45(10):  3195-3202.  DOI: 10.11772/j.issn.1001-9081.2024091388
    摘要 ( )   HTML ( )   PDF (2210KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    大规模机构分散存储的数据实体存在数据冗余、信息缺失和不一致等问题,需要通过实体对齐进行集成融合。现有的实体对齐方法大多依赖实体的结构信息,通过子图匹配进行对齐,但分散存储数据的结构信息匮乏,导致对齐效果不佳。为解决上述问题,并支撑重要数据的识别,提出一种单层图神经网络的基于属性的实体对齐模型。首先,使用单层图神经网络避免次级邻居节点的信息干扰;其次,设计基于信息熵的属性赋权方法,从而在初始阶段快速区分属性的重要程度;最后,构建基于注意力机制的编码器,以结合局部和全局视角表征不同属性在对齐中的重要程度,更全面地表征实体信息。实验结果表明,在2个分散存储数据集上,相较于次优模型,所提模型的前1位命中率(Hits@1)分别提升了5.24和2.03个百分点。可见,所提模型的对齐效果优于其他实体对齐方法。

    基于持久性的多目标节点隐藏方法
    吕乐, 张博瀚, 荆军昌, 刘栋
    2025, 45(10):  3203-3213.  DOI: 10.11772/j.issn.1001-9081.2024091314
    摘要 ( )   HTML ( )   PDF (2801KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    社区检测尽管能深度揭示网络潜在的结构特征和节点之间的关系,但也产生了隐私泄露问题。社区隐藏方法能够有效对抗社区检测算法,从而实现网络节点信息的隐私保护。然而,传统的社区隐藏方法大多关注网络中的单一目标或单一社区的隐私保护,缺乏一种能够针对任意目标集合进行隐藏的方法。针对上述问题,提出一种持久性损失最大化的多目标节点隐藏(BPMNH)方法。该方法可以自由配置拟隐藏的目标节点集合,并根据网络规模自适应地给出持久性损失最大化方案,从而在最小的网络拓扑扰动代价下,实现不同社区的多个目标节点隐藏。在Karate等8个数据集上,从隐藏效果、网络结构和综合欺骗效果方面与基于模块度的攻击(MBA)等3种基线方法进行对比,实验结果表明BPMNH在多目节点隐藏上均优于对比方法,验证了所提方法的优越性。

    基于频域增强图变分学习的时间序列异常检测
    夏雨禾, 王晓东, 何启学
    2025, 45(10):  3214-3220.  DOI: 10.11772/j.issn.1001-9081.2024101438
    摘要 ( )   HTML ( )   PDF (1460KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    时间序列异常检测是时间序列分析领域的重要研究课题。由于现实工业场景中的多变量时间序列具有复杂的时空依赖性和随机性,现有许多针对单一依赖性建模的异常检测方法无法有效学习数据特征。此外,忽略频域信息会导致模型特征表示不全面。针对上述问题,提出基于频域增强图变分学习网络的时间序列异常检测模型FeGvL(Frequency-domain enhancement Graph-variational Learning)。首先,在分块操作后,通过自注意力建模时间维度上的依赖关系;其次,将频域增强后的图关系特征映射到潜在空间;最后,利用图聚合注意力网络提取实体间的特征,并结合时间依赖实现具有泛化性的变分重构。在PSM(Pooled Server Metrics)、SWaT(Secure Water Treatment)和WADI(WAter DIstribution)公共数据集上的实验结果表明,FeGvL的F1值均高于GDN(Graph Deviation Network)、TranAD(Transformer-based Anomaly Detection)和GReLeN(Graph Relational Learning Network)等7个先进的异常检测方法,且FeGvL的平均F1值与次优模型GReLeN相比提高了1.7个百分点。可见,所提模型能够有效捕获时空依赖性,提供表征能力,具有较高的异常检测精度。

    网络空间安全
    基于差分隐私的联邦学习研究综述
    张淑芬, 汤本建, 田子坤, 秦肖阳
    2025, 45(10):  3221-3230.  DOI: 10.11772/j.issn.1001-9081.2024101505
    摘要 ( )   HTML ( )   PDF (1487KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着人工智能的快速发展,用户隐私泄露风险日益严重。差分隐私是一种关键的隐私保护技术,通过在数据中引入噪声防止个人信息泄露,而联邦学习(FL)则允许在不交换数据的情况下共同训练模型,保护数据的安全性。近年来,差分隐私技术与FL的结合使用可以充分发挥它们各自的优势:差分隐私确保数据使用过程中的隐私保护,而FL则通过分布式训练提高模型的泛化能力和效率。针对FL的隐私安全问题,首先,系统性地总结和比较基于差分隐私的FL的最新研究进展,包括不同的差分隐私机制、FL算法和应用场景;其次,重点讨论差分隐私在FL中的应用方式,包括数据聚合、梯度下降和模型训练等方面,并分析各种技术的优缺点;最后,详细总结该领域当前存在的挑战和发展方向。

    基于混合特征选择的低延时DDoS攻击检测
    谢丽霞, 王嘉敏, 杨宏宇, 胡泽, 成翔
    2025, 45(10):  3231-3240.  DOI: 10.11772/j.issn.1001-9081.2024101457
    摘要 ( )   PDF (2282KB) ( )  
    参考文献 | 相关文章 | 计量指标

    许多分布式拒绝服务(DDoS)攻击检测方法侧重提升模型性能,但忽略流量样本分布和特征维度对检测性能的影响,导致模型学习多余信息。针对网络流量类不平衡和特征冗余问题,提出一种基于多评价标准的混合特征选择方法(HFS-MEC)。首先,综合考虑皮尔逊相关系数(PCC)和互信息(MI),选出相关性特征;其次,设计基于方差膨胀因子(VIF)的序列后向选择(SBS)算法,减少特征冗余,进一步降低特征维度;同时,为了平衡检测性能和计算时间,设计基于简单循环单元(SRU)的低延时DDoS攻击检测(L-DDoS-SRU)模型。在CICIDS2017和CICDDoS2019数据集上的实验结果表明,HFS-MEC将特征维度从78和88分别减少至31和41。在CICDDoS2019数据集上,L-DDoS-SRU检测时间仅40.34 s;召回率达99.38%,与长短期记忆(LSTM)相比提高了8.47%,与门控循环单元(GRU)相比提高了9.76%。以上验证了所提方法能有效提高检测性能并减少检测时间。

    基于自适应动态区间策略的工业控制协议模糊测试方法TDRFuzzer
    宗学军, 韩冰, 王国刚, 宁博伟, 何戡, 连莲
    2025, 45(10):  3241-3251.  DOI: 10.11772/j.issn.1001-9081.2024091331
    摘要 ( )   HTML ( )   PDF (4461KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对模糊测试在工业控制协议(ICP)应用中存在测试用例接受率(TCAR)低和多样性不足等问题,提出一种基于自适应动态区间策略的ICP模糊测试方法。将循环神经网络(RNN)加入Transformer的自注意力机制,以构建协议特征提取模型;使用RNN通过滑动窗口提取数据的局部特征,并引入自注意力机制进行全局特征提取,以保证TCAR;在自注意力块间添加残差连接,以传递权重分数并提高计算效率;生成过程定义动态区间策略,调节模型在任意时间步的采样范围,从而增加测试用例的多样性;在测试过程中构建字段自适应重要性函数,以定位变异关键字段。基于上述方法,设计模糊测试框架TDRFuzzer,并采用Modbus TCP、S7 comm和Ethernet/IP等3种工业协议进行实验评估。结果表明,相较于GANFuzzer、WGANFuzzer和PeachFuzzer这3种模型,TDRFuzzer的TCAR指标显著提高,且漏洞检测率(VDR)分别提高了0.073、0.035和0.150个百分点,表明TDRFuzzer具备更强的ICP漏洞挖掘能力。

    面向生成式对抗网络的贝叶斯成员推理攻击
    尚游, 缪祥华
    2025, 45(10):  3252-3258.  DOI: 10.11772/j.issn.1001-9081.2024101523
    摘要 ( )   HTML ( )   PDF (1395KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    目前,关于生成式对抗网络(GAN)中成员推理攻击(MIA)的准确率与生成模型自身泛化能力之间的关系存在争议,因此有效的攻击手段难以广泛应用,这限制了生成模型的改进。为了解决上述问题,提出一种基于贝叶斯估计(BE)的灰盒MIA方案,旨在灰盒场景下高效匹配参数以实现最优攻击。首先,在黑盒条件下设计目标模型和影子模型的训练框架,以获取攻击模型所需的参数知识;其次,结合并利用这些有效参数信息不断更新目标函数,从而训练攻击模型;最后,将训练好的攻击模型应用于MIA。实验结果表明,与现有的白盒、黑盒攻击方案相比,基于BE的灰盒攻击方案的准确率平均分别提升了15.89%和21.64%。以上研究结果展示了参数暴露与攻击成功率(ASR)之间的直接联系,也为未来该领域开发防御性策略提供了方向。

    先进计算
    无人机群辅助的移动感知自适应并行计算任务卸载系统MATOS
    孙鉴, 张伟, 马宝全, 吴隹伟, 杨晓焕, 武涛
    2025, 45(10):  3259-3269.  DOI: 10.11772/j.issn.1001-9081.2024101431
    摘要 ( )   HTML ( )   PDF (4356KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    无人机群(UAV swarm)结合5G网络成为携带计算资源的集群飞行工具后可以为移动边缘计算(MEC)网络提供额外算力支持。在半连接网络中,针对基础设施算力稀缺、海量任务数据、移动物联网(IoT)设备分布不均和利用正交频分多址(OFDMA)技术进行通信的复杂场景等挑战,提出由地面设备层、无人机(UAV)层和边缘计算层构成的移动感知自适应并行计算任务卸载系统(MATOS),以降低任务的卸载时延和能耗,从而提升任务卸载的成功率。所提系统利用UAV swarm作为空中基站(ABS)完成任务卸载和任务中继服务。首先,为了提升地面设备与UAV swarm之间的任务传输质量,结合任务属性与区域服务设备移动感知思想提出任务协同收集机制;其次,提出自适应并行遗传蚁群优化(AGACO)任务卸载机制,同时结合UAV swarm航迹规划思想,使ABS负载均衡并降低任务卸载时延;最后,以UAV swarm航迹规划、任务卸载时延和任务卸载能耗为联合优化指标,提升任务卸载成功率。实验结果表明,与基于分层云团架构的飞行器系统RESERVE(hieRarchical cloudlEt-baSed aERial Vehicle systEm)、智能可信任务卸载系统(STMTO)和无人机边缘计算物联网网络(UECIN)、多无人机辅助卸载系统(MAOS)和移动感知在线任务卸载(MOTO)系统相比,MATOS在飞行能耗上最大降低了40%,在任务卸载时延上相较于RESERVE最大降低了38.8%,在任务卸载能耗上相较于RESERVE最大降低了44.1%,验证了MATOS的优越性。

    养老院场景下基于任务的辅助机器人路径规划
    王昱, 赵明月, 周小琳
    2025, 45(10):  3270-3276.  DOI: 10.11772/j.issn.1001-9081.2024101534
    摘要 ( )   HTML ( )   PDF (3805KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    全球老龄化问题日益严峻,养老服务领域面临严重人力短缺挑战,亟需引入具有智能决策能力的机器人技术。针对养老院场景下辅助机器人在多任务机制中的自主路径规划问题,提出一种改进的非确定性策略SAC(Soft Actor-Critic)强化学习决策算法。首先,提出基于虚拟圆的障碍物轮廓重构法,在降低环境建模难度的同时提升雷达探测效率;其次,针对强化学习算法在求解连续状态空间内复杂任务时从零进行策略寻优的困难,将鲸鱼优化算法(WOA)与SAC算法结合得到WOA-SAC算法,通过构建辅助监督机制为学习过程提供方向引导,提升决策能力的同时显著提升收敛速度;最后,基于老人的日常需求规划任务,在包含静态障碍、动态障碍的固定任务和突发性随机任务环境中完成模型训练。仿真实验结果表明,与传统SAC算法相比,WOA-SAC算法的平均路径长度缩短了10.42%,成功率提升了6.66%,平均步长减小了29.63%。可见,WOA-SAC算法能够显著提升SAC算法的学习效率和决策能力,并解决多任务机制中的自主路径规划问题。

    多媒体计算与计算机仿真
    基于流的轻量化高质量文本到语音转换方法
    文连庆, 陶冶, 田云龙, 牛丽, 孙宏霞
    2025, 45(10):  3277-3283.  DOI: 10.11772/j.issn.1001-9081.2024091244
    摘要 ( )   HTML ( )   PDF (1340KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    非自回归的文本到语音(NAR-TTS)模型的发展使得快速且高质量的语音合成成为可能。然而,合成语音的韵律仍有待提升,且在文本单元与语音之间存在一对多的问题,导致难以生成具有丰富韵律且高质量的梅尔频谱。此外,现有的NAR-TTS模型中存在大量冗余的神经网络。因此,提出一种基于流的轻量化高质量NAR-TTS方法——AirSpeech。首先,分析文本,得到不同粒度的语音特征编码;其次,采用基于注意力机制的技术对齐这些特征编码,从混合编码中提取韵律信息;在此过程中,利用长短距离注意力(LSRA)机制和单一网络技术使特征提取轻量化;最后,设计基于流的解码器,从而显著降低模型的参数量和峰值内存,并通过引入仿射耦合层(ACL),使解码出的梅尔频谱更细致和自然。实验结果表明,相较于BVAE-TTS和PortaSpeech方法,AirSpeech的结构相似性(SSIM)和平均意见得分(MOS)指标更优,能够兼顾合成语音的高质量和模型的轻量化。

    基于多视角注意力的异构双分支解码单通道语音增强
    更藏措毛null, 黄鹤鸣
    2025, 45(10):  3284-3293.  DOI: 10.11772/j.issn.1001-9081.2024101463
    摘要 ( )   HTML ( )   PDF (1988KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous Dual-Branch with Multi-View)。该模型通过信息融合编码器(IFE)、时频残差Conformer(TFRC)模块、多视角注意力(MVA)模块和异构双分支解码器(HDBD)等机制,提升单通道语音增强的性能。首先,IFE联合处理振幅与复数特征,捕捉全局依赖和局部相关,生成紧凑的特征表示;其次,TFRC模块有效捕捉时间维度和频域维度上的相关性,同时降低计算复杂度;再次,MVA模块重构通道域和时频域信息,进一步增强模型对信息的多视角多层次的表征能力;最后,HDBD分别处理幅度特征和细化复数特征,解决幅度相位补偿问题,提升解码鲁棒性。实验结果表明,HDBMV在公开数据集VoiceBank+DEMAND、大数据集DNS Challenge 2020和自建的藏语数据集BodSpeDB上的语音质量感知评估(PESQ)分别达到了3.00、3.12和2.09,短时目标可理解度(STOI)分别达到了0.96、0.97和0.81。可见,HDBMV以最小的参数量和较高的计算效率获得了最佳的语音增强性能和较强的泛化能力。

    基于自适应邻域特征融合的多阶段点云补全网络
    李维刚, 曹文杰, 李金灵
    2025, 45(10):  3294-3301.  DOI: 10.11772/j.issn.1001-9081.2024101437
    摘要 ( )   HTML ( )   PDF (2578KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    点云补全指利用不完整的点云数据重建高质量的完整点云。然而,现有的大多数点云补全网络在捕捉局部特征和重建细节方面存在不足,导致生成的点云在局部细节和补全精度上表现不佳。为解决上述问题,提出一种基于自适应邻域特征融合的多阶段点云补全网络(ANFF-Net)。首先,特征提取器通过自适应调整关键点的邻域选择适应不同形状的点云,有效捕捉不同语义点之间的空间关系,减少局部细节信息的丢失;其次,特征拓展器利用局部感知Transformer进一步扩展邻近点的局部特征信息,提升网络的细节恢复能力;最后,点云生成器采用交叉注意力机制选择性传递不完整点云的局部特征信息,并使用折叠模块逐步细化点云的局部区域,显著增强补全后点云的细节保留,生成更一致的几何细节。实验结果表明,ANFF-Net在ShapeNet55数据集上的平均补全精度相较于ProxyFormer提升了9.68%,并在PCN和KITTI数据集上取得了较好的补全效果。可视化结果显示,ANFF-Net生成的点云具有更高的细粒度,形状更接近真实值。

    基于点云重构的自监督点云异常检测方法
    杨建锋, 陈斌, 李雨轩
    2025, 45(10):  3302-3310.  DOI: 10.11772/j.issn.1001-9081.2024091347
    摘要 ( )   HTML ( )   PDF (3524KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    面对日趋复杂的工业生产环境,三维点云工业异常检测需求与日俱增。尽管基于预训练网络的二维异常检测方法效果显著,但三维点云预训练网络的泛化能力有限,导致这类点云异常检测方法的效果不佳。为提高三维点云异常检测的性能,提出一种基于点云重构的异常检测方法Point-ReAD(Point cloud Reconstruction for Anomaly Detection),它由异常模拟模块、点云重构网络和异常判别模块这3个核心模块构成。在训练阶段,正常点云图经异常模拟模块产生异常点云送入点云重构网络,正常点云作为自监督信号指导重构网络的学习;点云重构网络使用分组注意力模块(GAM),用于融合点云的复杂结构信息,从而有效地捕捉点云中的几何和语义特征。在推理阶段,测试点云进入重构网络后生成重构点云,使用异常判别模块比较重构前后的点云,从而精确定位异常。实验结果表明,Point-ReAD在MVTec 3D-AD数据集上的点云级AUROC(PC-AUROC)和点级AUPRO(Area Under the Per-Region Overlap)分别达到了95.49%和94.66%,相较于次优方法3DR?M(3D Discriminatively trained Reconstruction Anomaly Embedding Model)分别提升了0.89和1.27个百分点。

    基于盲环网络和随机恢复掩码的自监督图像去噪
    梁震远, 江松林, 朱松豪
    2025, 45(10):  3311-3319.  DOI: 10.11772/j.issn.1001-9081.2024091383
    摘要 ( )   HTML ( )   PDF (2478KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    现有的基于盲点网络的自监督图像去噪方法常因为网络结构的限制,导致图像信息的严重损失。为解决这一问题,首先,提出一种自监督图像去噪方法,通过将传统的盲点网络改进为盲环网络(BRN),进一步降低噪声的空间相关性;其次,针对传统掩码策略导致图像信息丢失的问题,提出一种随机恢复掩码(RRM)策略,在减少信息损失的同时,增强去噪结果的细节信息;最后,提出一种双约束损失函数,在防止模型过度拟合的同时,有效保留图像的重要信息。实验结果表明,相较于次优的基于BRN的自监督图像去噪方法,所提方法在SIDD验证数据集上的峰值信噪比(PSNR)提高了0.17 dB,结构相似性(SSIM)提高了0.007,图像块感知相似度(IPPS)降低了0.006,验证了所提方法具有优越的去噪性能。

    基于特征融合的低光照场景下的自适应人脸识别
    汪书民, 李生林, 周香伶
    2025, 45(10):  3320-3327.  DOI: 10.11772/j.issn.1001-9081.2024101517
    摘要 ( )   HTML ( )   PDF (2766KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    现实场景中图像容易受外部光线条件或相机参数的影响而出现图像整体亮度过低、视觉效果不好和噪声多等问题,导致后续的人脸识别任务出现困难,从而引发工程问题。为此,针对低光照场景下的人脸识别任务,提出一种基于特征融合的低光照场景下的自适应人脸识别网络LLANet(Low Light Adaptive Face Recognition Network),该网络由分解子网络、恢复子网络、调节子网络和主干网络这4个部分组成。首先,根据Retinex理论将输入的低光照图像和正常光照图像分解为对应的照度图与反射图:照度图被输入调节子网络,在调节子网络中引入注意力机制,使网络聚焦于光照特征,不仅能提升低光照图像增强性能,还能确保增强图像的质量;反射图则输入恢复子网络,进行细节恢复与降噪操作,有效解决低光照图像反射图退化和噪声问题,将调节子网络与恢复子网络的输出进行特征融合,得到增强后的特征图。其次,为完成下游识别任务,且防止光照特征过拟合和人脸特征提取不准确,采用加权特征融合策略,融合主干网络提取的原始人脸特征与增强后的特征图,获得信息更丰富的特征图。最后,引入对抗性数据增强(ADA)策略,在训练时生成更多困难样本,在解决不适定问题的同时降低低光照图像在人脸检测阶段的对齐误差对网络的影响,进一步提升网络性能。在CASIA-FaceV5、SoF和YaleB这3个低光照人脸数据集上的实验结果表明,LLANet的识别率分别达到了94.67%、98.22%和97.24%,与ARoFace(Alignment Robust Face)相比,分别提高了2.14、1.58和2.10个百分点。可见,LLANet在低光照场景下有着较高的识别率。

    边界挖掘和背景引导的伪装目标检测
    李钟华, 钟庚辛, 范萍, 朱恒亮
    2025, 45(10):  3328-3335.  DOI: 10.11772/j.issn.1001-9081.2024091324
    摘要 ( )   HTML ( )   PDF (2003KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    伪装目标与背景具有高度的相似性,极易受背景特征混淆,导致边界信息难以分辨且提取目标特征困难。目前主流的伪装目标检测(COD)算法主要针对性研究伪装目标本身及其边界行,忽略了图像背景与目标的相互关系,在复杂场景下的检测结果不理想。为了探索背景和目标的潜在联系,提出一种通过挖掘边界和背景检测伪装目标的算法——I2DNet(Indirect to Direct Network)。该算法由5个部分组成:编码器,处理初始原始数据;边界指导的特征提取和挖掘框架,通过特征处理和特征挖掘提取更多精细的边界特征;背景引导的潜在特征学习框架,通过多尺度卷积探索更多的显著特征,同时基于注意力设计混合注意力模块(HAM),增强对背景特征的强化选择;信息补偿模块(ISM),弥补在特征处理过程中损失的细节信息;多任务协同分割解码器(MCD)则高效融合不同任务和模块提取的特征,并输出最终的预测结果。在广泛使用的3个数据集上的实验结果表明,所提算法优于其他15个先进模型,尤其在CAMO数据集上的平均绝对误差指标下降至0.042。

    前沿与综合应用
    基于多级小波残差网络的重力数据去噪方法
    薛雅丽, 徐忠敏, 刘世豪
    2025, 45(10):  3336-3341.  DOI: 10.11772/j.issn.1001-9081.2024101545
    摘要 ( )   HTML ( )   PDF (3689KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为降低干扰噪声对重力实测数据的影响,进一步提高重力数据处理精度,提出一种基于多级小波残差网络(MWRNet)的重力数据去噪方法,该方法结合小波变换和神经网络实现对重力数据中噪声分量的去除。首先通过小波变换分解重力数据,再利用神经网络提取噪声,同时引入残差通道注意力(RCA)模块增强网络的噪声提取能力。利用模拟数据和实测数据测试所提方法,实验结果表明:所提方法相较于其他重力数据去噪算法具有更好的效果。在噪声水平为50的实验中,所提方法相较于传统去噪算法三维块匹配算法BM3D(Block-Matching and 3D filtering),在峰值信噪比(PSNR)、结构相似性指数(SSIM)上分别提升了21.8%、9.3%;相较于基于深度学习的去噪算法DnCNN(Denoising Convolutional Neural Network)、MWCNN(Multi-level Wavelet-CNN),PSNR、SSIM也分别有所提升。

    强化形态感知的路面缺陷检测算法
    张佳慧, 李晓明, 张嘉祥
    2025, 45(10):  3342-3352.  DOI: 10.11772/j.issn.1001-9081.2024101511
    摘要 ( )   HTML ( )   PDF (8072KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对路面缺陷形态侧向狭窄、尺度多变和长程依赖特性导致检测精度低和漏检率高的问题,提出基于YOLOv8_n改进的强化形态感知的路面缺陷检测算法。首先,在主干网络融合阶段提出边缘增益聚焦模块(EEFM),采用条状池化核捕捉定向和位置感知信息并强化深层特征的边缘细节,增强细长特征的表达能力。其次,设计双链特征重分配金字塔网络(DCFRPN),重构融合方式,提供大范围感知和丰富定位信息的多尺度特征,提升对多尺度缺陷的融合能力。此外,构造形态感知任务交互检测头(MATIDH),增强分类与定位之间的任务交互,动态调整数据表征,融合多尺度带状卷积,优化细长缺陷的分类和回归。最后,提出PWIoU(Penalized Weighted Intersection over Union)损失函数,动态分配不同质量预测框的梯度增益,优化Box框的回归方式。实验结果表明,在RDD2022数据集上,所提算法的精确率和召回率相较于YOLOv8_n分别提升了3.5和2.3个百分点,在50%交并比(IoU)阈值下的平均精度均值(mAP)提升了3.2个百分点,验证了所提算法的有效性。

    渐进式上下文交互和注意力机制的混凝土路面裂缝检测网络
    尹学辉, 傅林琳, 周尚波
    2025, 45(10):  3353-3362.  DOI: 10.11772/j.issn.1001-9081.2024101486
    摘要 ( )   HTML ( )   PDF (2962KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为保障道路质量与安全,自动化裂缝检测在混凝土路面维护中至关重要。针对现有的基于深度学习的裂缝检测方法因过度下采样导致裂缝像素信息丢失的问题,提出一种基于渐进式上下文交互和注意力机制的混凝土裂缝检测网络。首先,以优化后的UNet++为主干,采用非对称卷积块增强特征提取能力;其次,引入渐进式上下文交互机制(PCIM)以高效地捕捉与融合相邻特征图的多尺度特征;再次,在特征增强阶段,用注意力组合(AC)方式提高特征表达能力;最后,在特征融合阶段,使用多语义注意力动态融合模块(MADFM)增强细节恢复和保留效果。在3个公开数据集上的测试结果表明,相较于DeepCrack、CrackFormer、PAF-Net(Progressive and Adaptive Feature Fusion Network),所提网络的性能更优。在DeepCrack测试集上,所提网络的F-score分别提高了1.33、5.07和3.93个百分点;在Crack500测试集上,分别提升了3.04、4.35和0.82个百分点;在CFD测试集上,分别提升了3.03、6.00和4.73个百分点。这些结果充分验证了所提网络在裂缝检测准确性方面实现了提升,同时在不同测试集上均展现出了出色的鲁棒性能。

    基于迁移学习的小样本绝缘子缺陷检测方法
    张红, 谢慷慷, 宁霞, 宋婉莹
    2025, 45(10):  3363-3370.  DOI: 10.11772/j.issn.1001-9081.2024091322
    摘要 ( )   HTML ( )   PDF (4354KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对深度学习缺陷检测方法需要大量标注样本训练,而绝缘子缺陷样本获取困难的问题,提出一种基于迁移学习的小样本绝缘子缺陷检测方法。首先,在主干网络加入高效多尺度注意力(EMA)机制,以增强模型对目标特征的表征能力;其次,构建分层采样的区域建议网络(RPN)在特征金字塔中均匀选择锚框,提高模型对不同尺度下新类对象的捕获能力;最后,设计解耦分类头,并通过正负两个头分别处理正负样本,从而使模型可以更有效地适应新类对象。实验结果表明,与基线方法TFA(Two-stage Fine-tuning Approach)相比,在公共数据集PASCAL VOC上,所提方法对新类的平均精度均值(mAP)(交并比(IoU)为0.5)平均提升了9.5个百分点;在绝缘子缺陷数据集上,所提方法在1-shot、5-shot、10-shot、20-shot和30-shot检测任务中的mAP50分别提高了15.8、12.2、17.4、7.3和7.1个百分点。

    基于证据深度学习的不确定性感知无监督医学图像配准模型
    王一铭, 李世源, 廖南清, 陈庆锋
    2025, 45(10):  3371-3380.  DOI: 10.11772/j.issn.1001-9081.2024101442
    摘要 ( )   HTML ( )   PDF (3014KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    医学图像配准中的不确定性量化对医师在实际临床应用中评估风险至关重要。目前,基于深度无监督学习的医学图像配准模型虽然已经具备不错的效果,但仍缺乏在配准时估计外观不确定性的方法,这将影响配准的精度和可信度。此外,在实时性应用场景中,医学图像配准模型不但需要具备较高的配准精度,还需要快速进行推理。针对上述问题,提出一种基于证据深度学习(EDL)的不确定性感知无监督医学图像配准模型EvidentialMorph,将EDL应用于无监督医学图像配准。EDL是一种不确定性量化方法,无需额外的计算开销。首先,通过U-net架构的配准主干网络模块学习得到形变向量场(DVF);其次,通过一种改进的空间变换器网络(STN)模块——证据STN模块学习配准图像的正态逆伽马(NIG)分布,从而直接计算出配准图像及其外观不确定性。在海马体、LPBA40和IBSR18核磁共振成像(MRI)数据集上的实验结果表明,与CLMorph模型相比,在配准精度上,EvidentialMorph的Dice相似性系数(DSC)最高提升了3.31%,归一化交叉相关(NCC)系数最高提升了2.75%;在推理时耗上,EvidentialMorph减少了85 ms。以上结果验证了EvidentialMorph能够快速得到有效的不确定性量化结果,并提升配准精度,为实时医学图像配准场景提供了不确定性量化的可能,可以改善配准效果。

    基于残差复卷积网络的7T超高场磁共振并行成像算法
    高照耀, 张展, 胡亮亮, 许光宇, 周胜, 胡雨欣, 林子捷, 周超
    2025, 45(10):  3381-3389.  DOI: 10.11772/j.issn.1001-9081.2024101501
    摘要 ( )   HTML ( )   PDF (4071KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    并行成像技术可以帮助解决超高场强磁共振成像(MRI)中的射频能量沉积、图像均匀性的问题,缩短扫描时间,减少运动伪影,并提升数据采集速度。为了提高对MRI复值数据的特征提取能力,减少并行成像欠采样所引起的卷褶伪影,提出基于K空间插值的残差复卷积鲁棒人工神经网络(RCRAKI)。所提算法将原始欠采样MRI扫描数据作为输入,利用残差结构结合线性与非线性重建方法的优势,在残差连接部分利用卷积创建线性重建基线,主路径利用多层复卷积补偿基线缺陷,最终重建出伪影更少的磁共振(MR)图像。在合肥综合性国家科学中心能源研究院自主研发的7T超高场磁共振设备采集的数据上进行实验,并将RCRAKI与基于K空间插值的残差鲁棒人工神经网络(rRAKI)在自动校准信号(ACS)数为40、加速比为8的采样率下进行小鼠不同解剖切面成像质量对比。实验结果表明:在矢状位下,所提算法的标准化均方根误差(NRMSE)指标下降了59.74%,结构相似度(SSIM)指标提升了0.45%,峰值信噪比(PSNR)指标提升了13.04%;在横断位下,所提算法的NRMSE指标降低了7.97%,SSIM指标略有改善(提高了0.005%),PSNR指标提升了1.09%;在冠状位下,所提算法的NRMSE指标下降了35.03%,PSNR指标提升了5.60%,SSIM指标提升了0.98%。可见,RCRAKI在不同解剖切面的MRI数据上均表现出良好的性能,在高加速比采样率下能够减小噪声放大的影响,并重建出细节更清晰的MR图像。

    轻量级微调SAM的结肠息肉分割方法SAMCP
    刘娜, 封筠, 霍一儒, 王弘扬, 杨柳
    2025, 45(10):  3390-3398.  DOI: 10.11772/j.issn.1001-9081.2024101555
    摘要 ( )   HTML ( )   PDF (3276KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在胃肠道内窥镜图像处理中,精准分割结肠息肉具有重要的临床意义。传统分割方法常因细节捕捉不足和对大规模数据的依赖,在应对复杂形态的息肉时表现不佳。尽管分割一切模型(SAM)在自然图像分割中取得显著进展,但由于自然图像与医学图像存在域差异,现有的SAM方法在结肠息肉分割任务上仍难以取得理想效果。为解决这一问题,基于SAM架构提出一种轻量级微调结肠息肉分割方法(SAMCP)。该方法引入精简适配器模块,重点关注通道维度信息,采用Dice和交并比(IoU)简化联合损失函数,并在训练时冻结原始图像编码器和提示编码器的参数,以低训练成本提升结肠息肉分割性能。在3个公开数据集上与9种先进方法的对比实验结果表明,相较于SAM方法,SAMCP在Kvasir-SEG数据集上的Dice和IoU值分别提高了56.7%和84.5%,在CVC-ClinicDB数据集上的Dice和IoU值分别提高了46.0%和86.0%,在CVC-ColonDB数据集上的Dice和IoU值分别提高了95.3%和122.2%,超过目前SAM-based类方法的最佳性能。在引入点提示的情况下,即使只使用1次点击,SAMCP仍能优于其他SAM-based方法。以上验证了SAMCP在处理复杂形状和局部细节时表现出色,可为医生提供更精确的分割指导。

    基于判别区域引导的多视图困难气道识别
    吴松霖, 张广朝, 姚远, 彭博
    2025, 45(10):  3399-3406.  DOI: 10.11772/j.issn.1001-9081.2024101404
    摘要 ( )   HTML ( )   PDF (2164KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    困难气道(DA)是临床手术中关键的术前风险因素,但它的准确识别面临诸多挑战,如数据集规模小、类别严重不平衡和单视图识别能力不足等。针对这些问题,提出多视图DA识别模型——DRG-MV-Net(Discriminative Region Guided Multi-View Net)。在模型的第一阶段,判别区域引导模块(DRGM)借助类激活映射(CAM)自动检测并强调面部视图中的关键判别区域,生成2种具有特定特征的数据增强图像;在模型的第二阶段,使用集成扩张卷积块注意模块(D-CBAM)的ResNet-18骨干网络提取每个视图的特征,再通过多视图交叉融合模块(MCFM)进行多视图特征集成。此外,将Focal Loss与分层混合采样相结合,缓解类别不平衡问题。对所构建的临床数据集的评估结果显示,所提模型实现了77.22%的几何平均准确率(G-Mean)、43.88%的F1分数(F1-Score)、38.73%的马修斯相关系数(MCC)和0.740 7的受试者操作特征曲线下面积(AUC)。与近期的DA识别模型MCE-Net(Multi-view Contrastive representation prior and Ensemble classification Network)相比,所提模型的G-Mean、F1-Score和MCC分别提升了2.41、2.34和3.41个百分点;与基线模型ResNet-18相比,分别提升了4.85、6.85和8.25个百分点。以上结果验证了所提模型在小型且不平衡数据集上DA识别的有效性,为解决复杂的DA识别提供了新的见解和方法。

2025年 45卷 10期
刊出日期: 2025-10-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会