当期目录

    2025年 第45卷 第7期 刊出日期:2025-07-10 封面下载 目录下载
    CCF第39届中国计算机应用大会 (CCF NCCA 2024)
    可解释的深度知识追踪方法综述
    索晋贤, 张丽萍, 闫盛, 王东奇, 张雅雯
    2025, 45(7):  2043-2055.  DOI: 10.11772/j.issn.1001-9081.2024070970
    摘要 ( )   HTML ( )   PDF (2726KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    知识追踪(KT)是一种认知诊断方法,旨在通过学习者的历史答题记录,模拟学习者对于学习知识的掌握程度,最终预测学习者未来的答题情况。目前基于深度神经网络模型的知识追踪技术以强大的特征提取能力和优越的预测能力成为知识追踪领域研究的热点;然而,基于深度学习的知识追踪模型通常缺乏较好的可解释性。清晰的可解释性不仅可以让学习者和教师充分理解知识追踪模型的推理过程和预测结果,从而为下一步学习制定符合当前知识状态的学习计划,还能够提升学习者和教师对知识追踪模型的信任程度。因此,对可解释的深度知识追踪(DKT)方法进行综述。首先,介绍知识追踪的发展历程,并介绍可解释性的定义和必要性;其次,从特征提取和模型内部提升两方面,对解决DKT模型缺乏可解释性而提出的改进方法进行总结和梳理;再次,介绍现有的可供研究者使用的相关公开数据集,并分析数据集内的数据特征对可解释性的影响,从而探讨如何从模型性能和可解释性两个方面对知识追踪模型进行评价,并整理DKT模型在不同数据集上的性能表现;最后,对DKT模型目前存在的问题提出一些未来可能的研究方向。

    序列模式挖掘综述
    代震龙, 韩萌, 杨文艳, 朱诗能, 杨书蓉
    2025, 45(7):  2056-2069.  DOI: 10.11772/j.issn.1001-9081.2024070952
    摘要 ( )   HTML ( )   PDF (4325KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    序列模式挖掘(SPM)旨在从数据库中发现有趣的模式或规律,从而为用户决策提供支持与指导。近年来,对SPM相关算法的研究日益深入。随着大规模数据的出现,已经提出许多适用于并行环境的序列算法。因此,对现有的串并行序列挖掘算法进行综述。首先,对于序列模式串行挖掘算法进行结构化的分类,即依据算法采用的数据结构将算法划分为树结构、列表结构和链式结构等,全面总结不同结构的优势与不足,并详细归纳各算法的优缺点;其次,对于序列模式并行挖掘算法,首次根据存储结构的不同特点对现有的分布式框架进行分类,分析不同分布式框架的优缺点,并依据框架对并行算法进行介绍与分析;最后,针对现有SPM算法的不足,讨论下一步的研究方向。

    基于冲突的缓存侧信道攻击与驱逐集综述
    姚梓豪, 马自强, 李扬, 魏良根
    2025, 45(7):  2070-2078.  DOI: 10.11772/j.issn.1001-9081.2024070933
    摘要 ( )   HTML ( )   PDF (2682KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    缓存侧信道攻击是一种利用计算机缓存共享特性的侧信道攻击手段,对跨处理器、跨虚拟机的目标密码系统构成严重威胁。其中基于冲突的缓存侧信道攻击突破了使用特权指令的限制,能构造一组与目标地址映射到同一缓存集的虚拟地址,即驱逐集,从而造成缓存冲突,进而最终获取目标的隐私数据。构造驱逐集已成为基于冲突的缓存侧信道攻击和推测执行攻击的关键技术之一。因此,对基于冲突的缓存侧信道攻击与驱逐集的研究进行综述。首先,剖析了基于冲突的缓存侧信道攻击的基本原理;其次,分析了驱逐集构造算法的基本原理、发展现状,根据候选地址的操作策略和驱逐集的构造策略不同,将算法分为冲突移除法和冲突渐增法两类;再次,对驱逐集构造算法的影响因素进行了归纳;最后,讨论了基于冲突的缓存侧信道攻击的现状及未来的研究方向。

    DNS隧道检测技术研究综述
    郑智强, 王锐棋, 范子静, 何发镁, 姚叶鹏, 汪秋云, 姜政伟
    2025, 45(7):  2079-2091.  DOI: 10.11772/j.issn.1001-9081.2024070972
    摘要 ( )   HTML ( )   PDF (1890KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    域名系统(DNS)作为将IP地址和域名互相转换的系统,是互联网中的重要基础协议之一。由于DNS在互联网中的重要性,一些安全设施如防火墙和入侵检测系统(IDS)等的安全策略默认允许DNS流量通过,这给了攻击者利用DNS隧道进行通信的机会。目前,已经有许多恶意软件支持DNS通信,甚至默认使用DNS通信,这为网络安全工具和安全运营中心带来了很大的挑战。然而,现有的研究主要聚焦于具体的检测方法,即使绝大部分研究者在他们的研究中依赖隧道工具生成样本,却很少对隧道工具本身进行探索。因此,对DNS隧道检测技术研究进行综述。首先,系统阐述DNS隧道的发展历史、研究现状和现有的检测方案,并对过去10年中的检测方案的优缺点进行探讨。其次,对检测方案中常见的dnscat2、Iodine和dns2tcp等6种通信工具进行评估与实验,并公开实验数据。实验结果表明,绝大多数检测方案都没有公开它们的隧道样本数据集或使用隧道工具生成流量时所设定的参数,使这些检测方案很难复现。此外,部分检测方案使用的DNS隧道工具具有明显签名特征,而使用具有签名特征的样本对基于模型的检测方案进行训练将导致模型的泛化能力存疑,即无从得知这一类模型在真实世界中是否具有良好表现。最后,展望相关未来的工作方向。

    基于HoneyBadgerBFT和DAG的异步网络区块链分片机制
    陈宇轩, 郑海彬, 关振宇, 苏泊衡, 王玉珏, 郭振纬
    2025, 45(7):  2092-2100.  DOI: 10.11772/j.issn.1001-9081.2024070962
    摘要 ( )   HTML ( )   PDF (2275KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对区块链系统在扩展性方面存在的网络规模受限、网络环境强依赖、存储成本高以及交易吞吐量低下等问题,提出一种适应异步网络环境并且支持交易并行处理的分片机制。该机制采用HoneyBadgerBFT共识在异步网络环境下达成数据一致性,通过分片技术实现区块链系统的线性扩展,并通过DAG(Directed Acyclic Graph)技术进一步增强片内交易及不相交跨片交易的并行处理能力。仿真结果表明,所提机制在异步网络环境下仍能保持活性;在半同步网络环境中,所提机制的通信开销比使用拜占庭容错协议(PBFT)的SharPer降低超过49.9%;在由16个节点组成的区块链网络中,所提机制的TPS(Transactions-Per-Second)与SharPer相比少16.7%,而在64个节点组成的区块链网络中,所提机制的TPS比SharPer高6.7%,表明所提机制拥有比SharPer更高的吞吐量;在含有20%跨片交易且使用相同网络环境及硬件资源的条件下,所提机制的分片数及节点数每扩大1倍,该机制交易吞吐量增长比SharPer分别多30.0%和10.5%,表明所提机制拥有比SharPer更好的扩展性。

    以标注确定性增强为导向的正类-无标签学习算法
    何玉林, 何芃, 黄哲学, 解为成, PHILIPPE Fournier-Viger
    2025, 45(7):  2101-2112.  DOI: 10.11772/j.issn.1001-9081.2024070953
    摘要 ( )   HTML ( )   PDF (3586KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    正类-无标签学习(PUL)是在负例样本未知时,利用已知的少量正类样本和大量无标签样本训练出性能可被实际应用接受的分类器。现有的PUL算法存在共性的缺陷,即对无标签样本标注的不确定性较大,这将导致分类器学习到的分类边界不准确,并且限制了所训练分类器在新数据上的泛化能力。为了解决这一问题,提出一种以无标签样本标注确定性增强为导向的PUL(LCE-PUL)算法。首先,通过验证集的后验概率均值和正类样本集中心点的相似程度筛选出可靠的正类样本,并通过多轮迭代逐步精细化标注过程,以提升对无标签样本初步类别判断的准确性,从而提高无标签样本标注的确定性;其次,把这些可靠的正类样本与原始正类样本集合并,以形成新的正类样本集,之后从无标签样本集中将它剔除;然后,遍历新的无标签样本集,并利用每个样本与若干近邻点的相似程度再次筛选可靠正类样本,以更准确地推断无标签样本的潜在标签,从而减少误标注的可能性,并提升标注的确定性;最后,更新正类样本集,并把未被选中的无标签样本视为负类样本。在具有代表性的数据集上对LCE-PUL算法的可行性、合理性和有效性进行验证。随着迭代次数的增加,LCE-PUL算法的训练呈现收敛的特性,且当正类样本比例为40%、35%和30%时,LCE-PUL算法构建的分类器测试精度相较于基于特定成本函数的偏置支持向量机(Biased-SVM)算法、基于Dijkstra的PUL标签传播(LP-PUL)算法和基于标签传播的PUL(PU-LP)算法等5种代表性对比算法中最多提升了5.8、8.8和7.6个百分点。实验结果表明,LCE-PUL是一种有效处理PUL问题的机器学习算法。

    基于元学习的标签噪声自适应学习算法
    齐巧玲, 王啸啸, 张茜茜, 汪鹏, 董永峰
    2025, 45(7):  2113-2122.  DOI: 10.11772/j.issn.1001-9081.2024070932
    摘要 ( )   HTML ( )   PDF (2377KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    图像分类需要收集大量的图片进行模型训练与优化,但收集过程会不可避免地带来噪声标签。为了应对这一挑战,鲁棒性分类方法应运而生。在目前的鲁棒性分类方法中,超参数的设置需要手动调节,对人力物力带来了大量的损耗。因此,提出元超参数调节器(MHA),采用双层嵌套循环优化的方法自适应地学习噪声感知的超参数组合,并提出Meta-FPL (Feature Pseudo-Label adaptive learning based on Meta learning)算法。此外,为了解决元训练阶段的反向传播过程耗费大量GPU算力的问题,提出选择激活元模型层(SAML)策略。该策略通过比较虚拟训练阶段反向传播的平均梯度与元梯度的大小,限制部分元模型层的更新,从而有效提升模型的训练效率。在4个基准数据集和1个真实数据集上的实验结果表明,与MLC(Meta Label Correction for noisy label learning)、CTRR(ConTrastive RegulaRization)和FPL(Feature Pseudo-Label)算法相比,Meta-FPL算法的分类准确率较高。此外,引入SAML策略后,在元训练阶段的反向传播过程训练时长缩短了79.52%。可见,Meta-FPL算法能在较短的训练时间内有效提升分类测试准确率。

    面向个性化与公平性的联邦学习算法
    张宏扬, 张淑芬, 谷铮
    2025, 45(7):  2123-2131.  DOI: 10.11772/j.issn.1001-9081.2024070934
    摘要 ( )   HTML ( )   PDF (3790KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    作为一种分布式优化范式,联邦学习(FL)允许大量资源有限的客户端节点在不共享数据时协同训练模型。然而,传统联邦学习算法,如FedAvg,通常未充分考虑公平性的问题。在实际场景中,数据分布通常具备高度异构性,常规的聚合操作可能会使模型对某些客户端产生偏见,导致全局模型在客户端本地的性能分布出现巨大差异。针对这一问题,提出一种面向个性化与公平性的联邦学习FedPF(Federated learning for Personalization and Fairness)算法。FedPF旨在有效减少联邦学习中低效的聚合行为,并通过寻找全局模型与本地模型的相关性,在客户端之间分配个性化模型,从而在保证全局模型性能的同时,使客户端本地性能分布更均衡。将FedPF在Synthetic、MNIST以及CIFAR10数据集上进行实验和性能分析,并与FedProx、q-FedAvg和FedAvg这3种联邦学习算法进行对比。实验结果表明,FedPF在有效性和公平性上均得到了有效提升。

    基于掩码增强自训练的域适应语义分割
    冯博, 于海征, 边红
    2025, 45(7):  2132-2137.  DOI: 10.11772/j.issn.1001-9081.2024070935
    摘要 ( )   HTML ( )   PDF (1857KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近年来,基于卷积神经网络(CNN)的语义分割模型在多种应用中表现出了卓越的性能。然而,这些模型在应用于新领域时通常不能很好地泛化,特别是从合成数据应用到真实数据的情况。无监督域适应(UDA)问题旨在尝试在一个带有标记数据的已知领域(源域)上进行模型训练,同时在无标记数据的未知领域(目标域)中学习,以提升源域训练的分割模型在目标域的泛化能力。现有方法虽然通过用自训练对无标记目标域图像进行伪标签训练的方式取得了很大进展,并提出多种方式来减少因领域迁移而产生的低质量伪标签,但效果参差不齐。针对该问题,提出一种基于掩码增强自训练的域适应方法对目标域图像掩码增强处理以生成伪标签,并对未掩码目标图像生成的伪标签进行修正,并且以最小化掩码图像伪标签和未掩码图像修正伪标签的一致性损失为目标,使模型学习到更多目标域特征的同时生成更鲁棒的伪标签。实验结果表明,所提方法在GTA5 (Grand Theft AutoV)→Cityscapes和SYNTHIA(SYNTHetic collection of Imagery and Annotations)→Cityscapes两项UDA任务常用的语义分割基准实验中均取得了不错的性能,比经典的DACS(Domain Adaptation Cross-domain Sampling)方法在GTA5和SYNTHIA数据集上的平均交并比(mIoU)分别提高了1.3和1.2个百分点;另外,消融实验结果也验证了所提掩码增强及伪标签修正模块的有效性。可见,所提出的自训练域适应方法学习到了更多的目标域上下文信息,并且提升了分割模型在目标域的泛化能力。

    基于凝聚式层次聚类的微调筛选过采样方法
    谷铮, 陈学斌, 张宏扬, 李雨欣
    2025, 45(7):  2138-2144.  DOI: 10.11772/j.issn.1001-9081.2024070919
    摘要 ( )   HTML ( )   PDF (989KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对不平衡数据集分类效果差的问题,提出一种基于凝聚式层次聚类(AHC)的微调筛选过采样方法,该方法可适用于不平衡数据的多分类情况。首先,在不平衡数据集的聚类过程中应用AHC算法,分别聚类多数类与少数类,从而在考虑类别间关系的同时有效避免类重叠问题;其次,为了平衡数据集并保留原始数据的特征,设计一种微调过采样算法;再次,为了提升生成样本的分类准确率,提出一种基于倾向评分匹配的标签倾向评估与筛选方法;最后,通过实验对所提出的方法进行验证,并将该方法与MDO(Mahalanobis Distance-based Over-sampling technique)、AND-SMOTE (Automatic Neighborhood size Determination method for Synthetic Minority Over-sampling TEchnique)和K-means SMOTE这3种方法进行比较。实验结果表明,在Abalone、Contraceptive和Yeast等6个不同的数据集上,所提方法展现出了良好的性能,验证了它的有效性。

    基于意图正则化的深度半监督文本聚类
    徐乐, 黄瑞章, 白瑞娜, 秦永彬
    2025, 45(7):  2145-2152.  DOI: 10.11772/j.issn.1001-9081.2024070931
    摘要 ( )   HTML ( )   PDF (1772KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有半监督文本聚类方法无法同时在表示学习和聚类过程中考虑用户意图的问题,提出基于意图正则化的深度半监督文本聚类(IRDSTC)模型。通过引入意图正则化策略,设计意图正则化的表示学习(IRRL)模块和意图正则化的聚类(IRC)模块。首先,根据用户提供的意图约束信息构建意图矩阵,以捕获用户对文本之间关系的期望。其次,将该矩阵应用到表示学习阶段和聚类阶段:在表示学习阶段,将深度模型提取的中间层表示转换为表示关联性矩阵,并结合意图矩阵构造正则项,以利用用户意图驱动表示学习;在聚类阶段,根据聚类迭代得到的类簇分配概率构造分配一致性矩阵,并结合意图矩阵构造正则项,以实现用户意图对聚类过程的指导。实验结果表明,IRDSTC模型在Reu-10k、BBC、ACM和Abstract数据集上相较于其他聚类方法在聚类准确率(ACC)、标准化互信息(NMI)和调整兰德指数(ARI)上均具有更好的表现。具体而言,相较于次优模型改进的深度嵌入聚类(IDEC),IRDSTC模型的NMI分别提升了28.26%、32.58%、27.13%和34.94%,表明IRDSTC模型具有更好的聚类效果。

    求解多模概率分布Gamma混合模型的半EM算法
    陈佳琪, 何玉林, 成英超, 黄哲学
    2025, 45(7):  2153-2161.  DOI: 10.11772/j.issn.1001-9081.2024070942
    摘要 ( )   HTML ( )   PDF (4261KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    期望最大化(EM)算法在混合模型参数估计中发挥着重要作用,然而现有的EM算法在求解Gamma混合模型(GaMM)参数时存在局限性,主要体现在因近似计算导致的低质量参数估计,以及由于大量数值计算造成的计算效率低下问题。为了克服这些局限,并充分利用数据的多模性质,提出一种半EM(Semi-EM)算法求解用于估计多模概率分布的GaMM。首先,通过聚类探测数据的空间分布特性,以初始化GaMM参数,进而更准确地刻画数据的多模性;其次,在EM算法框架的基础上,对于缺乏封闭更新表达式而导致的参数更新困难问题,采用自定义的启发式策略对GaMM形状参数进行更新,使它们朝着最大化对数似然值的方向逐步调整,同时以封闭形式更新其他参数。经过一系列具有说服力的实验,验证了Semi-EM算法的可行性、合理性和有效性。实验结果表明,Semi-EM算法在精确估计多模概率分布方面优于对比的4种算法,具有更低的误差指标以及更高的对数似然值,表明该算法能提供更准确的模型参数估计,从而更精确地刻画数据的多模性质。

    基于测量不确定度表示指南的红外目标检测不确定度测量方案
    蒋沛宇, 王永光, 任亚亭, 李硕晨, 谭火彬
    2025, 45(7):  2162-2168.  DOI: 10.11772/j.issn.1001-9081.2024070941
    摘要 ( )   HTML ( )   PDF (1435KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对当前目标检测算法的不确定性研究将不确定性建模作为优化预测结果的一个步骤,而忽视了不确定性本身的性质的问题,提出一种基于测量不确定度表示指南(GUM)的目标检测结果评定方案。首先,将目标检测的不确定度来源分解为数据、模型、平台3个互相独立的方面,并从这3个方面提取不确定度影响因素,从而构建不确定度测量函数;其次,使用GUM中的A类评定方法和B类评定方法对不确定度影响分量进行度量;最后,基于测量函数使用不确定度合成法则,并由不确定度分量合成标准不确定度。在目标检测算法上展开实验,结果表明,与峰值信噪比(PSNR)和结构相似性(SSIM)相比,数据不确定度在捕捉噪声数据方面分别提高了5.30和19.08个百分点;模型不确定度对预测结果的影响很小,在10-6范围内可以忽略;平台的不确定度可以用数值化形式表示由软硬件平台带来的预测结果差异。

    人工智能
    物联网应用中的可解释人工智能研究综述
    赵小阳, 许新征, 李仲年
    2025, 45(7):  2169-2179.  DOI: 10.11772/j.issn.1001-9081.2024070927
    摘要 ( )   HTML ( )   PDF (2756KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在物联网(IoT)时代,人工智能(AI)与IoT的结合已经成为推动技术发展和应用创新的重要趋势。随着设备连接数量的指数级增长,提升终端用户对智能系统的信任度变得尤为关键。可解释人工智能(XAI)指能提供它们的决策过程和结果解释的AI系统。XAI的出现推动了AI技术的发展,并增强了用户对AI系统的信任。因此,对IoT应用中的XAI研究进行综述。首先,介绍IoT和XAI的相关背景及意义;其次,介绍XAI的定义及关键技术;接着,介绍传统AI驱动的IoT应用的最新进展和XAI驱动的IoT应用的最新进展;最后,对XAI在IoT应用中的未来发展方向和相关挑战分别进行总结和展望。

    多尺度去相关的图卷积网络模型
    陈丹阳, 张长伦
    2025, 45(7):  2180-2187.  DOI: 10.11772/j.issn.1001-9081.2024070951
    摘要 ( )   HTML ( )   PDF (8800KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    深度图神经网络(GNN)旨在捕捉复杂网络中的局部和全局特征,从而缓解图结构数据中的信息传递瓶颈。然而,现有的深度GNN模型常常面临特征过度相关的问题。因此,提出一种多尺度去相关图卷积网络(Multi-Deprop)模型。该模型包含特征传播和特征变换两种操作。在特征传播操作中,引入多尺度去相关参数,以使网络在传播过程中维持低层网络的高去相关性以及高层网络的弱去相关性,从而适应不同层级特征处理的需求。在特征变换操作中,引入正交正则化与最大信息化损失,其中:正交正则化损失保持特征独立性,最大信息化则最大化输入和表示之间的互信息,从而降低特征信息的冗余。最后,在7个节点分类的数据集上把所提模型与4个基准模型进行对比实验。实验结果表明, Multi-Deprop模型在大多数的2~32层的模型中能取得更优的节点分类准确率。特别是在Cora数据集上, Multi-Deprop模型的4~32层网络模型准确率相较于基准模型Deprop提升了0.80%~13.28%,即Multi-Deprop模型一定程度上解决了深层网络性能下降的问题。而在特征矩阵的相关性分析上,在Cora数据集上使用Multi-Deprop深层模型获得的特征矩阵相关性在0.40左右,即特征矩阵属于弱相关,说明Multi-Deprop模型极大地缓解了过相关现象。消融实验及损失可视化实验的结果表明,两个操作的改进均对模型性能有一定的提升作用。可见, Multi-Deprop模型能在保证高分类准确率的同时,显著降低深度网络中的特征冗余现象,具有较好的泛化性能和实用性。

    多尺度稀疏图引导的视觉图神经网络
    张子墨, 赵雪专
    2025, 45(7):  2188-2194.  DOI: 10.11772/j.issn.1001-9081.2024070910
    摘要 ( )   HTML ( )   PDF (2247KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近年来,视觉图神经网络(ViG)在计算机视觉领域引起了研究人员的广泛关注,其中构图是ViG的重要建模方式。目前流行的K近邻(KNN)构图方法尺度单一、具有二次计算复杂度并且难以建模图像的局部和多尺度信息。为了解决该问题,提出一种尺度稀疏图的构筑方法——MSSG(Multi-Scale Sparse Graph)。该方法将KNN图沿通道分解为3个不同尺度的稀疏子图,具有线性的计算复杂度并且能实现图像局部信息和多尺度信息的有效建模。为了增强模型的全局建模能力,提出一种全局和局部多尺度信息融合策略。基于以上方法,提出一种视觉架构——MSViG(Multi-Scale Vision Graph neural network)。在ImageNet-1K数据集上进行的图像分类实验的结果表明,MSViG优于传统的ViG。例如,与视觉神经网络ViG-T相比,所提MSViG-T的Top-1分类准确率提高了2.1个百分点,并且在目标检测和实例分割视觉下游任务上MSViG相较于传统ViG取得了较大的性能提升。

    开放生成与特征优化的开集识别方法
    向尔康, 黄荣, 董爱华
    2025, 45(7):  2195-2202.  DOI: 10.11772/j.issn.1001-9081.2024060862
    摘要 ( )   HTML ( )   PDF (3039KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    当深度神经网络(DNN)遇到训练时未遇见的类别的样本时,不能准确地拒绝未知类样本,而开集识别能在准确分类已知类样本同时拒绝未知类样本。目前在开集识别领域,原型学习方法广为应用,然而这些方法都无法同时保证样本分布内的紧凑性和样本分布间的分离性。因此,提出开放生成与特征优化的开集识别方法(OGFO)。首先,提出开放点的概念,原型点通过DNN学习对应类别样本的固有特征而开放点是各类别原型点的均值。开放点代表未知类的固有特征且占据特征空间的中心区域。特征空间中心区域为未知类样本分布的开放空间;其次,提出基于开放点的特征优化算法(FOA),从而利用开放点强迫相同类别样本内部的分布更加紧凑并且迫使不同类别样本间的分布更加分离;最后,提出基于开放点的生成方法OGAN(Open Generative Adversarial Network),并使用DNN迫使OGAN生成的未知类样本分布在开放点占据的开放空间中。实验结果表明,相较于基于对抗性反向点学习的开集识别方法(ARPL),OGFO在MNIST、SVHN、CIFAR10和TinyImageNet数据集上的AUROC(Area Under the Receiver Operating Characteristic curve)提升明显,尤其在TinyImageNet数据集上的AUROC上至少提升了3个百分点,在准确率和OSCR(Open Set Classification Rate)上分别至少提升6和5个百分点。可见,OGFO解决了其他方法无法兼顾样本分布内的紧凑性和样本分布间的分离性的问题。

    梯度区分与特征范数驱动的开放世界目标检测
    张英俊, 闫薇薇, 谢斌红, 张睿, 陆望东
    2025, 45(7):  2203-2210.  DOI: 10.11772/j.issn.1001-9081.2024070944
    摘要 ( )   HTML ( )   PDF (2461KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    开放世界目标检测(OWOD)将目标检测任务拓展至真实多变的环境中,要求模型能准确识别已知和未知对象,并逐步学习新知识。针对现有OWOD网络模型中未知类的召回率偏低和误识别的问题,提出一种梯度区分与特征范数驱动的开放世界目标检测(GDFN-OWOD)网络模型。针对未知类召回率偏低的问题,提出梯度区分性表征模块(GDRM),即利用反向传播的梯度差异区分未知类别和背景,以提高未知类召回率;此外,引入基于图分割的框聚类(GSBC)算法将物体边界框的确定建模为图分解问题,从而减少冗余的边界框,进而降低模型的计算量;针对未知类误识别的问题,采用基于特征范数的分类器(FN-BC)选择性能最优的卷积层识别已知和未知类别,以达到更高的识别准确率。在M-OWODB数据集上的实验结果表明,与最优对比模型相比在T1T2T3任务中GDFN-OWOD的未知类召回率分别提升了1.1、2.1、0.9个百分点,而绝对开集误差(A-OSE)分别降低了35.1%、28.7%和12.2%。可见,与现有的OWOD网络模型相比,所提网络模型有效缓解了未知类的召回率偏低和误识别的问题。

    基于知识感知与交互的多视图蒸馏推荐算法
    张悦岚, 苏静, 赵航宇, 杨白利
    2025, 45(7):  2211-2220.  DOI: 10.11772/j.issn.1001-9081.2024070948
    摘要 ( )   HTML ( )   PDF (2566KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    目前,基于协同过滤的图神经网络(GNN)推荐系统存在严重的数据稀疏和冷启动问题。很多相关算法引入项目的外部知识进行补充性扩展使这些问题得以缓解,然而这些算法忽略了稀疏协同信号和冗余补充内容直接结合所导致的信息利用严重不平衡以及不同数据之间的共享传递问题。因此,设计一种基于知识感知与交互的多视图蒸馏推荐算法(MKDRec)。首先,针对协同数据的稀疏性,对交互图采用随机丢弃以增强形成的协同视图,再将该视图下的节点表征进行邻域对比学习;其次,关于知识冗余问题,对知识视图中的每种关系的边进行编码,并基于头尾实体和连接关系重构项目知识视图,使信息得到充分利用;最后,基于项目与实体间的等价关系构建具有远程连接的关联视图。至此,对3个视图以不同卷积聚合方式学习图节点表征来提取多种用户与项目的信息,并得出多个用户与项目的嵌入表示。此外,将两两视图的节点特征向量进行知识蒸馏融合以实现信息的共享和传递。MKDRec在数据集Book-Crossing、MovieLens-1M和Last.FM上的实验结果显示,相较于最好的基线方法结果,MKDRec的曲线下面积(AUC)分别提升了2.13%、1.07%和3.44%,而F1分数分别提升了3.56%、1.14%和4.46%。

    基于语义前缀微调的零样本对话状态跟踪领域迁移模型
    孙雨阳, 张敏婕, 胡婕
    2025, 45(7):  2221-2228.  DOI: 10.11772/j.issn.1001-9081.2024060865
    摘要 ( )   HTML ( )   PDF (1228KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    零样本对话状态跟踪(DST)需要在缺乏标注数据时将已有模型迁移至新领域。现有的相关方法在执行领域迁移时常常难以捕捉对话文本中的上下文联系,导致相关模型在面对未知领域时的泛化能力不足。针对上述问题,提出一种基于语义前缀微调的零样本DST领域迁移模型。首先,利用槽位描述生成初始前缀,确保前缀与对话文本的紧密语义联系;其次,融合前缀位置与领域信息,生成能整合模型内部知识和领域信息的前缀;再次,根据对话内容的复杂性动态调整前缀长度,增强模型对上下文内容的敏感性;最后,通过全局式前缀插入增强模型对历史对话的全局记忆能力。实验结果表明,相较于Prompter模型,所提模型在MultiWOZ2.1数据集的Restaurant、Taxi和Train领域上的联合目标准确率(JGA)分别提高了5.50、0.90和7.50个百分点,在SGD数据集的Messaging、Payment和Trains领域上的JGA分别提高了0.65、14.51和0.65个百分点。可见,所提模型的零样本场景下DST任务的上下文理解能力和泛化迁移性能得到了有效提升。

    联合边界生成的多目标学习的嵌套命名实体识别
    徐章杰, 陈艳平, 扈应, 黄瑞章, 秦永彬
    2025, 45(7):  2229-2236.  DOI: 10.11772/j.issn.1001-9081.2024070980
    摘要 ( )   HTML ( )   PDF (1419KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对跨度间边界语义信息模糊的问题,提出一种联合边界生成的多目标学习NER模型。该模型通过联合NER任务和边界生成任务,以多目标学习的方式进行共同训练。其中:使用边界生成任务作为辅助任务引导模型网络关注跨度的边界信息,以增强跨度的边界语义,进而提升NER的性能。在ACE2004、ACE2005和GENIA数据集上进行测试,所提模型的F1值分别达到了87.83%、86.90%和81.65%,实验结果充分验证了该模型在不同数据集上的有效性,也进一步验证了该模型在命名实体识别任务中的优越性能。

    跨模态文本信息增强的多模态情感分析模型
    王艺涵, 路翀, 陈忠源
    2025, 45(7):  2237-2244.  DOI: 10.11772/j.issn.1001-9081.2024060886
    摘要 ( )   HTML ( )   PDF (1163KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近年来,利用文本、视觉和音频数据分析视频中说话者情感的多模态情感分析(MSA)引起了广泛关注。然而,不同模态在情感分析中的贡献大不相同。通常,文本中包含的信息更加直观,因此寻求一种用于增强文本在情感分析中作用的策略显得尤为重要。针对这一问题,提出一种跨模态文本信息增强的多模态情感分析模型(MSAM-CTE)。首先,使用BERT(Bidirectional Encoder Representations from Transformers)预训练模型提取文本特征,并使用双向长短期记忆(Bi-LSTM)网络对预处理后的音频和视频特征进行进一步处理;其次,通过基于文本的交叉注意力机制,将文本信息融入情感相关的非语言表示中,以学习面向文本的成对跨模态映射,从而获得有效的统一多模态表示;最后,使用融合特征进行情感分析。实验结果表明,与最优的基线模型——文本增强Transformer融合网络(TETFN)相比,MSAM-CTE在数据集CMU-MOSI (Carnegie Mellon University Multimodal Opinion Sentiment Intensity)上的平均绝对误差(MAE)和皮尔逊相关系数(Corr)分别降低了2.6%和提高了0.1%;在数据集CMU-MOSEI (Carnegie Mellon University Multimodal Opinion Sentiment and Emotion Intensity)上的两个指标分别降低了3.8%和提高了1.7%,验证了MSAM-CTE在情感分析中的有效性。

    数据科学与技术
    基于改进时域卷积网络与多头自注意力机制的间歇过程质量预测模型
    赵小强, 柳勇勇, 惠永永, 刘凯
    2025, 45(7):  2245-2252.  DOI: 10.11772/j.issn.1001-9081.2024070945
    摘要 ( )   HTML ( )   PDF (4130KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为提高时域卷积网络(TCN)在批量大小变化时的训练稳定性,并解决间歇过程质量预测在捕捉长期依赖性和全局关联性上存在不足而导致的预测准确度不高的问题,提出一种基于批量组规范化(BGN)和Mish激活函数改进残差结构的TCN(BMTCN)与多头自注意力机制(MHSA)的间歇过程质量预测模型(BMTCN-MHSA)。首先,将间歇过程的三维数据展开为二维矩阵形式,并对数据进行归一化处理,再引入奇异谱分析法(SSA)分解重构数据;其次,在时域卷积的残差部分融入BGN以降低网络模型在批量大小变化时的敏感度,引入Mish激活函数以提高模型的泛化能力,并利用多头自注意力机制对序列中不同位置的特征信息进行关联和权重分配,从而进一步提取序列中的关键特征信息和相互依赖关系,进而更好地捕捉间歇过程的动态特征;最后,使用青霉素仿真实验数据进行实验验证。实验结果表明,相较于TCN模型,BMTCN-MHSA模型的平均绝对误差(MAE)降低了56.86%,均方误差(MSE)降低了48.80%,而决定系数(R2)达到了99.48%,这表明BMTCN-MHSA模型提高了间歇过程质量预测的准确性。

    基于聚类多变量时间序列模型的交通状态实时预测
    郭书君, 任卫军, 陈倩倩, 游广飞
    2025, 45(7):  2253-2261.  DOI: 10.11772/j.issn.1001-9081.2024070956
    摘要 ( )   HTML ( )   PDF (2758KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的交通状态预测模型不能有效应对高速公路交通状态的模糊性以及模型训练后不能有效使用实时数据流的问题,提出基于聚类的多变量时间序列交通状态实时预测模型。首先,在分析交通流参数后,构建基于改进的模糊C均值(FCM)算法与熵权法的分类模型对交通状态进行模式定义并设定分类标准,并采用状态指数(SI)指标解决分类边界模糊问题;其次,在分类模型的基础上构建多变量时间序列预测模型,该模型结合卷积网络和注意力机制,能有效地捕捉时间序列数据的长短期依赖关系;然后,利用反向传播更新机制进行在线学习,从而实现预测过程的实时化;最后,将模型在加州交通管理中心性能监控系统(PeMS)数据集上进行测试,把数据集按时间顺序分为训练集、验证集和测试集,并模拟实时数据流进行在线学习和预测。实验结果表明,预测步长为6时,与经典的LightTS(Light Sampling-oriented MLP Structures)模型相比,所提模型的均方误差(MSE)和平均绝对误差(MAE)分别降低了22.81%和14.64%。可见,所提模型能够有效区分交通状态等级,并实现交通状态的实时预测。

    基于分段注意力机制的时间序列预测模型
    王慧斌, 胡展傲, 胡节, 徐袁伟, 文博
    2025, 45(7):  2262-2268.  DOI: 10.11772/j.issn.1001-9081.2024070929
    摘要 ( )   HTML ( )   PDF (831KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对时间序列分段后存在因采样间隔增大而导致的长期预测过程中局部依赖关系丢失的情况,提出一种基于分段注意力机制的时间序列预测模型(SAMformer)。首先,显式地将时间静态协变量与原始数据按比例融合,以增强数据的时域信息表征能力;其次,同时引入两个连续的带偏置的线性层和一个激活函数来微调融合数据,从而提高模型对非线性数据的拟合能力;然后,在分段序列的每个段内引入点积注意力机制,以便捕获局部特征依赖关系;最后,利用跨尺度依赖的编码器-解码器架构预测时序数据。所提模型在公开的5个时间序列数据集上的实验结果表明,相较于Crossformer、 Pyraformer和Informer等其他监督学习时序预测模型,SAMformer的均方误差(MSE)和平均绝对误差(MAE)分别降低了2.0%~62.0%和0.9%~49.8%。此外,通过消融实验验证了所提不同组件的完备性和有效性,进一步说明了融合时域信息和段内注意力机制有助于提高时间序列预测的精度。

    基于粒球原型网络的小样本图像分类方法
    白瑞峰, 苟光磊, 文浪, 缪宛谕
    2025, 45(7):  2269-2277.  DOI: 10.11772/j.issn.1001-9081.2024071008
    摘要 ( )   HTML ( )   PDF (1764KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对小样本学习中训练数据稀少以及单一距离度量无法全面衡量样本之间关系的问题,提出一种基于粒球原型网络(GBProtoNet)的小样本图像分类方法。首先,将粒球算法(Ball k-means)应用于查询集,并通过自适应更新迭代得到查询集类别信息,之后将这些信息与原型网络(ProtoNet)结合,构造具有查询集与支持集信息的粒球原型,从而缓解训练数据量少的问题;其次,在GBProtoNet特征提取后,设计一个特征筛选模块用于提取样本的重要信息,利用Ball k-means算法得到查询集各类的簇心,并把它们与初始原型进行加权融合,以构造更具代表性的粒球原型;再次,计算初始查询集样本与粒球原型的欧氏距离与余弦距离,并将二者相乘得到综合考量的距离,从而使样本间距离的度量更全面;最后,按照最邻近分配原则,将查询集样本分配给所属类别。实验结果表明,在MiniImageNet和TieredImageNet数据集的5-way 1-shot和5-way 5-shot的图像分类任务中,相较于基线模型ProtoNet,所提方法在MiniImageNet数据集上分类准确率分别提升了6.18%和3.85%,而在TieredImageNet数据集上分别提升了6.89%和3.57%。并且,所提方法在MiniImageNet数据集5-shot图像分类任务上所需时间成本比SSL-ProtoNet (Self-Supervised Learning Prototypical Network)减少了72.6%。可见,所提方法在有效提高小样本图像分类准确度的同时具有高效性。

    网络空间安全
    基于云的条件广播代理重加密方案
    李滨瀚, 邓伦治, 刘欢
    2025, 45(7):  2278-2287.  DOI: 10.11772/j.issn.1001-9081.2024070989
    摘要 ( )   HTML ( )   PDF (1578KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对代理重加密(PRE)方案中普遍存在的云服务器权限的滥用问题,以及现有的条件代理重加密(CPRE)方案在多接收者、安全性和计算成本上的局限,提出一个基于证书的条件广播代理重加密(CB-CBPRE)方案。该方案中,数据拥有者在生成可转换密文和重加密密钥时设置一个访问条件,云服务器仅在条件匹配时才能生成有效的重加密密文,从而防止云服务器滥用权限,而向未授权用户提供重加密密文。该方案的安全性为判定性迪菲赫尔曼(DDH)问题,并在随机预言模型(ROM)下证明该方案密文具有不可区分性。实验结果表明,当接收者数量为50时,与基于身份的广播代理重加密(IB-BPRE)方案、隐私保护代理重加密(PP-PRE)方案、可撤销的基于身份的广播代理重加密(RIB-BPRE)方案和多通道的广播代理重加密(MC-BPRE)方案这4个方案相比,CB-CBPRE的计算时间分别缩短了73%、83%、87%和92%,通信数量分别减少了66%、90%、77%和66%,加密效率得到有效提升。

    基于命名实体识别的大规模物联网二进制组件识别
    张立孝, 马垚, 杨玉丽, 于丹, 陈永乐
    2025, 45(7):  2288-2295.  DOI: 10.11772/j.issn.1001-9081.2024070918
    摘要 ( )   HTML ( )   PDF (1953KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患。因此,识别IoT固件中的二进制组件对于确保IoT设备的安全性至关重要。针对现有方法难以大规模识别二进制组件的问题,提出一种基于命名实体识别(NER)的大规模IoT二进制组件识别方法。首先,通过固件解压提取固件内部的二进制组件;然后,通过可读字符串提取和组件执行这两个方式获取组件的语义信息;最后,利用RoBERTa-BiLSTM-CRF的NER模型识别组件名和版本号。在12个流行的IoT生产商发布的6 575个固件上的实验结果表明,所提方法获得了87.67%的F1值,可成功识别163个二进制组件。可见,该方法有效扩大了IoT固件中二进制组件的识别范围,有助于从软件供应链的角度保障固件安全。

    基于Tsransformer-GCN的源代码漏洞检测方法
    梁辰, 王奕森, 魏强, 杜江
    2025, 45(7):  2296-2303.  DOI: 10.11772/j.issn.1001-9081.2024070998
    摘要 ( )   HTML ( )   PDF (2132KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的基于深度学习的源代码漏洞检测方法存在目标代码语法和语义缺失严重以及神经网络模型对目标代码图点(边)权重分配不合理等问题,提出一种基于代码属性图(CPG)与自适应图卷积网络(AT-GCN)的源代码漏洞检测方法VulATGCN。该方法使用CPG对源代码进行表征,结合CodeBERT进行节点向量化,并通过图中心性分析提取深层次结构特征,从而多维度地捕捉代码的语法和语义信息。之后,结合Transformer自注意力机制善于捕捉长距离依赖关系和图卷积网络(GCN)善于捕捉局部特征的优势设计AT-GCN模型,从而实现对不同重要性区域特征的融合学习和精确提取。在真实漏洞数据集Big-Vul和SARD上的实验结果表明,所提方法VulATGCN的平均F1分数达到了82.9%,相较于VulSniper、VulMPFF和MGVD等基于深度学习的漏洞检测方法提高了10.4%~132.9%,平均提高约52.9%。

    先进计算
    融入限制反向学习与柯西-高斯变异的蜣螂优化算法
    杨志龙, 邹德旋, 李灿, 邵莹莹, 马乐杰
    2025, 45(7):  2304-2316.  DOI: 10.11772/j.issn.1001-9081.2024060778
    摘要 ( )   HTML ( )   PDF (1670KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对蜣螂优化(DBO)算法中存在的收敛速度慢、精度不高以及容易陷入局部最优的问题,提出一种融入限制反向学习与柯西-高斯变异的蜣螂优化算法(SI-DBO)。首先,用Circle映射初始化种群,以使种群的分布更加均匀和具有多样性,从而提升算法的收敛速度和寻优精度;其次,使用限制反向学习对蜣螂的位置进行更新,以提升蜣螂的搜索能力;最后,使用柯西-高斯变异策略帮助种群逃逸出局部最佳位置并寻找全局最佳位置。为了验证SI-DBO的性能,在测试函数上进行仿真实验并对实验结果进行Wilcoxon秩和检验,而且将该算法用于求解机器人夹持器问题。实验结果表明,与黑寡妇-蜣螂优化算法(BWDBO)和麻雀搜索算法(SSA)相比,SI-DBO在测试函数上均获得了较高的寻优精度和收敛速度,同时,SI-DBO在求解机器人夹持器问题时的效果优于粒子群优化(PSO)算法,验证了SI-DBO具有更好的寻优性能和工程实用性。

    大范围复杂环境下多无人机的快速全自主探索方法
    李姝, 刘国庆, 李思远, 秦耀昌
    2025, 45(7):  2317-2324.  DOI: 10.11772/j.issn.1001-9081.2024060868
    摘要 ( )   HTML ( )   PDF (3758KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对当前多无人机(Multi-UAV)系统在探索大范围复杂环境时存在探索效率低下和在通信带宽受限下的信息交换问题,提出一种适用于在大范围复杂环境下的Multi-UAV快速全自主探索方法,包括一种快速的分层探索策略和一种轻量级大规模环境建模方法。首先,在前端轨迹规划部分生成闭式视点以驱动无人机(UAV)进行未知探索;其次,在后端将平滑、连续和时间最优的轨迹优化问题转化为一个凸优化问题,并对该问题进行系统建模;同时,在环境表征方面,使用随机映射的方法进行轻量化建图以及地图数据交互;最后,在仿真中,与使用增量边界信息和分层规划的快速探索方法FUEL(Fast Unmanned aerial vehicle ExpLoration)、基于边界的快速探索方法FBE(Frontier-Based Exploration)以及基于下一个最佳视点的探索方法NBVP(Next Best View Planner)进行对比实验。结果表明,所提方法在探索时间方面的性能分别提高了14.4%、43.9%和47.7%,而轻量化建图方法在数据量上比贝叶斯(Bayesian)方法和多面体(Polyhedron)方法分别减少了28.3%和22.4%。可知所提方法可以高效地在大规模复杂环境下进行快速全自主探索。

    多媒体计算与计算机仿真
    基于多视角信息的行人检测算法
    刘皓宇, 孔鹏伟, 王耀力, 常青
    2025, 45(7):  2325-2332.  DOI: 10.11772/j.issn.1001-9081.2024070961
    摘要 ( )   HTML ( )   PDF (2996KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的多视角行人检测算法中因目标遮挡严重以及未关注多视角之间关系而导致的错检和漏检等问题,提出一种基于MVDeTr(MultiView Detection with shadow Transformer)算法改进的多视角行人检测算法。首先,在特征提取阶段,设计一个视角特征增强模块VEM(View Enhancement Module),通过关注不同视角之间的关系实现对重要视角的增强;其次,在将多视角信息引入单视角的过程中,加入高效多尺度注意力(EMA)模块建立短距离和长距离依赖关系,从而提升检测效果;最后,在原始基线算法Shadow Transformer模块的基础上,设计一种新的多视角信息处理模块EST(Efficient Shadow Transformer),在保持检测效果的基础上减少多视角中冗余信息的使用。实验结果表明,在Wildtrack数据集上与原始MVDeTr算法相比,所提算法的主要检测指标MODA(Multiple Object Detection Accuracy)提升了1.8个百分点,检测指标MODP(Multiple Object Detection Precision)提升了0.6个百分点,召回率提升了1.8个百分点。可见,所提算法能很好地应用于多视角行人检测任务。

    复杂场景下跨层多尺度特征融合的安全帽佩戴检测算法
    陈亮, 王璇, 雷坤
    2025, 45(7):  2333-2341.  DOI: 10.11772/j.issn.1001-9081.2024070999
    摘要 ( )   HTML ( )   PDF (4986KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为了解决施工场景下安全帽佩戴检测时,由于人员密集、遮挡和复杂背景等原因造成的小目标漏检和错检的问题,提出一种基于YOLOv8n的双重注意力机制的跨层多尺度安全帽佩戴检测算法。首先,设计微小目标检测头,以提高模型对小目标的检测能力;其次,在特征提取网络中嵌入双重注意力机制,从而更加关注复杂场景下目标信息的特征捕获;然后,将特征融合网络替换成重参数化泛化特征金字塔网络(RepGFPN)改进后的跨层多尺度特征融合结构S-GFPN (Selective layer Generalized Feature Pyramid Network),以实现小目标特征层信息和其他特征层的多尺度融合,并建立长期的依赖关系,从而抑制背景信息的干扰;最后,采用MPDIOU(Intersection Over Union with Minimum Point Distance)损失函数来解决尺度变化不敏感的问题。在公开数据集GDUT-HWD上的实验结果表明,改进后的模型比YOLOv8n的mAP@0.5提升了3.4个百分点,对蓝色、黄色、白色和红色安全帽的检测精度分别提升了2.0、1.1、4.6和9.1个百分点,在密集、遮挡、小目标、反光和黑暗这5类复杂场景下的可视化检测效果也优于YOLOv8n,为实际施工场景中安全帽佩戴检测提供了一种有效方法。

    基于改进YOLOv8的航拍无人机小目标检测模型
    范博淦, 王淑青, 陈开元
    2025, 45(7):  2342-2350.  DOI: 10.11772/j.issn.1001-9081.2024070946
    摘要 ( )   HTML ( )   PDF (4318KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对当前无人机(UAV)视角下小目标检测性能低以及漏检和误检的问题,提出基于YOLOv8改进的BDS-YOLO (BiFPN-Dual-Small target detection-YOLO)模型。首先,使用RepViTBlock(Revisiting mobile CNN from ViT perspective Block)与EMA(Efficient Multi-scale Attention)机制构造C2f-RE (C2f-RepViTBlock Efficient multi-scale attention)从而改进骨干网络中深层的C2f (faster implementation of CSP bottleneck with 2 Convolutions)模块,提升模型对小目标特征的提取能力并降低参数量;其次,使用双向特征金字塔网络(BiFPN)重构颈部网络,从而使不同层级的特征得以相互融合;然后,在改进颈部网络的基础上构造双重小目标检测层,并结合浅层和最浅层特征来提高模型对小目标的检测能力;最后,引入改进损失函数Inner-EIoU (Inner-Efficient-Intersection over Union),该函数使用更合理的宽高比衡量方式并解决交并比(IoU)自身的局限。实验结果表明,改进模型在VisDrone2019数据集上相对原始模型的精确率、召回率、mAP@50、mAP@50:95分别提升了8.5、7.7、9.2和6.3个百分点,而参数量仅为2.23×106,模型大小减小了19.1%。可见,所提模型在实现一定轻量化的同时显著提升了性能。

    输电线路场景下的施工机械多目标跟踪算法
    于平平, 闫玉婷, 唐心亮, 苏鹤, 王建超
    2025, 45(7):  2351-2360.  DOI: 10.11772/j.issn.1001-9081.2024070985
    摘要 ( )   HTML ( )   PDF (11294KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在输电线路巡检任务中,采用深度学习技术实现施工机械运动的有效跟踪对智能电网建设至关重要。针对目标间遮挡干扰以及误检漏检造成的多目标跟踪性能显著下降的问题,提出一种改进YOLOv5s与优化ByteTrack相结合的多目标跟踪算法。在目标检测部分:首先,采用轻量级的Ghost卷积和SimAM构建SGC3 (SimAM and Ghost convolution with C3)模块,以提高特征利用率,并减少算法冗余计算;其次,在主干网络的深层,提出卷积引导的三重注意力模块R-Triplet(RFAConv with Triplet attention),从而利用多分支结构增强算法跨维度信息交互,并抑制不相关背景信息来提高目标的关联能力;最后,在特征融合部分添加多分支感受野模块(MRB),以利用空洞卷积扩大目标感受野,并增强多尺度目标全局特征信息的复用。在目标跟踪部分:在ByteTrack算法的基础上,根据施工机械的运动特点,提出一种自适应计算噪声尺度的NSA(Noise Scale Adaptively)卡尔曼滤波算法,以降低低质量检测框对滤波算法性能的影响;同时,在数据关联部分引入高斯平滑插值算法(GSI),从而进一步完善多目标跟踪的效果。实验结果表明,所提CRM-YOLOv5s算法的平均精度均值(mAP)达到了97.4%,与基线算法YOLOv5s相比提升了3.8个百分点,参数量和浮点运算量分别减少了0.28×106和1.8 GFLOPs,可见该算法在多种应用场景下的泛化能力更强。此外,相较于原YOLOv5s+ByteTrack跟踪算法,所提CRM-YOLOv5s算法与改进后的ByteTrack算法相结合后的多目标跟踪准确度(MOTA)提升了4.5个百分点,目标身份切换次数(IDs)减少了15,且获得了较高的推理速度,可见该算法适用于输电线路场景下施工机械的多目标跟踪任务。

    面向智能巡检的视觉模型鲁棒性优化方法
    王震洲, 郭方方, 宿景芳, 苏鹤, 王建超
    2025, 45(7):  2361-2368.  DOI: 10.11772/j.issn.1001-9081.2024070959
    摘要 ( )   HTML ( )   PDF (3821KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    输电线路的智能巡检视觉任务对电力系统的安全稳定至关重要。尽管深度学习网络在分布一致的训练和测试数据集上表现良好,但实际应用中数据分布的偏差常常会降低模型性能。为了解决这一问题,提出一种基于对比学习的训练方法(TMCL),旨在增强模型鲁棒性。首先,构建专为输电线路场景设计的基准测试集TLD-C (Transmission Line Dataset-Corruption)用于评估模型在面对图像损坏时的鲁棒性;其次,通过构建对类别特征敏感的正负样本对,提升模型对不同类别特征的区分能力;然后,使用结合对比损失和交叉熵损失的联合优化策略对特征提取过程施加额外约束,以优化特征向量的表征;最后,引入非局部特征去噪网络(NFD)用于提取与类别密切相关的特征。实验结果表明,模型改进后的训练方法在输电线路数据集(TLD)上的平均精度比原始方法高出3.40个百分点,在TLD-C数据集上的相对损坏精度(rCP)比原始方法高出4.69个百分点。

    用于胸片中硬负样本识别的双支分布一致性对比学习模型
    谢劲, 褚苏荣, 强彦, 赵涓涓, 张华, 高勇
    2025, 45(7):  2369-2377.  DOI: 10.11772/j.issn.1001-9081.2024070968
    摘要 ( )   HTML ( )   PDF (4052KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对对比学习(CL)方法在医学图像中难以区分相似胸片样本以及难以识别微小病灶的问题,提出一种双支分布一致性对比学习模型(TCL)。首先,利用inpainting和outpainting数据增强策略强化模型对肺部纹理的关注,提高模型对复杂结构的识别能力;其次,利用协同学习方法进一步增强模型对肺部微小病灶的敏感性,捕捉不同视角下的病灶信息;最后,利用Student-t分布的重尾特性,对硬负样本进行区分,以约束不同增强视图与样本之间的一致性分布,从而加强硬负样本与其他样本之间的特征关系的学习,并减小硬负样本对模型的影响。在pneumoconiosis、NIH (National Institutes of Health)、Chest X-Ray Images (Pneumonia)和COVID-19 (Corona Virus Disease 2019)这4个胸片数据集上的实验结果表明,相较于MoCo v2 (Momentum Contrastive learning)模型,TCL模型的准确性分别提高了6.14%、3.08%、0.65%和4.67%,而迁移性能在COVID-19数据集上在标签率为5%、20%和50%时分别提高了4.10%、0.61%和8.41%。此外,通过CAM(Class Activation Mapping)可视化验证了TCL模型能关注重要病理区域,验证了所提模型的有效性。

    基于卷积和Transformer神经网络架构搜索的脑胶质瘤多组织分割网络
    陶永鹏, 柏诗淇, 周正文
    2025, 45(7):  2378-2386.  DOI: 10.11772/j.issn.1001-9081.2024070977
    摘要 ( )   HTML ( )   PDF (3485KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    脑胶质瘤在磁共振成像(MRI)图像中的形状大小变化大、边界模糊且组织结构复杂,这些特点导致了脑肿瘤分割任务的挑战性,通常这种任务需要具备深厚专业知识的研究人员设计复杂定制的网络模型才能完成。这一过程不仅耗时,而且需要大量的人力资源。为了简化网络设计流程并自动获取最优的网络结构,提出一种基于卷积和Transformer神经网络架构搜索的脑胶质瘤多组织分割网络(NASCT-Net),以在构建用于多模态MRI脑肿瘤分割的网络架构的过程中,提高分割的精确度。首先,将神经架构搜索(NAS)技术应用于编码器的构建,形成可堆叠的NAS编解码模块,以自动优化适用于脑胶质瘤精准分割的网络架构;其次,在编码器底层集成基于Transformer的特征编码模块,以增强对肿瘤各组之间的相对位置和全局信息的表征能力;最后,通过构建体积加权Dice损失函数(VWDiceLoss),解决前景与背景的不平衡问题。在BraTS2019脑肿瘤数据集上与Swin-Unet等方法进行比较的实验结果表明,NASCT-Net的平均Dice相似系数(DSC)提高了0.009,同时平均Hausdorff距离(HD)降低了1.831 mm,验证了NASCT-Net在提高脑肿瘤多组织分割精度方面的有效性。

2025年 45卷 7期
刊出日期: 2025-07-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会