《计算机应用》唯一官方网站

视觉语言模型架构发展综述

刘紫权, 史旭阳, 李珂, 刘良, 朱哲维

2026, 46(6): 1703-1711. DOI: 10.11772/j.issn.1001-9081.2025060695

摘要 ( )

HTML ( )

PDF (1005KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着深度学习技术的发展，人工智能正从单模态智能向多模态智能演进。视觉语言模型（VLM）作为连接视觉与语言的关键技术，已成为核心研究领域。针对VLM的技术演进历程，系统地综述它的架构发展，并总结该领域的核心技术和最新研究进展。首先，回顾VLM从早期探索到当前蓬勃发展的演进历程，分析关键技术节点和发展趋势，进而勾勒出以“架构发展”为核心主线的VLM技术发展图谱；其次，深入剖析当前VLM的基础技术，包括围绕视觉编码器、语言编码器和跨模态融合机制构建的核心架构，以及掩码语言建模（MLM）、掩码图像建模（MIM）和对比学习（CL）等关键预训练优化目标；同时，系统梳理当前VLM预训练所依赖的主流数据集如COCO和LAION-5B等；最后，对比分析代表性VLM，以阐明模型性能与数据规模、架构创新及训练策略间的关联，并评述相关核心技术的优势与局限性，从而为相关领域研究者提供全面的VLM技术图谱，助力把握发展脉络，并为未来研究提供参考与启发。

面向多解旅行商问题的大语言模型增强蚁群优化算法

蔡泰鑫, 魏凤凤

2026, 46(6): 1712-1720. DOI: 10.11772/j.issn.1001-9081.2025050646

摘要 ( )

HTML ( )

PDF (1197KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在组合优化（CO）问题中，多解旅行商问题（MSTSP）的目标是获取一组互异的全局最优路径，在物流调度、旅游线路规划等场景具有关键价值。作为求解路径优化问题的传统方法，蚁群优化算法（ACO）存在信息素早熟收敛、质量与多样性失衡的瓶颈。针对上述挑战，提出一种面向MSTSP的大语言模型（LLM）增强蚁群优化算法（L-ACO），采用多层提示工程策略将LLM双阶段集成于传统ACO：在种子生成阶段，解析城市拓扑特征构建高质量多样化初始路径；在扰动优化阶段，针对解池路径及其统计信息生成新路径，跳出局部最优。此外，构建多维评价体系综合检验求解质量、多样性和LLM有效性。25项MSTSP基准实例上的测试结果表明，相较于传统ACO，L-ACO的结构多样性指标（SDI）提升了0.08，质量-数量综合指标（QQCI）相对提升了13%，表明L-ACO改善了传统ACO在多解场景下的收敛性。

基于知识增强大语言模型架构的政务热线问答系统

熊龙雨, 杜圣东, 史浩琛, 胡节, 杨燕, 李天瑞

2026, 46(6): 1721-1727. DOI: 10.11772/j.issn.1001-9081.2025060727

摘要 ( )

HTML ( )

PDF (990KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对当前政务热线问答（QA）系统中人工回复效率低以及传统检索增强生成（RAG）系统存在查询甄别机制不精准和意图差异识别不足等问题，提出一种基于知识增强大语言模型（LLM）架构的政务热线QA系统ChatGovt。首先，为了提高回复效率，设计整合智能问题分流和结构化反馈的系统架构，通过意图识别实现咨询类和投诉建议类等问题的分类处理；其次，为了提高系统检索知识的质量，提出多阶段语义增强的检索方法，包括历史对话总结检索、语义重排序和自我反思决策这3个阶段；最后，通过联网查询补充跨域知识，以形成政务咨询的服务闭环。实验结果表明，在检索质量上，相较于传统RAG系统，ChatGovt的查询-知识相关性、真实答案-知识相关性和知识支持度分别提升了15.0%、7.4%和24.6%；在系统整体性能上，ChatGovt的答案召回率相较于微调的GLM（General Language Model）4-9b-chat提升了55.4%，人工评价相较于商用系统“豆包”提升了27.3%。可见，该系统为政务热线QA系统的技术优化提供了可借鉴的架构与方法，能有效提升政务热线的响应效率与服务精准度，并推动政务服务的智能化转型。

掩码自编码器增强的动态异质图表示学习模型

袁浩然, 刘欢, 焦鹏飞, 赵治栋, 张显飞, 柳遵梁

2026, 46(6): 1728-1737. DOI: 10.11772/j.issn.1001-9081.2025060754

摘要 ( )

HTML ( )

PDF (1188KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现实世界网络通常由多类型实体和交互关系构成，且拓扑结构及属性随时间不断演化。这些网络所蕴含的异质性和动态性可以通过动态异质图（DHG）数据完整描述。为了解决现有DHG表示学习模型存在的时空信息融合较粗糙，及它们的监督学习范式强依赖于人工标签的问题，提出掩码自编码器（MAE）增强的DHG表示学习模型。首先，通过多层次注意力结构融合异质空间信息，并进行跨快照的时间信息聚合；其次，利用掩码自编码器的重建损失丰富节点的表示信息。实验结果表明，所提模型在多个真实世界数据集上的链路预测任务中相较于基线模型有至少1.26~3.99个百分点的受试者工作特征曲线下面积（AUC）提升。可见，所提模型为DHG表示学习提供了一个有效的自监督框架，有助于更精确地捕捉真实网络中的异质信息与动态演化规律。

基于YOLOv11的低秩自适应参数高效微调算法

杜艺, 续明进, 孔佳仪, 王力瑶, 赵晨

2026, 46(6): 1738-1745. DOI: 10.11772/j.issn.1001-9081.2025060751

摘要 ( )

HTML ( )

PDF (1691KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对复杂场景下目标检测任务中深度学习算法的泛化性和鲁棒性受限以及全参数微调（FPFT）计算成本高的问题，提出一种基于YOLOv11 （You Only Look Once version 11）的低秩自适应参数高效微调（PEFT）算法。首先，在YOLOv11的骨干和颈部网络中嵌入低秩自适应（LoRA）模块；其次，结合LoRA、权重分解低秩自适应（DoRA）和主奇异值与奇异向量自适应（PiSSA）这3种低秩分解算法，通过权重分解与动态调整机制实现参数的高效更新；最后，在训练过程中，将YOLOv11网络的绝大部分预训练权重保持冻结状态，仅对LoRA模块中由3种低秩分解算法生成的低秩矩阵进行训练，将可训练参数规模缩减至原算法的1.56%。COCO （Common Objects in COntext）数据集上的实验结果表明，所提算法相较于基线算法YOLOv11在精确度、召回率和交并比阈值为0.5时的平均精度均值（mAP）上分别提升了4.18、7.11和7.85个百分点。可见，所提算法为资源受限场景下的大型检测算法轻量化与高效微调提供了有效技术路径。

融合动态特征对齐与温度感知聚合的联邦学习框架

董汦楗, 顾瑞春

2026, 46(6): 1746-1755. DOI: 10.11772/j.issn.1001-9081.2025050661

摘要 ( )

HTML ( )

PDF (1402KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决联邦学习中非独立同分布（Non-IID）数据下统计异质性导致的模型性能退化问题，提出一种融合动态特征对齐与温度感知聚合的联邦学习框架（FedDTA）。该框架通过动态特征对齐和温度感知聚合协同优化客户端漂移，包含2个核心组件：基于切片Wasserstein距离（SWD）的动态正则化方法，利用低维蒙特卡洛投影实现局部-全局特征分布对齐，从而降低计算复杂度并抑制特征偏移；结合可学习投影网络与退火温度调度的分层聚合策略，基于参数差异动态分配客户端权重。实验结果表明，在强异质性（Dirichlet α=0.1）条件下，相较于次优的FedKTL（Federated Knowledge-Transfer-Loop）和FedCMD（Federated learning with Contrastive cloud-edge Model Decoupling），FedDTA在CIFAR-10与CIFAR-100数据集上准确率分别提升了1.698与0.714个百分点。可见，FedDTA在多数据场景下具有更优的泛化能力。消融实验结果验证了SWD对齐显著减少了特征漂移，而温度调度优化平衡了探索与利用。FedDTA框架无需暴露原始数据，能为医疗协作和工业物联网等隐私敏感场景提供了理论与技术支持。

融合多尺度小波增强与自监督学习的社交机器人检测框架

陈宇, 戚帅康, 许莉薇, 朱浩天

2026, 46(6): 1756-1766. DOI: 10.11772/j.issn.1001-9081.2025060744

摘要 ( )

HTML ( )

PDF (1266KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有社交机器人检测方法多模态特征建模不足、伪装行为难以识别及弱监督场景下泛化性欠缺的问题，提出一种融合多尺度小波增强与自监督学习的社交机器人检测框架——W2A-BotNet （Wavelet-to-Attention Bot Network）。该框架对文本语义、用户属性和社交关系构建统一的三通道表示，以缓解模态冲突；设计多尺度注意力小波神经算子模块（MAWNOBlock）对行为序列进行时频分解，捕捉周期规律与突发异常；提出多源协同融合机制，通过跨模态交互与门控实现动态语义对齐；引入基于粉丝数分布的自监督预训练，在少量标注数据的条件下加强特征表征。实验结果表明，W2A-BotNet的准确率在Cresci-15、Cresci-17与TwiBot-20数据集上相较于次优方法分别提高了0.35、4.86和2.21个百分点。可见，W2A-BotNet可有效提升社交平台上对机器人账户的识别能力，为社交网络的安全治理提供了可推广的检测框架。

基于对比不变性和强化特定性的双通道多模态情感分析模型

何运平, 王雷春, 宋芮芮, 卢祥凤, 魏金香, 刘小萌

2026, 46(6): 1767-1775. DOI: 10.11772/j.issn.1001-9081.2025060731

摘要 ( )

HTML ( )

PDF (1064KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有多模态情感分析（MSA）方法常因模态异质性及内部交互不足导致情感分析结果不准确的问题，提出一种基于对比不变性和强化特定性的双通道MSA模型（CIRS）。首先，提取文本、视频和音频数据中的特征并对齐维度；其次，对模态的不变特征进行一致性对比，通过同质图蒸馏增强模态间不变特征的相互学习，提高模态的表征一致性；再次，强化模态的特定特征，使用异质图蒸馏对模态间的特定特征进行知识迁移，实现模态间的语义空间对齐；最后，通过自注意力机制和跨模态注意力机制对不变特征和特定特征进行深度融合与预测。实验结果表明，与DLF（Disentangled-Language-Focused multimodal sentiment analysis）相比，CIRS在CMU-MOSI （Carnegie Mellon University Multimodal Opinion Sentiment Intensity）数据集上的平均绝对误差（MAE）降低了4.11%，二分类准确率（Acc-2）和F1分数均提高了1.29%；在CMU-MOSEI （Carnegie Mellon University Multimodal Opinion Sentiment and Emotion Intensity）数据集上的MAE降低了1.85%，Acc-2和F1分数分别提高了0.70%和0.94%。以上验证了CIRS在进行多模态情感分析时能够有效降低误差和提高分类的准确率。

基于梯度正交投影的动态知识图谱持续嵌入方法

王美华, 黄杰, 温雯, 蔡瑞初, 黄沛杰, 徐禹洪, 林新龙

2026, 46(6): 1776-1784. DOI: 10.11772/j.issn.1001-9081.2025060737

摘要 ( )

HTML ( )

PDF (827KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有的知识图谱（KG）嵌入模型无法适应不断增长的KG的问题，提出一种基于梯度正交投影的动态KG持续嵌入方法GOPemb （Gradient Orthogonal Projection embedding）。首先，在训练过程中将旧实体和旧关系的核心梯度空间（CGS）存储于历史快照；其次，在学习新三元组时，旧实体和旧关系的梯度更新方向被约束为与它们各自CGS的正交方向一致，从而在有效保留历史知识的同时高效地学习新知识；最后，更新旧实体和旧关系的CGS，从而为下一次的学习迭代作准备。实验结果显示，相较于对比方法中最优的IncDE （Incremental Distillation Embedding），GOPemb方法在数据集ICEWS05-15-CL、ICEWS18-CL和GDELT-CL上的MRR （Mean Reciprocal Rank）、H@3 （Top-3 Hit Rate）和H@10 （Top-10 Hit Rate）分别平均提升了9.2%、14.0%和8.0%。此外，学习效率的实验结果也验证了GOPemb方法的时间高效性，表明该方法具备高效的持续嵌入能力。

基于大语言模型重构案件信息的类案检索方法

王劲滔, 高志霖, 孟琪翔, 卜凡亮

2026, 46(6): 1785-1792. DOI: 10.11772/j.issn.1001-9081.2025050662

摘要 ( )

HTML ( )

PDF (978KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着智慧司法建设的推进，类案检索技术因为在保障司法公正性与效率性中的关键作用备受关注。然而，现有文本检索方法仍面临以下挑战：传统模型易受语义结构相似性干扰，难以精准捕捉影响判决的要素；预训练语言模型受限于输入长度，对冗长法律文本的全局语义建模不足；现有的聚合相似度评分机制易受噪声干扰，可解释性不强。针对上述问题，提出一种基于大语言模型（LLM）重构案件信息的类案检索方法。首先，利用LLM对案件文本进行信息抽取，以将案件要素、罪行适用法条描述与案件行为链组合成案件子事实，从而减少信息冗余；其次，在编码部分，设计SFA-SAILER （Selective Feature Attention & Structure-Aware pre-traIned language model for LEgal case Retrieval）编码架构；再次，通过在词与特征两个不同维度对案件信息进行深度编码，增强案件信息与编码维度间的依赖关系；最后，使用MaxSim操作符聚合相似度分数。实验结果表明，所提模型在LeCaRD （Legal Case Retrieval Dataset）上的平均精确率均值（mAP）与前3个结果的精确率（P@3）指标分别达到了67.45%和60.95%，而前K个结果的归一化折损累计增益（NDCG@K）指标也均高于对比模型。可见，所提模型可为类案检索提供兼顾法律逻辑与深度语义理解的新思路，在司法智能化应用中具有实践价值。

基于事件要素关系识别和完全子图搜索的复杂事件抽取方法

张俊驰, 张乃云, 侯群

2026, 46(6): 1793-1800. DOI: 10.11772/j.issn.1001-9081.2025050665

摘要 ( )

HTML ( )

PDF (834KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有复杂事件抽取（EE）方法在事件划分上存在的缺陷，尤其是无法处理同一触发词触发多个相同类型事件的问题，提出一种基于事件要素关系识别和完全子图搜索的复杂EE方法改进复杂事件划分的效果。首先，设计一种简洁的词对关系标签体系，包含Span关系用于识别事件要素的边界，以及事件内部（EI）关系用于表示事件要素是否属于同一事件；其次，构建单阶段词对关系识别模型，通过编码层获取文本表示，使用事件信息融合层注入事件类型信息，并在预测层使用距离感知的打分函数识别词对关系；最后，基于预测的EI关系构建无向图，设计一个递归的完全子图搜索算法划分事件要素，理论上完备地抽取所有模式的复杂事件。实验结果表明，所提方法在FewFC（Few-shot Financial Corpus）和DuEE（Dataset for Chinese EE）数据集上的复杂EE表现优于BERT-CRF-joint、PLMEE（Pre-trained Language Model for EE）和CasEE（Cascade decoding for EE）等多种基线模型，有效解决了同类型触发词触发多个相同类型事件的问题，能够较全面地抽取复杂事件。

基于Kolmogorov-Arnold网络与扩散Transformer的手语生成模型

何丽丽, 曹勐, 张磊, 潘洪军, 刘义, 孙成心

2026, 46(6): 1801-1810. DOI: 10.11772/j.issn.1001-9081.2025060730

摘要 ( )

HTML ( )

PDF (1212KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对手语生成任务中现有模型在局部信息提取方面的不足导致的生成效果模糊、细节丢失和特征分布不均匀等问题，提出一种基于Kolmogorov-Arnold网络（KAN）与扩散Transformer的手语生成模型（KDT）。首先，利用KAN非线性逼近能力拟合复杂数据分布，提高视频帧间的细节表现力与运动流畅度，解决传统多层感知机（MLP）模型生成视频模糊的问题；其次，使用对比归一化（ContraNorm）替代原有归一化，通过校准特征尺度差异解决特征分布不均匀问题，在数据质量较差和存在干扰时使模型仍能保持稳定性；最后，通过扩散Transformer通过多步迭代优化实现从随机噪声出发向目标序列的精细化演化，解决传统模型丢失细节的问题。在RWTH-Phoenix-2014T连续手语数据集验证集上的实验结果表明，与Sign-IDD （Sign-Iconicity Disentangled Diffusion）模型相比，该模型在BLEU-1（Bilingual Evaluation Understudy 1-gram）和ROUGE （Recall-Oriented Understudy for Gisting Evaluation）指标上分别提高了8.1%和5.9%，错词率（WER）指标降低了4.5%。上述结果验证了该模型在提升视频细节丰富度与手语动作流畅性方面的有效性。

面向信创数据库迁移的多知识库协同大语言模型提示框架CORER

易宇声, 黄兆豪, 邓梓昊, 孔蕾蕾, 齐浩亮

2026, 46(6): 1811-1817. DOI: 10.11772/j.issn.1001-9081.2025060745

摘要 ( )

HTML ( )

PDF (834KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

信息技术（IT）应用创新（简称“信创”）数据库迁移的主要任务是将数据结构与数据从非国产数据库平稳迁移至国产数据库。针对当前信创数据库迁移中存在的异构数据库间语法差异和业务逻辑适配复杂等挑战，提出一种面向信创数据库迁移的多知识库协同的大语言模型（LLM）提示框架CORER（Context-Objective-Rules-Examples-Response），构建覆盖199种结构化查询语言（SQL）语法规则类型且包含4 162条语法规则的openGauss SQL语法规则知识库，并融合官方模板与真实案例构建覆盖20.6%语法规则类型的迁移样例知识库。基于提示要素，在LLM上下文中注入语法规则知识与迁移样例知识，以自适应地完成对异构数据库语法、逻辑和架构特性的匹配，引导LLM精准地完成SQL语句重构。实验结果表明，CORER在MySQL到openGauss的迁移任务中的准确率达93.44%，相较于基于规则的方法提升了1.31个百分点，且在存储过程和触发器等高级特性场景中提升了7.02%，验证了CORER在信创数据库迁移场景下的综合优势。

基于图扩散生成与自适应采样的对比协同过滤方法

戚航, 董婷婷, 乃永强, 莫先

2026, 46(6): 1818-1828. DOI: 10.11772/j.issn.1001-9081.2025060729

摘要 ( )

HTML ( )

PDF (1424KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有基于图神经网络（GNN）的协同过滤方法在数据稀疏和噪声场景下存在的静态噪声注入易掩盖真实信号、固定语义原型难以捕捉用户的动态兴趣以及复杂增强方法计算开销大等问题，提出一种基于图扩散生成与自适应采样的对比协同过滤方法。首先，设计基于渐进去噪的轻量级图扩散生成机制，通过前向加噪和反向去噪优化节点表示，生成抗噪性强的对比视图；其次，结合随机掩码与重启随机游走算法（RWR），协同建模局部邻域特征与全局结构语义，生成高质量的负样本；最后，通过改进的InfoNCE （Information Noise Contrastive Estimation）损失函数优化多视图对比学习目标，并提升表征的判别性。在Gowalla、Yelp和Amazon数据集上，所提方法的前20个结果的召回率（Recall@20）指标较最优的基线方法分别提升了0.63%、1.36%和1.88%，前40个结果的归一化折损累计增益（NDCG@40）指标分别提升了0.95%、1.47%和1.24%，长尾用户的推荐效果提升了26.7%，训练效率提升了90%且收敛速度提升了32%。可见，该方法显著提升了开放环境下推荐系统的抗噪性与动态适应性。

面向数据稀疏性与冷启动问题的服务质量预测模型

李冰清, 黄彬浩, 唐语蓓, 张柏礼

2026, 46(6): 1829-1835. DOI: 10.11772/j.issn.1001-9081.2025060675

摘要 ( )

HTML ( )

PDF (1014KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对万维网（Web）服务质量（QoS）预测中因用户与服务节点连接少而产生的数据稀疏性问题，以及历史调用数据空缺引发的冷启动问题，提出一种面向数据稀疏性与冷启动问题的QoS预测模型。首先，采用随机传播策略，通过随机丢弃节点生成多个增广图进行传播，实现数据增强；同时，采用一致性正则化方法优化多次增广间的预测一致性，缓解数据稀疏性现象；其次，提出多因子相似度计算方法，结合节点随机丢弃构建用户和服务上下文子图；最后，引入图对比学习对各子图进行训练，使相似节点的上下文嵌入表示距离更近，缓解冷启动现象。实验结果表明，与现有的QoS预测模型相比，该模型在0.5%~4.0%的各数据密度场景中均保持较优性能。可见，该模型在理论上为图随机神经网络处理稀疏数据提供了新范式，并且在应用中可提升社区智能管理和电子商务等平台的服务推荐精度，降低服务调用的试错成本。

基于自适应学习的多层次邻域对比属性图聚类

王静红, 陈潇, 马迎梅, 李笔, 米据生, 王威

2026, 46(6): 1836-1843. DOI: 10.11772/j.issn.1001-9081.2025050647

摘要 ( )

HTML ( )

PDF (873KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在近期的图聚类研究中，深度图聚类方法表现优异；然而，现有的深度图聚类方法多数基于自编码器框架，容易受到重建策略和图增强策略的影响。因此，提出一种基于对比学习的深度图聚类方法——基于自适应学习的多层次邻域对比属性图聚类（MNCGC）。首先，设计一种双重掩蔽策略生成自适应增广图，结合节点重要性生成边权重，即边屏蔽概率，并对节点特征设置固定屏蔽概率，进行节点特征屏蔽，去除图中的冗余信息，为邻域对比学习提供丰富的样本对；其次，将边权重引入邻域对比学习，以对原图和增广图使用加强邻域对比学习并把它们应用于编码级和投影级，从而强调局部信息学习和全局高级语义信息学习；最后，采用自监督聚类与编码级表示相互促进，进一步提升聚类效果。在3个基准数据集（Cora、CiteSeer和全文PubMed）上的实验结果表明，相较于14种先进方法，MNCGC方法的准确率、标准互信息（NMI）、调整兰德指数（ARI）以及F1分数在大多数情况下都取得了最优值，充分验证了所提方法的有效性。

多视图一致性驱动的鲁棒特征选择方法

许雪, 樊虎, 王彦丹, 丁雪, 高雪峰, 张博, 刘博, 金蓓弘

2026, 46(6): 1844-1854. DOI: 10.11772/j.issn.1001-9081.2025060685

摘要 ( )

HTML ( )

PDF (884KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

从高维复杂的工业数据中精准识别关键特征对于生产过程异常监测具有重要意义。针对现有特征选择算法面对噪声扰动难以建模数据复杂内在结构的问题，提出一种多视图一致性驱动的鲁棒特征选择方法（MCR）。首先，提出一种结构保持的一致性引导去噪机制，以通过多视图协同建模与不一致性区域检测，有效剔除局部噪声干扰，并提升原始数据的结构保真性与数据完整性；其次，构建联合判别与一致性驱动的特征融合模块，学习高质量的多视图嵌入表示与特征权重矩阵，从而提升对关键特征维度的感知能力；最后，引入一种基于协同稀疏正则化的特征选择机制，从融合后的嵌入空间中筛选出一个最具判别力和结构一致性的特征子集。该方法无需依赖标签信息，通过多视图协同建模与一致性驱动优化，实现对关键特征维度的感知与选择。在多个公开基准数据集以及一个真实的卷烟生产过程数据集上的大量实验结果表明，MCR在多个分类任务中相较于高效的二值马群优化算法（BinHOA）和二值化Jaya算法（IBJA）等现有的主流方法的分类准确率提升达0.23~12.15个百分点，在实际工业数据集上的分类准确率提升达2.22~5.00个百分点，验证了该方法在复杂场景下的鲁棒性与有效性。

引入聚类系数的图神经网络节点分类模型

张雅淞, 丛碧辉, 许爽

2026, 46(6): 1855-1862. DOI: 10.11772/j.issn.1001-9081.2025060793

摘要 ( )

HTML ( )

PDF (1115KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对图注意力网络（GAT）模型在节点分类任务中存在的结构不公平性和分类不准确问题，提出一种引入聚类系数的图神经网络（GNN）节点分类模型GATcc（GAT with clustering coefficient）。首先，通过引入邻居节点的聚类系数作为结构信息，结合可训练的权重参数，增强拓扑结构在注意力机制中的表达能力；其次，采用特征缩放优化节点嵌入，并加入残差连接以减轻特征过平滑的风险。在6个真实数据集上的实验结果表明，该模型的分类准确率超过图同构网络（GIN）和GOAT（Graph Ordering Attention Network）等主流模型。例如，相较于基线模型GAT，所提模型的分类准确率在Cora数据集上提升了4.03个百分点，结构性偏差从0.31%降低到0.11%，而孤立节点的分类准确率提升了3.69个百分点。综上，所提模型不仅在分类性能上取得了显著提升，还在结构公平性与稳定性方面展现出优越性。

基于动态加权集成的时序预测模型

刘新如, 刘松华, 祁露莎, 孟耀飞

2026, 46(6): 1863-1871. DOI: 10.11772/j.issn.1001-9081.2025060707

摘要 ( )

HTML ( )

PDF (889KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有时间序列预测方法在数据分布快速变化时适应性不足且难以平衡预测精度与时空开销的问题，提出一种基于动态加权集成的时序预测模型TFEM（Time-Frequency Ensembled Model）。首先，在时域模块中设计低秩自注意力（LRSA）机制，通过将高维特征投影至低维空间计算注意力，在降低复杂度的同时保持长程依赖建模；同时，在频域模块中将信号分解为主导频率分量和非平稳残差，分别建模全局趋势与局部突变，提升对复杂时序的建模能力；最后，在集成层面提出长短期谐衡加权机制，其中长期权重通过递归更新稳健捕捉全局趋势，短期权重借助多层感知机（MLP）及时响应数据分布的突变，并结合平滑因子抑制权重的剧烈波动。实验结果表明：与在线集成的模型OneNet （Online Network）相比，TFEM在7个基准数据集上的均方误差（MSE）降低了6.4%~44.8%，平均绝对误差（MAE）降低了2.8%~17.6%；且在ETTh1数据集上的参数量减少了69.4%，推理时间减少了50.5%。可见，TFEM在提升预测精度的同时能够降低计算开销，为资源受限场景下的时序预测提供了可行方案。

基于广义相关熵损失函数Transformer模型的环境电场强度时序预测

丰文君, 宋欣蔚, 岳云涛

2026, 46(6): 1872-1880. DOI: 10.11772/j.issn.1001-9081.2025050560

摘要 ( )

HTML ( )

PDF (11588KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

预测环境中电磁辐射的时间序列对公众健康防护、电子设备的电磁环境适应性具有重要意义。针对环境电场强度时间序列的高波动性导致离群点较多、干扰模型训练的问题，提出基于广义相关熵损失函数的Transformer （GCL-Transformer）模型。该模型通过核映射对误差进行非线性加权，兼具均方误差（MSE）的梯度平滑性和平均绝对误差（MAE）的异常值鲁棒性，可以有效削弱离群点对模型训练的干扰。在北京市3个典型的电磁暴露监测点采集数据，通过多组跨时间尺度预测实验进行验证，并与传统Transformer模型、变体TOEformer（Temporal-Optimized Enhanced Transformer）模型和长短时记忆（LSTM）模型进行对比。实验结果表明，GCL-Transformer模型在预测精度上显著优于对比模型。在预测间隔为1 h的短期任务中，GCL-Transformer的均方根误差（RMSE）为0.090 6 V/m，相较于传统Transformer模型（0.130 7 V/m）降低30.6%；且随着预测间隔延长至72 h，它的误差增长最慢（RMSE仅从0.090 6 V/m增至0.123 4 V/m），展现了优异的长期预测稳定性。

基于类激活映射的空频协同对抗样本生成方法

舒尔豪, 涂国庆, 刘树波

2026, 46(6): 1881-1892. DOI: 10.11772/j.issn.1001-9081.2025060701

摘要 ( )

HTML ( )

PDF (3908KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有图像对抗样本生成方法仅在单一域执行全局无差别变换，导致攻击成功率和对抗样本可迁移性受限的问题，提出一种基于类激活映射（CAM）的空频协同对抗样本生成方法（SFC-CAM）。首先，通过CAM量化图像区域的敏感度，依据热力阈值将图像划分为高敏感目标区域与低敏感背景区域，实现输入图像自适应分区（AP）；其次，分别基于高敏感目标区域和低敏感背景区域实施空间域的通道重采样与逐块随机缩放（CR-BRS）和频率域的基于离散余弦变换（DCT）的频谱随机掩蔽（DCT-SRM）；最后，以协同变换后图像的平均梯度迭代生成对抗样本。在ImageNet数据集上的实验结果表明，以Inception-v3为源模型时，相较于基准方法图像通道增强攻击方法（CAAM）和频谱模拟攻击（SSA），SFC-CAM的平均攻击成功率分别提升3.4和10.4个百分点；相较于所提出的单域对抗攻击方法CR-BRS和DCT-SRM，SFC-CAM的平均攻击成功率分别提升15.9和19.7个百分点。以上验证了SFC-CAM能够增强模拟模型决策边界的多样性，从而实现模型增强，并提高对抗样本的黑盒攻击成功率和可迁移性。

亮度对比度扰动下的图像篡改定位检测网络

喻小芹, 单武扬, 邱骏颖, 林宇, 杨容浩, 田茂

2026, 46(6): 1893-1903. DOI: 10.11772/j.issn.1001-9081.2025050655

摘要 ( )

HTML ( )

PDF (1523KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

数字图像篡改检测在数字取证和媒体内容验证等领域具有重要意义。然而，实际应用中篡改图像经常经历亮度和对比度等后处理操作，这会削弱篡改痕迹并降低现有算法的检测性能。针对这一问题，提出一种恢复辅助的图像篡改定位检测网络ReConWave-Net。该网络包含2个关键模块：分类引导的图像恢复模块用于根据图像扰动类别针对性地恢复图像，以减弱亮度和对比度扰动的影响；篡改定位模块则通过多尺度小波特征和对比学习机制，增强篡改区域的特征表达和定位能力。在多个数据集上及若干亮度和对比度扰动下评估所提网络的结果表明，在篡改区域恢复质量方面，相较于未恢复的后处理图像，所提网络将平均峰值信噪比（PSNR）由10.86 dB提高至31.57 dB，将平均结构相似性指标（SSIM）由0.40提高至0.92；在检测性能方面，典型扰动下的F1分数为0.730，而交并比（IoU）为0.653。可见，将针对性恢复与检测相结合可显著提升对后处理图像的篡改定位鲁棒性。

融入决策代价约束的智能推荐模型及拉格朗日求解算法

叶锦鹏, 刘久兵, 陈子星, 刘佳欣, 刘盾, 徐标

2026, 46(6): 1904-1912. DOI: 10.11772/j.issn.1001-9081.2025060736

摘要 ( )

HTML ( )

PDF (846KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有智能推荐未考虑决策代价约束的问题，提出一种融入决策代价约束的智能推荐模型及拉格朗日求解算法。首先，基于用户-项目评分矩阵，采用SVD++（Singular Value Decomposition Plus Plus）模型预测用户对项目的未知评分；其次，依据预测评分，构建在决策代价与分布多样性约束下的智能推荐单目标优化模型；再次，将分布多样性约束松弛至目标函数中，以建立决策代价约束下的拉格朗日松弛模型；最后，设计基于贪心策略的对偶次梯度算法，以实现所构建拉格朗日松弛模型的高效求解。在MovieLens数据集上的实验结果表明：与Gurobi求解器相比，所提算法在目标函数值仅降低不超过0.694%的情况下，求解耗时显著降低了至少90.317%；与LightGCN（Light Graph Convolution Network）方法相比，所建模型在全部测试样例上推荐准确性均获提升，分布多样性在77.8%的样例上得以改善。以上充分验证了所提模型与求解算法在效率与性能方面的综合优势。

基于指派活动冲突图节点预测的机场停机位分配算法

卢敏, 周辉

2026, 46(6): 1913-1921. DOI: 10.11772/j.issn.1001-9081.2025060684

摘要 ( )

HTML ( )

PDF (844KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对大型枢纽机场停机位预分配问题在航班数量、机位布局和分配规则动态变化背景下，现有方法难以兼顾求解效率、分配质量和泛化性的挑战，提出一种基于指派活动冲突图节点预测的机场停机位分配算法。首先，建立以最大化靠桥率与最大化累计软偏好为优化目标的停机位分配模型；其次，采用场面分区策略筛选可行的机位指派活动，构建相应的指派活动冲突图，设计基于节点-边协同更新的图神经网络（NECU-GNN），并设计基于NECU-GNN的节点预测模型（NECU-GNN4NP）；最后，设计基于NECU-GNN4NP引导排序的最大加权独立集算法（MWISA）以求解指派活动冲突图的最优指派活动集合，得到停机位分配解方案。基于深圳宝安国际机场数据的实验结果表明，在低峰期、普通和高峰期这3种场景下，与深圳宝安国际机场的目前最优分配方案相比，所提算法的靠桥率分别提升了4.2、4.3和3.1个百分点，累计软偏好分别提高了38.1%、30.3%和42.8%，求解时间分别减少了65.3%、39.1%和41.4%。此外，基于银川河东国际机场数据的迁移实验结果表明，所提算法能够快速迁移应用到其他机场。可见，所提算法不仅能高效与高质量地进行停机位分配，而且具有良好的泛化性。

求解绿色批加工调度问题的多层教学优化算法

郑友莲, 崔樱堃, 雷德明, 王静

2026, 46(6): 1922-1930. DOI: 10.11772/j.issn.1001-9081.2025050652

摘要 ( )

HTML ( )

PDF (820KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对纺织工厂染色车间里考虑重染工序的绿色并行批处理机（BPM）调度问题，提出一种多层教学优化（MTLBO）算法，以最小化最大完成时间、总能耗和总加权提前/拖期成本。首先，运用启发式规则生成初始种群提升初始解质量；其次，采用多层结构将种群划分为教师组、精英班和普通班这3层，并设计高效的层间通信机制，促进信息共享与知识传承；最后，为了增强种群探索能力，防止算法陷入局部最优，引入一种基于概率模型的多样性增强算子替换停滞解。基于工业数据生成测试实例评估MTLBO的性能，并将它与自适应混合蛙跳算法（ASFLA）、多目标人工蜂群（MOABC）算法、模糊遗传算法（FGA）和非支配排序遗传算法Ⅱ（NSGA-Ⅱ）等算法进行比较。实验结果表明，MTLBO的非劣解集的支配关系平均提高81.92%，覆盖度指标平均提高97.58%，且在收敛性指标平均减低99.66%，以上验证了MTLBO在优化调度指标上的更强寻优能力和更高稳定性，为实际生产决策提供了兼具鲁棒性与优化效能的调度方案。

基于Backstepping的全驱动级联严格反馈非线性系统的规定时间控制

张瑞成, 周立桐, 马寅洲, 梁卫征

2026, 46(6): 1931-1935. DOI: 10.11772/j.issn.1001-9081.2025050650

摘要 ( )

HTML ( )

PDF (572KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对全驱动级联严格反馈非线性系统的规定时间控制问题，目前尚未无相关深入研究，而此类系统广泛应用于导弹制导、导弹拦截和航天器姿态控制等领域。为此，提出一种基于Backstepping控制策略的规定时间控制器设计方法。该方法结合反推思想和非缩放设计方法，即不缩放系统状态，并直接设计虚拟控制律来构造控制器；通过系统Lyapunov函数的变化率分析，采用反证法证明所设计控制器的稳定性，从而确保系统的所有状态在规定时间内收敛至零。该规定时间与系统的初始条件完全无关，并可根据实际需求在物理限制范围内灵活设定。仿真实例结果验证了所提控制器的有效性和适用性。

基于轻量残差与亮度感知动态特征融合的低光图像增强网络

朱松浩, 赵芝芸, 王梦灵

2026, 46(6): 1936-1946. DOI: 10.11772/j.issn.1001-9081.2025050653

摘要 ( )

HTML ( )

PDF (5227KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对低光图像常存在亮度不足、噪声大、细节丢失和颜色失真等问题，进而显著降低视觉质量，阻碍后续视觉任务的执行的事实，提出一种基于轻量残差与亮度感知动态特征融合的低光图像增强（LLIE）网络（LRBDU-Net）。首先，在编码阶段，设计一种基于轻量残差结构的特征提取（LRFE）模块，以缓解下采样过程造成的特征信息丢失，并提高对低光图像特征的提取能力；其次，在编解码过渡阶段，设计一种基于亮度感知的深层语义特征处理（BDSP）模块，以增强网络对低光图像亮度分布的感知和恢复能力；再次，在解码阶段，采用轻量级动态特征融合（DFF）机制，提升跳跃连接特征与上采样特征的融合效果，从而提高网络对低光图像的噪声抑制和细节恢复能力；继次，提出一种基于感知-颜色的混合损失函数（PCH），从而进一步提高LLIE的结构一致性与色彩还原度；最后，采用分组卷积与Ghost卷积的组合结构（GpGh）对网络进行轻量化设计，从而在保证LLIE质量的同时降低网络复杂度。实验结果表明，所提网络在LOL （LOw-Light）系列数据集（LOL-v1、LOL-v2-real和LOL-v2-syn）上的峰值信噪比（PSNR）分别达到了23.71 dB、21.46 dB和24.80 dB，结构相似性指数（SSIM）分别达到了0.852、0.863和0.933。整体上，该网络采用纯卷积算子架构与轻量化设计，与轻量级深度曲线估计方法——零参考深度曲线估计（Zero-DCE）网络相比，在LLIE质量方面实现了显著的提升；与基于注意力机制的LLIE生成对抗网络EnGAN（Enlighten Generative Adversarial Network）和基于Transformer架构的LLIE方法LLFormer（Low-Light Transformer）相比，在保证LLIE性能的同时大幅降低了网络复杂度和推理计算开销。可见，所提网络能够在亮度提升、噪声抑制、细节恢复、结构完整性和色彩还原程度等LLIE性能与网络计算效率之间实现良好平衡。

基于频域驱动及扩散融合的声纳图像增强算法

姚力挽, 刘海龙, 曾张帆

2026, 46(6): 1947-1955. DOI: 10.11772/j.issn.1001-9081.2025060678

摘要 ( )

HTML ( )

PDF (2246KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对复杂海洋环境中声纳图像存在的对比度低、噪声干扰严重以及分辨率受限等问题，现有算法多局限于像素空间处理，导致在特征提取方面存在不足，为此提出一种基于频域驱动及扩散融合的声纳图像增强算法（FDSIE），以利用图像的频域特征增强图像。具体地，该算法主要包含3个部分：紧凑特征提取网络（CFEN）、频域扩散模块（FDDM）和频率恢复融合模块（FRFM）。首先，设计CFEN对通道冗余特征进行优化压缩，从而有效压制海洋湍流与声学伪影等所带来的干扰；其次，结合FDDM，其中扩散生成子模块对图像进行训练、推理和重建，选择性注意力特征增强模块（SAFE）在保持关键信息完整性的同时提升推理速度并降低计算资源消耗，提升生成图像的精确度；最后，FRFM通过自适应融合图像低频与对角线方向信息，强化水平及垂直边缘细节的表征能力，最终获得更清晰的目标轮廓及细节纹理。在公开的声纳数据集UATD（Underwater Acoustic Target Detection）上的实验结果表明，所提算法的峰值信噪比（PSNR）和结构相似性（SSIM）分别达到了最优值29.93 dB和0.898，相较于次优算法像素注意力转换机制（PATM）和FlowIE（Flow-based Image Enhancement framework）分别提升了8%和5%，而所提算法的学习感知图像块相似度（LPIPS）达到最低值0.103，相较于次优算法FlowIE降低了34%。上述结果表明，所提算法在声纳图像增强任务中具有更优的图像增强质量与感知一致性。

面向跨相机鸟瞰视角道路对齐的地平线检测方法

王伟, 刘佳欣, 向婉妮, 崔华, 李阳光

2026, 46(6): 1956-1964. DOI: 10.11772/j.issn.1001-9081.2025060733

摘要 ( )

HTML ( )

PDF (2197KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对高速公路广泛部署的监控相机单相机视野有限，难以实现大范围连续感知的问题，提出跨相机鸟瞰视角（BEV）的道路几何对齐任务，以提升场景一致性与完整性。然而，由于多相机图像间存在视角差异与结构错位，该任务面临较大挑战。地平线作为全局几何先验能够统一视角差异。针对它的检测易受遮挡和环境干扰，制约对齐精度的问题，提出面向跨相机BEV道路对齐的路侧地平线检测方法RoadHoriNet （Road Horizon detection Network）。首先，通过透视变换与包围框裁剪进行数据增强；其次，引入钻石空间表示缓解消失点学习不稳定；再次，结合感受野注意力卷积（RFAConv）与动态上采样（DySample）提升特征表达与重建精度；最后，设计几何一致性损失函数，加强地平线检测的方向与位置约束。在公开数据集BrnoCompSpeed上的实验结果表明，RoadHoriNet 在像素误差（5.166%）和角度误差（0.032 5°）方面表现最佳，检测精度达到94.834%。与自适应地平线检测方法相比，像素误差减小了4.815个百分点，角度误差降低了0.019 4°；在跨相机BEV道路几何对齐任务中，经过RoadHoriNet方法修正后，相对对齐精度达99.129%以上，验证了该方法在交通环境中的实用性与推广潜力。可见，所提出的地平线检测方法能够为相机姿态归一化与坐标统一提供稳定的几何先验，有效提升跨相机BEV道路几何对齐的相对对齐精度与鲁棒性。

基于时空特征金字塔网络与多假设交互机制的三维人体姿态估计模型

张金萧, 李成龙, 高新燕, 张铭

2026, 46(6): 1965-1972. DOI: 10.11772/j.issn.1001-9081.2025060763

摘要 ( )

HTML ( )

PDF (1271KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在单目视频中准确预测具有歧义性的三维（3D）人体姿态是当前研究的难点，虽然现有方法能通过深度学习模型预测3D关节坐标，但其中多数未能充分考虑该逆问题的多解性。部分多假设预测方法虽能处理多解性问题，然而它们存在跨层次特征融合不足的缺陷。针对上述问题，提出一种基于时空特征金字塔网络（TSP-FPN）与多假设交互机制的3D人体姿态估计模型——TSP-FPN-MHFormer（TSP-FPN-Multi-Hypothesis Transformer）。首先，基于Transformer编码器，利用多头自注意力机制捕获人体姿态的多重可能性分布，从而生成多个初始假设特征；其次，设计TSP-FPN，并采用门控自适应融合策略实现骨架序列多层次特征的动态加权整合，从而有效平衡局部细节与全局时序信息的融合；最后，在多假设转换器（MHFormer）的基础上实现结合关节相对位置偏置（RPB）与交叉注意力机制的多假设优化模块，以促进各假设之间的沟通与特征聚合，从而增强模型对人体拓扑结构的长程推理能力，进而实现高精度的3D关节坐标预测。在Human3.6M数据集上的实验结果表明，所提模型的平均关节位置误差（MPJPE）达到了42.3 mm，相较于目前先进方法多假设转换器（MHFormer），该模型的预测误差降低了1.6%，体现出所提模型在应对单目3D姿态估计的多解性挑战上取得了实质性进展。

基于冗余特征抑制的轻量级人体姿态估计网络

吕超, 马歌谣

2026, 46(6): 1973-1980. DOI: 10.11772/j.issn.1001-9081.2025060700

摘要 ( )

HTML ( )

PDF (1351KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有人体姿态估计（HPE）网络在复杂场景下难以兼顾计算效率与定位精度的问题，提出一种基于冗余特征抑制的轻量级HPE网络，命名为LE-SHNet （Lightweight Enhanced Stacked Hourglass Network）。首先，设计多重分离沙漏模块（MSHM），通过异构卷积分支差异化建模大关节与末端肢体特征，并有效抑制冗余计算；其次，在MSHM 之间引入混洗高效通道注意力（SECA），融合通道混洗与自适应核卷积，以零参数量强化跨层级关节点关联；最后，在非MSHM中构建空间通道感知模块（SCPM），利用空间通道重构与三重注意力（TA）机制增强关键区域的感知能力。实验结果表明，LE-SHNet在MPII （Max Planck Institute for Informatics）和COCO2017 （Common Objects in COntext 2017）数据集上平均精确度（AP）分别达到88.7%和71.3%，相较于基线网络——二叠沙漏网络（2-SHNet）在参数量上减少了49.3%，计算量降低了28.2%，平均精确率（AP）提升了1.0个百分点；相较于轻量级HPE网络EL-HRNet （Efficient and Lightweight High-Resolution Network）和MobileMultiPose （Mobile-friendly and Multi-feature aggregation Pose estimation），LE-SHNet的AP分别提升了1.0和0.8个百分点，同时参数量分别减少了32.0%和26.7%。可见，LE-SHNet在保持轻量化的同时提升了关键点的定位精度，具有在边缘设备实时部署中的潜在应用价值，可广泛用于智能监控、人机交互及运动康复等场景。

用于单目遮挡人体网格恢复的人体尺寸注意力回归方法

王梦华, 董玉坤, 程龙, 孙骏骐

2026, 46(6): 1981-1988. DOI: 10.11772/j.issn.1001-9081.2025060705

摘要 ( )

HTML ( )

PDF (1499KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在真实场景中，人体图像常受服装、自身姿态及环境物体的遮挡，导致可见信息不足，使现有人体重建方法在形状建模上易退化为均值模型，难以真实还原个体真实特征。针对这一问题，提出一种用于单目遮挡人体网格恢复的人体尺寸注意力回归方法（HDAR）。首先，利用可见区域的人体尺寸推理被遮挡部分的尺寸信息；其次，引入人体维度的分级比例约束，在邻近部位间建立一级约束，在较远部位间建立二级约束，使回归形状符合人体结构特征；最后，结合二维（2D）关节点信息与人体尺寸进行迭代优化，提升姿态估计精度。在3DPW（Three-Dimensional Poses in the Wild）数据集上的实验结果表明，该方法的逐顶点误差（PVE）为65.2 mm，相较于Multi-HMR（Multi-person whole-body Human Mesh Recovery）在遮挡状态下减小了10.7 mm，即减小了14.1%的误差。可视化实验的结果表明，所提方法能够在复杂遮挡场景下有效提升人体形状与姿态的重建精度。

无人机航拍视角下的人体姿态估计算法YOLO-AirPose

尹秋燕, 丁婧, 聂志刚

2026, 46(6): 1989-1997. DOI: 10.11772/j.issn.1001-9081.2025050663

摘要 ( )

HTML ( )

PDF (1720KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对无人机（UAV）航拍视角下人体姿态估计中存在的复杂背景干扰、关键点定位偏移和目标遮挡等问题，提出一种适用于非地面视角下的增强型人体姿态估计算法YOLO-AirPose。首先，设计基于关键点拓扑约束的对称翻转增强策略IPSFA （Index-Preserved Symmetric Flip Augmentation），提升多视角场景下的泛化能力；其次，融合BRA（Bi-level Routing Attention）机制构建C2BRA（C2 Bi-level Routing Attention）模块替代原有的C2PSA（Cross stage Partial with Spatial Attention），增强模型对小尺寸目标与遮挡关键点的表达能力；再次，结合Transformer的空间建模能力，将AIFI（Adaptive Interaction Feature Integration）模块嵌入主干网络，以结合2D位置编码优化关键点定位性能；最后，设计基于可变形注意力机制的C3k2-DAttention模块，以增强网络的全局建模与感受野调控能力。实验结果表明，在保持较低计算量和较低参数量的前提下，YOLO-AirPose在目标检测的精确率以及姿态估计的精确率、召回率和mAP@0.5上相较于基准模型YOLO-Pose分别提升了3.0以及5.0、4.6和6.8个百分点。可见，所提算法为UAV俯视视角下人体姿态估计精度不足问题提供了改进方案，同时还提升了对人体复杂姿态的适应能力。

基于改进YOLOv8的复杂天气环境下海面船舶检测算法

熊珍凯, 徐梦军, 孙胤胤, 王鑫

2026, 46(6): 1998-2006. DOI: 10.11772/j.issn.1001-9081.2025060723

摘要 ( )

HTML ( )

PDF (1356KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对海面船舶检测任务在雨雾和低光照等复杂天气环境下存在的漏检与误检问题，提出一种基于改进YOLOv8的复杂天气环境海面船舶检测算法。首先，提出跨层次局部与全局注意力融合模块（CGLGAFB），通过构建精细化的局部和全局特征融合机制，并结合多路特征融合策略整合来自不同层次的多源特征信息，提升模型的特征融合能力，抑制噪声干扰与信息冗余；其次，改进原C2f （Faster Implementation of CSP Bottleneck with 2 convolutions）模块为自适应混合C2f模块（C2f-AMB），通过有自适应感受野调节能力的深度卷积分支，使模型能够更灵活、更高效地捕获不同尺度与复杂空间结构的目标特征，增强特征提取能力；最后，提出多尺度空间感知金字塔（MSPP）模块替换SPPF（Spatial Pyramid Pooling-Fast）模块，利用不同空洞率的空洞卷积构建多尺度感受野，获取全面的上下文信息，减少关键信息遗漏。在增强后的数据集SeaShips_aug上的实验结果表明，所提算法的mAP@50和召回率分别达到84.7%和79.3%，比基线模型YOLOv8分别高了2.6和3.9个百分点，验证了所提算法更适合复杂天气环境下的海面船舶检测任务。

融合透视校正与轻量注意力机制的轮毂缺陷检测方法

张纾豪, 何坤金, 徐佳晨, 沙河山, 陈正鸣

2026, 46(6): 2007-2015. DOI: 10.11772/j.issn.1001-9081.2025050666

摘要 ( )

HTML ( )

PDF (1371KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

工业视觉检测下的轮毂表面缺陷检测任务中，拍摄视角偏差引发的几何畸变，以及缺陷目标尺度小、形态复杂等因素会导致现有检测方法的性能受限。针对上述问题，提出一种融合透视校正与轻量注意力机制的缺陷检测方法。首先，利用椭圆的圆心与轮毂几何中心偏移的关系，构建透视变换四边形，以求解单应性矩阵完成图像视角校正，从而消除畸变对后续特征提取的影响；其次，在YOLOv11模型的基础上，采用轻量化的Ghost卷积替换主干网络与颈部结构中的传统CBS （Convolution-BatchNorm-SiLU（Sigmoid Linear Unit））模块，从而降低模型的参数量与计算量；同时，引入高效通道注意力（ECA）机制，增强网络对微小缺陷区域的感知能力，构建改进模型YOLOv11n-GAConv。实验结果表明，在自建轮毂缺陷数据集上，所提模型预测框与真实框的交并比阈值设为0.5时的平均精度均值（mAP@0.5）达到84.7%，相较于YOLOv11n提升了2.4个百分点，召回率达到79.5%，相较于YOLOv11n 提升了8.6个百分点，而模型的参数量与计算量分别下降12.4%与11.1%。可见，所提方法在提升检测精度的同时降低了模型复杂度。

基于超球环描述的概率性结构损伤识别

郭茂祖, 张庆宇, 赵玲玲, 邓扬

2026, 46(6): 2016-2025. DOI: 10.11772/j.issn.1001-9081.2025050664

摘要 ( )

HTML ( )

PDF (1222KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

土木工程结构损伤识别中无监督的阈值方法无需标注数据，然而数据的不确定性导致阈值附近存在识别不准的问题。针对无监督结构损伤识别阈值方法在阈值附近存在误报和漏报的问题，基于深度支持向量数据描述（Deep-SVDD）提出基于超球环描述的概率性结构损伤识别方法VAEKL-RDDP（Variational AutoEncoder with Kullback?Leibler divergence constrained for hypersphere Ring Data Description Probabilistic damage identification）。该方法以变分自编码器（VAE）为框架，利用KL（Kullback-Leibler）散度约束构造超球环。首先，预训练VAE，以重建结构加速度响应；其次，引入KL散度，以联合训练预训练的VAE编码器与超球环描述方法，从而在加速度数据特征的后验分布中提取可靠分类边界；最后，依据分类边界构造超球环，依托所构造的超球环对结构进行损伤识别，并采用累积概率密度方法评估超球环内数据。在真实的Z24桥结构的渐进性损伤和足尺木亭振动台实验中，与基于自编码器（AE）重建的基线方法相比，VAEKL-RDDP的准确率和召回率分别平均提高了24.9%和36.7%；而相较于Deep-SVDD和扩散模型的插补预测（ImDiffusion）等方法，VAEKL-RDDP的准确率和召回率分别平均提升了20.8%和33.7%，验证了所提方法提高了损伤检测的性能，降低了漏报可能性。

融合BiLSTM-Transformer与Kolmogorov-Arnold网络的非侵入式负荷监测方法

秦隽, 焦新涛, 曾碧卿

2026, 46(6): 2026-2033. DOI: 10.11772/j.issn.1001-9081.2025060728

摘要 ( )

HTML ( )

PDF (999KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有的基于深度学习的非侵入式负荷监测（NILM）方法在捕捉长期依赖性和复杂非线性动态特征方面存在不足的问题，提出一种融合BiLSTM-Transformer与Kolmogorov-Arnold网络（KAN）的NILM方法，形成混合模型BT-KAN。首先，BiLSTM-Transformer模块结合双向长短时记忆（BiLSTM）网络在双向序列依赖建模上的优势与Transformer在全局上下文建模上的能力，并利用多头注意力机制有效捕捉电力负荷的长期依赖特性，从而提高长周期电器负荷分解的准确率；其次，KAN模块基于Kolmogorov-Arnold表示定理，通过分层非线性映射机制能更精确地捕捉电力负荷信号中的非线性动态特征，从而提高对复杂负载模式的分解准确率。在REDD（Reference Energy Disaggregation Dataset）和UK-DALE（UK Domestic Appliance-Level Electricity）这2个数据集上的实验结果表明，相较于基于Transformer的4个对比模型，所提方法的平均绝对误差（MAE）至少降低了1.6%和5.5%，F1分数至少提升了8.3%和0.7%。可见，所提方法能更准确地捕捉电力负荷信号中的长期依赖与非线性动态特征，并显著提升复杂电器运行模式的分解效果。

基于多传感器融合的太阳能板清洁时机智能决策方法

赵世阳, 王亚飞

2026, 46(6): 2034-2042. DOI: 10.11772/j.issn.1001-9081.2025060765

摘要 ( )

HTML ( )

PDF (798KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对光伏清洁机器人启动时机判定不准确而导致的光伏发电效率下降的问题，在综合考虑复杂气象条件及太阳能板老化引起的发电功率波动的基础上，提出一种基于多传感器融合（MSF）的太阳能板清洁时机智能决策方法，以提升太阳能板的清洁效率和光伏发电效率。首先，依托单片机实时采集太阳能板输出功率和环境温度等多源传感器数据；其次，计算经比例-积分-微分（PID）算法优化后的多因素作用下的光伏发电功率预测值；最后，通过对比光伏发电功率预测值与太阳能板实时发电功率，采用数据级与决策级融合技术实现对清洁时机的智能判定并自动控制光伏清洁机器人的启动。实验结果表明：基于MSF的方法在不同测试场景下均表现出色；以晴天但太阳能板受污染这一最能体现清洁价值的场景为例，该方法的判定准确率达到96%。与采用ResNet50-CA模型的决策方法相比，基于MSF的方法在晴天但太阳能板受污染的场景下实现了4.35%的相对准确率提升；此外，在相同的场景中，相较于以K近邻（KNN）算法、随机森林（RF）模型及卡尔曼滤波法（KF）为核心的决策方法，基于MSF的方法优势更显著，分别实现了35.21%、45.45%和10.34%的准确率提升。可见，所提方法能够有效提升清洁操作的时效性与精准度，为在复杂气象条件与设备老化状态下维持光伏系统的高效发电提供可靠的技术解决方案。

当期目录