《计算机应用》唯一官方网站

大语言模型综述与展望

秦小林, 古徐, 李弟诚, 徐海文

2025, 45(3): 685-696. DOI: 10.11772/j.issn.1001-9081.2025010128

摘要 ( )

HTML ( )

PDF (2035KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

大语言模型（LLM）是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练，是当前生成式人工智能（AI）技术的核心。与传统语言模型相比，LLM通过大量的算力、参数和数据支持，展现出更强的语言理解与生成能力，广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法，对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此，在介绍LLM的基础架构、训练技术及发展历程的基础上，分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究，进一步阐述LLM在实际应用中面临的挑战，包括数据偏差、模型幻觉和计算资源消耗等问题，并对LLM的持续发展趋势进行展望。

大语言模型的偏见挑战：识别、评估与去除

徐月梅, 叶宇齐, 何雪怡

2025, 45(3): 697-708. DOI: 10.11772/j.issn.1001-9081.2024091350

摘要 ( )

HTML ( )

PDF (2112KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对大语言模型（LLM）输出内容存在偏见而导致LLM不安全和不可控的问题，从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先，概述LLM的三大关键技术，从中分析LLM不可避免存在内隐偏见（Intrinsic Bias）的根本原因；其次，总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型，并分析这些偏见的特点和原因；再次，系统性回顾现有LLM偏见的评估基准，并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限；最后，从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术，并指出它们的改进方向，同时，分析指出LLM偏见研究的3个方向：偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。

大语言模型幻觉现象的识别与优化

何静, 沈阳, 谢润锋

2025, 45(3): 709-714. DOI: 10.11772/j.issn.1001-9081.2024081190

摘要 ( )

HTML ( )

PDF (1539KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对大语言模型（LLM）会产生幻觉，难以完全应用到现实生活各个领域（尤其是医疗领域），以及没有高质量的LLM幻觉评估数据集及相应的LLM幻觉程度评估的问题，提出在医疗问答领域中的LLM幻觉识别与优化方法。首先，根据公开数据集Huatuo，结合GPT-4生成问题答案和人工标注的形式构建医疗问答领域LLM幻觉评估数据集；其次，基于所构建的幻觉评估数据集，定义“幻觉率”的概念，通过设计prompt让待测模型回答“是”或“否”的方式测试和量化各个LLM的幻觉程度，并发现LLM的“YES MAN”幻觉现象；再次，采用低幻觉率的大模型GPT-4作为LeaderAI来提供先验知识辅助高幻觉率LLM进行判断；最后，为探究多个不同LLM是否会在同一个问题上犯错，定义“幻觉碰撞”的概念，并基于概率统计方法揭示不同LLM在医疗问答领域的幻觉碰撞情况。实验结果表明，引入LeaderAI的方法可以提升高幻觉率LLM的表现，使LLM能够以低幻觉率应对医疗问答领域的“YES MAN”幻觉现象，并且目前的LLM同时在一个问题上出现幻觉（发生碰撞）的概率较低。

基于剪枝的大模型联邦参数高效微调技术

曾辉, 熊诗雨, 狄永正, 史红周

2025, 45(3): 715-724. DOI: 10.11772/j.issn.1001-9081.2024030322

摘要 ( )

HTML ( )

PDF (2395KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着数据隐私重要性的不断提升，用于下游任务的预训练基础模型（PFM）的微调变得愈发困难，这推动了基于PFM的联邦学习研究。然而，PFM给联邦学习系统带来了显著的挑战，特别是在本地计算和通信方面。因此，针对联邦学习的本地计算和聚合通信这两个主要阶段，分别提出对应的解决方案，即本地高效微调模式和环形本地聚合模式。本地高效微调模式采用基于参数高效微调（PEFT）的模型剪枝算法以减轻本地计算和通信开销；环形本地聚合模式采用分布式的本地聚合方法取代中心化的聚合方法以提升聚合阶段的通信效率。实验结果表明，所提大模型联邦参数高效微调框架在最终性能和效率方面均表现良好。

面向测试用例生成的大模型高效微调方法

曹鹏, 温广琪, 杨金柱, 陈刚, 刘歆一, 季学纯

2025, 45(3): 725-731. DOI: 10.11772/j.issn.1001-9081.2024111598

摘要 ( )

HTML ( )

PDF (1215KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题，难以应对日益增长的测试需求。大语言模型（LLM）在代码生成任务中显示了极大的潜力，然而由于代码数据的功能风格和编码风格的差异，LLM面临灾难性遗忘和资源受限这2个挑战。为了解决这些问题，提出将编码风格和功能风格同步迁移微调的思想，并开发一种高效的LLM微调训练方法用于单元测试用例生成。首先，利用广泛使用的指令数据集对LLM进行指令对齐，并按任务类型对指令集分类；同时，提取并存储具有任务特征的权重增量；其次，设计一个自适应风格提取模块，该模块包含抗噪声干扰学习和编码风格回溯学习，以应对不同的代码编写风格；最后，在目标域分别对功能风格增量和编码风格增量进行联合训练，以实现在目标域低资源情况下的高效适配和微调。在SF110 Corpus of Classes数据集上的测试用例生成实验结果表明，所提方法的结果均优于对比方法，与主流代码生成LLM Codex、Code Llama和DeepSeek-Coder相比，所提方法的编译率分别提高0.8%、43.5%和33.8%、分支覆盖率分别提高3.1%、1.0%和17.2%；行覆盖率分别提高4.1%、6.5%和15.5%，验证了所提方法在代码生成任务上的优越性。

基于跨模态对比学习的常识问答模型

王元龙, 刘亭华, 张虎

2025, 45(3): 732-738. DOI: 10.11772/j.issn.1001-9081.2024081139

摘要 ( )

HTML ( )

PDF (772KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

常识问答（CQA）是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务，属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力，现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而，常识通常具有隐含性，并不总是直接体现在文本内容中，影响了这些方法的应用范围和效果。因此，提出基于跨模态对比学习的CQA模型，以充分利用跨模态信息丰富常识的表达。首先，设计一个跨模态常识表示模块，以融合常识库和跨模态大模型，从而获取跨模态的常识表示；其次，对问题和选项的跨模态表示进行对比学习，从而增强模型对不同选项之间的区分能力；最后，利用softmax层为问题选项对生成相关性分数，并根据分数的高低确定最终的预测答案。在公开数据集CSQA（CommonSenseQA）和OBQA（OpenBookQA）上进行的实验结果表明，与DEKCOR（DEscriptive Knowledge for COmmonsense question answeRing）相比，所提模型的准确率分别提高了1.46和0.71个百分点。

基于多语义关联与融合的视觉问答模型

周浩, 王超, 崔国恒, 罗廷金

2025, 45(3): 739-745. DOI: 10.11772/j.issn.1001-9081.2024050660

摘要 ( )

HTML ( )

PDF (3044KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

弥合视觉图像和文本问题之间的语义差异是提高视觉问答（VQA）模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案，忽略了高层图像语义特征如关系和属性特征等在视觉推理中的作用。为解决上述问题，提出一种基于多语义关联与融合的VQA模型以建立问题与图像之间的语义联系。首先，基于场景图生成框架提取图像中的多种语义并把它们进行特征精炼后作为VQA模型的特征输入，从而充分挖掘图像场景中的信息；其次，为提高图像特征的语义价值，设计一个信息过滤器过滤图像特征中的噪声和冗余信息；最后，设计多层注意力融合和推理模块将多种图像语义分别与问题特征进行语义融合，以强化视觉图像重点区域与文本问题之间的语义关联。与BAN（Bilinear Attention Network）和CFR（Coarse-to-Fine Reasoning）模型的对比实验结果表明，所提模型在VQA2.0测试集上的准确率分别提高了2.9和0.4个百分点，在GQA测试集上的准确率分别提高了17.2和0.3个百分点。这表明所提模型能够更好地理解图像场景中的语义并回答组合式视觉问题。

面向军事领域知识问答系统的多策略检索增强生成方法

张艳萍, 陈梅芳, 田昌海, 易子博, 胡文鹏, 罗威, 罗准辰

2025, 45(3): 746-754. DOI: 10.11772/j.issn.1001-9081.2024060833

摘要 ( )

HTML ( )

PDF (1254KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于检索增强生成（RAG）的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题，提出一种多策略检索增强生成（MSRAG）方法。首先，根据用户输入的查询特点自适应地匹配检索模型来召回相关文本；其次，利用文本过滤器提取出能够回答问题的关键文本片段；再次，使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写，并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索；最后，合并能够回答问题的关键文本片段和问题，并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明，MSRAG方法在军事领域数据集（Military）和Medical数据集的ROUGE-L（Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence）指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见，MSRAG方法具备较强的通用性和可移植性，能够缓解非必要查询改写导致的语义漂移现象，有效帮助大模型生成更准确的答案。

ScholatGPT：面向学术社交网络的大语言模型及智能应用

袁成哲, 陈国华, 李丁丁, 朱源, 林荣华, 钟昊, 汤庸

2025, 45(3): 755-764. DOI: 10.11772/j.issn.1001-9081.2024101477

摘要 ( )

HTML ( )

PDF (2602KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有大语言模型（LLM）在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限，提出基于学术社交网络（ASN）的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成（KGAG）与检索增强生成（RAG），以提升精准语义检索与动态知识更新的能力，并通过微调优化以强化学术文本的生成质量。首先，基于学者网（SCHOLAT）关系数据构建学者知识图谱，并利用LLM进行语义增强；其次，提出KGAG检索模型，结合RAG实现多路混合检索，增强LLM的精准检索能力；最后，利用微调技术优化模型，使它在各学术领域的生成质量得到提升。实验结果表明，ScholatGPT在学术问答任务中的精确率达83.2%，相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点，在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面，ScholatGPT取得了稳定且具有竞争力的表现，在专业性与可读性之间实现了较好的平衡。此外，基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。

个性化学情感知的智慧助教算法设计与实践

董艳民, 林佳佳, 张征, 程程, 吴金泽, 王士进, 黄振亚, 刘淇, 陈恩红

2025, 45(3): 765-772. DOI: 10.11772/j.issn.1001-9081.2024101550

摘要 ( )

HTML ( )

PDF (2239KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着大语言模型（LLM）的快速发展，基于LLM的对话助手逐渐成为学生学习的新方式。通过学生的问答互动，对话助手能生成相应的解答，从而帮助学生解决问题，并提高学习效率。然而，现有的对话助手忽略了学生的个性化需求，无法为学生提供个性化的回答，实现“因材施教”。因此，提出一种基于学生能力感知的个性化对话助手框架。该框架包括2个主要模块：学生能力感知模块和个性化回答生成模块。能力感知模块通过分析学生的答题记录来挖掘学生的知识掌握程度，回答生成模块则根据学生的能力生成个性化回答。基于此框架，设计基于指令、基于小模型驱动和基于智能体Agent的3种实现范式，以深入探讨框架的实际效果。基于指令的对话助手利用LLM的推理能力，从学生的答题记录中挖掘知识掌握程度以帮助生成个性化回答；基于小模型驱动的对话助手利用深度知识追踪（DKT）模型生成学生的知识掌握程度；基于Agent的个性化对话助手采用LLM Agent的方式整合学生能力感知、个性化检测、答案修正等工具辅助答案的生成。基于ChatGLM（Chat General Language Model）、GPT4o_mini的对比实验结果表明，应用3种范式的LLM均能为学生提供个性化的回答，其中基于Agent的范式的准确度更高，表明该范式能更好地感知学生能力，并生成个性化回答。

知识图谱与大语言模型协同的个性化学习推荐

张学飞, 张丽萍, 闫盛, 侯敏, 赵宇博

2025, 45(3): 773-784. DOI: 10.11772/j.issn.1001-9081.2024070971

摘要 ( )

HTML ( )

PDF (1570KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

个性化学习推荐是智慧教育领域的重要研究课题，它的核心目标是利用推荐算法和模型为学习者提供与他们的个人学习需求、兴趣、能力和历史相匹配的有效学习资源，从而提高学习者的学习效果。目前的推荐方法存在冷启动、数据稀疏、可解释性差和过度个性化等问题，而知识图谱与大语言模型的结合为解决上述问题提供了有力支持。首先，对个性化学习推荐的概念、研究现状等内容进行概述；其次，分别讨论知识图谱和大语言模型（LLM）的概念以及在个性化学习推荐中的具体应用；再次，总结知识图谱与LLM在个性化学习推荐中协同应用的方法；最后，展望知识图谱和LLM在个性化学习推荐中的未来发展方向，从而为个性化学习推荐领域的持续发展和创新实践提供借鉴和启示。

融合大语言模型和提示学习的数字孪生水利知识图谱构建

杨燕, 叶枫, 许栋, 张雪洁, 徐津

2025, 45(3): 785-793. DOI: 10.11772/j.issn.1001-9081.2024050570

摘要 ( )

HTML ( )

PDF (2950KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

构建数字孪生水利建设知识图谱挖掘水利建设对象之间的潜在关系能够帮助相关人员优化水利建设设计方案和决策。针对数字孪生水利建设的学科交叉和知识结构复杂的特性，以及通用知识抽取模型缺乏对水利领域知识的学习和知识抽取精度不足等问题，为提高知识抽取的精度，提出一种基于大语言模型的数字孪生水利建设知识抽取方法（DTKE-LLM）。该方法通过LangChain部署本地大语言模型（LLM）并集成数字孪生水利领域知识，基于提示学习微调LLM，LLM利用语义理解和生成能力抽取知识，同时，设计异源实体对齐策略优化实体抽取结果。在水利领域语料库上进行对比实验和消融实验，以验证所提方法的有效性。对比实验结果表明，相较于基于深度学习的双向长短期记忆条件随机场（BiLSTM-CRF）命名实体识别模型和通用信息抽取模型UIE（Universal Information Extraction），DTKE-LLM的精确率更优；消融实验结果表明，相较于ChatGLM2-6B（Chat Generative Language Model 2.6 Billion），DTKE-LLM的实体抽取和关系抽取F1值分别提高了5.5和3.2个百分点。可见，该方法在保障知识图谱构建质量的基础上，实现了数字孪生水利建设知识图谱的构建。

基于大语言模型和数据增强的通感隐喻分析

盛坤, 王中卿

2025, 45(3): 794-800. DOI: 10.11772/j.issn.1001-9081.2024091251

摘要 ( )

HTML ( )

PDF (1164KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

中文通感隐喻分析任务是隐喻领域的一个特定细分任务。由于通感语料中感觉词的分布不均匀，中文通感隐喻数据集存在数据稀疏的问题。为解决这一问题，利用真实训练数据中的稀疏感觉词数据作为提示，并使用大语言模型生成额外的合成样本进行数据增强。为避免合成数据的引入造成的额外噪声影响模型性能，构建基于大语言模型的数据增强框架，并采用评分机制和标签误差优化机制减小合成数据和真实数据之间的分布差异。实验结果表明，所提框架可以生成高质量的合成数据来扩充数据集，在感觉词抽取和感觉领域分类任务上的总体F1值达到68.5%，比仅使用真实训练数据的基线模型T5（Text-To-Text Transfer Transformer）提升了2.7个百分点。

面向工程图纸理解的大语言模型提示生成方法

孙晨伟, 侯俊利, 刘祥根, 吕建成

2025, 45(3): 801-807. DOI: 10.11772/j.issn.1001-9081.2024101537

摘要 ( )

HTML ( )

PDF (1540KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

近年来，大语言模型（LLM）在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而，它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题，提出一种规则指导的后提示词大模型（PP-LLM）生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题，从而引入专家知识、降低任务学习难度。具体来说，使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程，并且不增加计算量。实验结果表明，PP-LLM方法显著提高了推理结果的准确性，缩小了模型预测与实际答案之间的差距，与不使用所提方法的结果相比，F1值、ROUGE（Recall-Oriented Understudy for Gisting Evaluation）等都有显著提高。可见，以上工作提高了LLM在专业应用上的可靠性，并为LLM生成技术提供了新的思路。

基于多粒度共享语义中心关联的文本到人物检索方法

康斌, 陈斌, 王俊杰, 李昱林, 赵军智, 咸伟志

2025, 45(3): 808-814. DOI: 10.11772/j.issn.1001-9081.2024101434

摘要 ( )

HTML ( )

PDF (1617KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系，然而忽略了不同对齐机制之间的相互影响。因此，提出一种多粒度共享语义中心关联机制，深入探索全局对齐和局部对齐之间的促进和抑制效应。首先，引入一个多粒度交叉对齐模块，并通过增强图像-句子和局部区域-分词之间的交互，实现跨模态数据在联合嵌入空间的多层次对齐；其次，建立一个共享语义中心，将它作为一个可学习的语义枢纽，并通过全局特征和局部特征的关联，增强不同对齐机制之间的语义一致性，促进全局和局部特征的协同作用。在共享语义中心内，计算图像特征和文本特征之间的局部和全局跨模态相似性关系，提供一种全局视角与局部视角的互补度量，并最大限度地促进多种对齐机制之间的正向效应；最后，在CUHK-PEDES数据集上进行实验。结果表明：所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点，平均精度均值（mAP）提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能，明显超越了所有对比方法。

融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法

鲁超峰, 陶冶, 文连庆, 孟菲, 秦修功, 杜永杰, 田云龙

2025, 45(3): 815-822. DOI: 10.11772/j.issn.1001-9081.2024010013

摘要 ( )

HTML ( )

PDF (1966KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对很少有人将说话人转换和情感转换结合起来研究，且实际场景中的目标说话人情感语料通常很少，不足以从头训练一个强泛化性模型的问题，提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换（LSEVC）方法。首先，使用大语言模型生成带有所需情感标签的文本；其次，使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人；然后，将生成的文本合成情感语音，以达到数据增强的目的；再次，使用合成语音与源目标语音共同训练说话人-情感语音转换模型；最后，为了进一步提升转换语音的说话人相似度和情感相似度，使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明，综合考虑评价指标情感相似度平均得分（EMOS）、说话人相似度平均意见得分（SMOS）、梅尔倒谱失真（MCD）和词错误率（WER）时，所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。

视觉基础模型驱动的像素级图像异常检测方法

薛振华, 李强, 黄超

2025, 45(3): 823-831. DOI: 10.11772/j.issn.1001-9081.2024091398

摘要 ( )

HTML ( )

PDF (3364KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现有的异常检测方法能在特定应用场景下实现高精度检测，然而这些方法难以适用于其他应用场景，且自动化程度有限。因此，提出一种视觉基础模型（VFM）驱动的像素级图像异常检测方法SSMOD-Net（State Space Model driven-Omni Dimensional Net），旨在实现更精确的工业缺陷检测。与现有方法不同，SSMOD-Net实现SAM（Segment Anything Model）的自动化提示且不需要微调SAM，因此特别适用于需要处理大规模工业视觉数据的场景。SSMOD-Net的核心是一个新颖的提示编码器，该编码器由状态空间模型驱动，能够根据SAM的输入图像动态地生成提示。这一设计允许模型在保持SAM架构不变的同时，通过提示编码器引入额外的指导信息，从而提高检测精度。提示编码器内部集成一个残差多尺度模块，该模块基于状态空间模型构建，能够综合利用多尺度信息和全局信息。这一模块通过迭代搜索，在提示空间中寻找最优的提示，并将这些提示以高维张量的形式提供给SAM，从而增强模型对工业异常的识别能力。而且所提方法不需要对SAM进行任何修改，从而避免复杂的对训练计划的微调需求。在多个数据集上的实验结果表明，所提方法展现出了卓越的性能，与AutoSAM和SAM-EG（SAM with Edge Guidance framework for efficient polyp segmentation）等方法相比，所提方法在mE（mean E-measure）和平均绝对误差（MAE）、Dice和交并比（IoU）上都取得了较好的结果。

基于视觉大模型隐私保护的监控图像定位

李强, 白少雄, 熊源, 袁薇

2025, 45(3): 832-839. DOI: 10.11772/j.issn.1001-9081.2024101538

摘要 ( )

HTML ( )

PDF (3015KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护，在数据传输过程中容易导致敏感内容泄露的问题，提出一种基于视觉大模型（LVM）的监控图像定位方法。首先，设计基于LVM隐私保护的视觉定位架构，以利用少量文本提示和参考图像对输入图像进行风格迁移；其次，提出面向风格迁移图像的特征匹配算法用于相机位姿的估计。在公开数据集上的实验结果表明，所提方法的定位结果误差较小，在保证定位精度的前提下大幅减少了隐私泄露。

基于多模态数据融合的农作物病害识别方法

陈维, 施昌勇, 马传香

2025, 45(3): 840-848. DOI: 10.11772/j.issn.1001-9081.2024091297

摘要 ( )

HTML ( )

PDF (2997KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现有的基于深度学习模型的农作物病害识别方法依赖特定农作物病害图像数据集进行图像特征学习，而忽视了文本特征在辅助图像特征学习中的重要性。为了更有效地提高模型对农作物病害图像的特征提取能力及病害识别能力，提出一种基于对比语言-图像预训练和多模态数据融合的农作物病害识别方法（CDR-CLIP）。首先，构建高质量的病害识别图像-文本对数据集，利用文本信息增强农作物病害图像的特征表示；其次，利用多模态融合策略有效结合文本特征与图像特征，以加强模型对病害的判别能力；最后，针对性地设计预训练和微调策略，从而优化模型在特定农作物病害识别任务中的表现。实验结果表明，在PlantVillage和AI Challenger 2018农作物病害数据集上，CDR-CLIP的病害识别准确率分别达到99.31%和87.66%，F1值分别达到99.04%和87.56%；在PlantDoc农作物病害数据集上，CDR-CLIP的平均精度均值mAP@0.5达到51.10%，展现出CDR-CLIP强大的性能优势。

基于大语言模型的多输入中文拼写纠错方法

马灿, 黄瑞章, 任丽娜, 白瑞娜, 伍瑶瑶

2025, 45(3): 849-855. DOI: 10.11772/j.issn.1001-9081.2024091325

摘要 ( )

HTML ( )

PDF (946KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

中文拼写纠错（CSC）是自然语言处理（NLP）中的一项重要研究任务，现有的基于大语言模型（LLM）的CSC方法由于LLM的生成机制，会生成和原文存在语义偏差的纠错结果。因此，提出基于LLM的多输入CSC方法。该方法包含多输入候选集合构建和LLM纠错两阶段：第一阶段将多个小模型的纠错结果构建为多输入候选集合；第二阶段使用LoRA（Low-Rank Adaptation）对LLM进行微调，即借助LLM的推理能力，在多输入候选集合中预测出没有拼写错误的句子作为最终的纠错结果。在公开数据集SIGHAN13、SIGHAN14、SIGHAN15和修正后的SIGHAN15上的实验结果表明，相较于使用LLM直接生成纠错结果的方法Prompt-GEN-1，所提方法的纠错F1值分别提升了9.6、24.9、27.9和34.2个百分点，相较于表现次优的纠错小模型，所提方法的纠错F1值分别提升了1.0、1.1、0.4和2.4个百分点，验证了所提方法能提升CSC任务的效果。

基于工作证明的联邦学习懒惰客户端识别方法

林海力, 李京

2025, 45(3): 856-863. DOI: 10.11772/j.issn.1001-9081.2024030296

摘要 ( )

HTML ( )

PDF (1131KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在对隐私保护的需求不断增长的当今社会，联邦学习正受到广泛关注。然而，在联邦学习中，服务器难以监管客户端的行为，致使懒惰客户端的存在为联邦学习的性能与公平性带来了潜在威胁。针对如何高效又准确地辨别懒惰客户端的问题，提出设置基于后门的双任务工作证明方法FedBD（FedBackDoor）。在FedBD中，服务器为参与联邦学习的客户端额外指定更易检测的后门任务，客户端在训练原任务的基础上训练后门任务，而服务器通过后门任务的训练情况间接监管客户端的行为。实验结果表明，在MNIST、CIFAR10等数据集上，相较于经典联邦平均算法FedAvg和先进算法GTG-Shapley（Guided Truncation Gradient Shapley），FedBD有一定优势。在CIFAR10数据集上，在懒惰客户端占比设置为15%时，FedBD比FedAvg的准确率提升可达10个百分点以上，比GTG-Shapley的准确率提升约2个百分点。此外，FedBD的平均训练时间仅为GTG-Shapley的11.8%，在懒惰客户端占比10%时辨别懒惰客户端的准确率可超过99%。可见，FedBD较好地解决了懒惰客户端难以监管的问题。

面向加密恶意流量检测模型的堆叠集成对抗防御方法

陈瑞龙, 胡涛, 卜佑军, 伊鹏, 胡先君, 乔伟

2025, 45(3): 864-871. DOI: 10.11772/j.issn.1001-9081.2024030327

摘要 ( )

HTML ( )

PDF (1463KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当前，基于深度学习的流量分类模型已广泛应用于加密恶意流量分类，然而深度学习模型所面临的对抗样本攻击问题严重影响了这些模型的检测精度和可用性。因此，提出一种面向加密恶意流量检测模型的堆叠集成对抗防御方法D-SE（Detector-Stacking Ensemble）。D-SE采用堆叠集成学习框架，分为对抗防御层和决策层。对抗防御层用于检测潜在的对抗攻击流量样本，在该层中包括由残差网络（ResNet）、CNN-LSTM、ViT（Vision Transformer）这3种分类器以及多层感知机组成的对抗攻击检测器，多层感知机根据分类器预测概率的分布检测是否发生对抗攻击。为提高检测器的对抗样本检测效果，对检测器进行对抗训练。在决策层中设计一种基于投票和权重机制的联合决策模块，并通过择多判决机制和高权重者优先机制避免最终预测结果过度依赖部分分类器。在USTC-TFC2016数据集上对D-SE进行测试的结果表明：在非对抗环境下，D-SE的准确率达到96%以上；在白盒攻击环境下，D-SE的准确率达到89%以上。可见，D-SE具有一定的对抗防御能力。

基于Attention-1DCNN-CE的加密流量分类方法

耿海军, 董赟, 胡治国, 池浩田, 杨静, 尹霞

2025, 45(3): 872-882. DOI: 10.11772/j.issn.1001-9081.2024030325

摘要 ( )

HTML ( )

PDF (2750KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统加密流量识别方法存在多分类准确率低、泛化性不强以及易侵犯隐私等问题，提出一种结合注意力机制（Attention）与一维卷积神经网络（1DCNN）的多分类深度学习模型——Attention-1DCNN-CE。该模型包含3个核心部分：1）数据集预处理阶段，保留原始数据流中数据包间的空间关系，并根据样本分布构建成本敏感矩阵；2）在初步提取加密流量特征的基础上，利用Attention和1DCNN模型深入挖掘并压缩流量的全局与局部特征；3）针对数据不平衡这一挑战，通过结合成本敏感矩阵与交叉熵（CE）损失函数，显著提升少数类别样本的分类精度，进而优化模型的整体性能。实验结果表明，在BOT-IOT和TON-IOT数据集上该模型的整体识别准确率高达97%以上；并且该模型在公共数据集ISCX-VPN和USTC-TFC上表现优异，在不需要预训练的前提下，达到了与ET-BERT（Encrypted Traffic BERT）相近的性能；相较于PERT（Payload Encoding Representation from Transformer），该模型在ISCX-VPN数据集的应用类型检测中的F1分数提升了29.9个百分点。以上验证了该模型的有效性，为加密流量识别和恶意流量检测提供了解决方案。

基于多空间概率增强的图像对抗样本生成方法

王华华, 范子健, 刘泽

2025, 45(3): 883-890. DOI: 10.11772/j.issn.1001-9081.2024040495

摘要 ( )

HTML ( )

PDF (2764KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

对抗样本能够有效评估深度神经网络的鲁棒性和安全性。针对黑盒场景下对抗攻击成功率低的问题，为提高对抗样本的可迁移性，提出一种基于多空间概率增强的对抗样本生成方法（MPEAM）。所提方法通过在对抗样本生成方法中引入2条随机数据增强支路，而各支路分别基于像素空间和HSV颜色空间实现图像的随机裁剪填充（CP）和随机颜色变换（CC），并通过构建概率模型控制返回的图像样本，从而在增加原始样本多样性的同时降低对抗样本对原数据集的依赖，进而提高对抗样本的可迁移性。在此基础上，将所提方法引入集成模型中，以进一步提升黑盒场景下对抗样本攻击的成功率。在ImageNet数据集上的大量实验结果表明，相较于基准方法——迭代快速梯度符号方法（IFGSM）和动量迭代快速梯度符号方法（MIFGSM），所提方法的黑盒攻击成功率分别平均提升了28.72和8.44个百分点；相较于基于单空间概率增强的对抗攻击方法，所提方法的黑盒攻击成功率最高提升了6.81个百分点。以上验证了所提方法能够以较小的复杂度代价提高对抗样本的可迁移性，并实现黑盒场景下的有效攻击。

基于工业云存储系统的数据防篡改批量审计方案

张晓均, 郝云溥, 李磊, 李晨阳, 周子玉

2025, 45(3): 891-895. DOI: 10.11772/j.issn.1001-9081.2024030349

摘要 ( )

HTML ( )

PDF (1386KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为解决工业云存储系统数据遭受篡改等网络主动攻击问题，实现工业数据云端安全共享的目标，并确保工业数据传输与存储过程的机密性、完整性与可用性，提出基于工业云存储系统的数据防篡改批量审计方案。在该方案中，设计基于双线性对映射的同态数字签名算法，使第三方审计者实现对工业云存储系统数据的批量防篡改完整性检测，并及时将防篡改完整性审计结果反馈给工程服务终端用户；此外，通过加入审计者减轻工程服务终端用户的计算负担，同时确保工业加密数据在传输与存储过程中的完整性。安全性分析与性能比较结果表明，所提方案通过设计防篡改检测向量，使得第三方审计者的计算量从O（n）次双线性对操作减少到O（1）次常量级双线性对操作，极大地降低了第三方审计者的计算开销。可见，所提方案适用于需要对大量工业云存储系统核心数据文件进行防篡改检测的轻量级批量审计场景。

基于改进奇异值分解和哈尔小波变换的图像水印算法

肖海林, 孔祥婷, 王玉, 周迪, 戴晓明

2025, 45(3): 896-903. DOI: 10.11772/j.issn.1001-9081.2024030304

摘要 ( )

HTML ( )

PDF (2556KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统的水印算法在面对不同类型的攻击时所表现出的鲁棒性不强和透明性不足，提出一种基于改进奇异值分解（SVD）和二维离散哈尔小波变换的图像水印算法。首先，采用最大分割Arnold变换对水印图像进行置乱，以确保图像能量的均匀分布，从而提高水印的稳定性和抗攻击性，并使水印对潜在威胁具有强大的鲁棒性；其次，为增强加密过程，引入哈尔小波变换对图像进行多尺度分析，并提出改进的经济型SVD方法，以进一步提高算法的安全性和稳定性；最后，通过逆变换来还原生成图像水印。所提算法具有可逆性和易操作性，能保证图像的视觉质量。数值仿真实验结果表明：加水印后的5张经典宿主图像在未受攻击时的峰值信噪比（PSNR）和结构相似性（SSIM）均分别大于42.448 1 dB和0.999 4，展示了良好的透明性。当面临高斯噪声、椒盐噪声和JPEG压缩等攻击时，所提算法的归一化相关系数（NC）值超过0.99，优于离散小波变换（DWT）+SVD（DWT+SVD）、整数小波变换+海森堡矩阵分解（HMD）+SVD（IWT+HMD+SVD）、整数小波变换+SVD（IWT+SVD）图像水印算法；即使在其他攻击，如锐化、运动模糊以及斑点噪声等面前，在相同条件下所提算法的NC值仍保持在0.968以上，验证了在抵抗各种攻击方面的鲁棒性和透明性。

基于注意力掩码与特征提取的人脸伪造主动防御

王瑜, 方贤进, 杨高明, 丁一峰, 杨新露

2025, 45(3): 904-910. DOI: 10.11772/j.issn.1001-9081.2024030364

摘要 ( )

HTML ( )

PDF (1964KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决人脸图像在未经授权情况下被伪造或篡改的问题，提出一种基于注意力掩码与特征提取的人脸伪造主动防御方法。该方法旨在采取攻击性措施，向图像中加入可干扰伪造模型的对抗样本，从源头上预防图像被伪造，同时提高被保护图像的视觉质量。首先，采用改进的梯度下降法生成对抗扰动并将这些扰动添加至原始图像，使原始图像在经过伪造处理后生成模糊的虚假图像；同时，在生成器中增添注意力掩码，以增强关键特征通道，从而降低复杂背景和光照带来的影响；其次，使用VGG16预训练网络提取图像特征，在特征图层面提升对抗图像的视觉质量。在名人人脸属性（CelebA）数据集和Radboud面孔数据库（RaFD）数据集上的实验结果表明：对StarGAN，所提方法的防御成功率分别达到99.80%和99.63%，生成的对抗图像的视觉质量相较于基于扩频对抗攻击的基准方法在结构相似性（SSIM）上分别提升了30.86%和26.63%，在峰值信噪比（PSNR）上分别提高了34.80%和36.15%。可见，所提方法可有效防御人脸伪造，同时提升对抗图像的视觉质量。

基于Lobatto方法和Legendre多项式的PINN求解微分代数方程

赖帅, 唐卷, 梁锟, 陈佳盛

2025, 45(3): 911-919. DOI: 10.11772/j.issn.1001-9081.2024030313

摘要 ( )

HTML ( )

PDF (2186KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当前求解微分代数方程（DAE）的神经网络方法基本都采用数据驱动策略，需要大量的数据集，因此存在对神经网络的结构和参数选择敏感、求解结果精度低、稳定性差等问题。针对这些问题，提出一种基于Lobatto方法和Legendre多项式的物理信息神经网络（LL-PINN）。首先，基于离散型物理信息神经网络（PINN）的计算框架，结合Lobatto IIIA方法求解DAE高精度和高稳定性的优点，将DAE的物理信息嵌入Lobatto IIIA时间迭代格式中，并使用PINN对该时间迭代进行近似数值求解；其次，采用单隐藏层的神经网络结构，利用勒让德多项式展开项的逼近能力，应用这些多项式作为激活函数来简化网络模型调整的过程；最后，采用时间区域分解方案构建网络模型，即对每个等分的子时间区域依次使用一个微分神经网络和一个代数神经网络，从而实现DAE的高精度连续时间预测。数值算例结果表明，基于勒让德多项式和4阶的Lobatto方法的LL-PINN实现了对DAE的高精度求解。与函数连接理论（TFC）试验解模型和PINN模型相比，LL-PINN的微分变量和代数变量的预测解与精确解的绝对误差显著降低，精度提高了一个或两个量级。因此，所提求解模型对求解DAE问题具有较好的计算精度，可为解决具有挑战性的偏DAE提供可行的解决方案。

基于节点到障碍物距离的自适应扩展RRT^*路径规划算法

王蔡琪, 崔西宁, 熊毅, 伍世虔

2025, 45(3): 920-927. DOI: 10.11772/j.issn.1001-9081.2024030400

摘要 ( )

HTML ( )

PDF (4518KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

快速扩展随机树星（RRT^*）因具有渐近最优性和概率完备性，在机器人路径规划领域有广泛的应用。然而，RRT^*及其改进算法仍存在初始路径质量差、路径收敛慢和探索效率低等缺陷。针对这些问题，提出一种基于节点到障碍物距离的自适应扩展RRT^*算法——AE-RRT^*。为提高探索效率，采用基于节点到障碍物距离的动态目标偏置采样策略和动态步长策略，从而在更短的时间内获得初始路径。为提高路径的质量，提出一种更精确的选择父节点的方法MA-ChooseParent，从而扩大选择父节点的集合。此外，为加快路径收敛，在路径收敛阶段采用基于节点到障碍物距离的自适应高斯采样方法和全局高斯采样方法AG-Gaussian Sample。通过Matlab中的仿真实验将AE-RRT^*与RRT^*、Quick-RRT^*、Bi-RRT^*、Informed-RRT^*和Smart-RRT^*进行对比。实验结果表明，与RRT^*相比，AE-RRT^*在二维环境中找到初始路径的时间、初始路径的长度和收敛至全局次优路径的时间分别减少了63.78%、6.55%和71.93%；在三维环境中的3个指标分别减少了59.44%、18.26%和79.58%。

基于改进鲸鱼优化算法的动态无人机路径规划

王兴旺, 张清杨, 姜守勇, 董永权

2025, 45(3): 928-936. DOI: 10.11772/j.issn.1001-9081.2024030370

摘要 ( )

HTML ( )

PDF (7205KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对复杂地形环境下的无人机（UAV）路径规划问题，提出一种基于改进鲸鱼优化算法（MWOA）的动态UAV路径规划方法。首先，通过解析山体地形、动态目标和威胁区，建立三维动态环境与UAV航路模型；其次，提出一种自适应步长高斯游走策略，并将该策略用于平衡算法的全局探索与局部发掘的能力；最后，提出一种辅助修正策略对种群最优个体进行修正，并结合差分进化策略，在避免种群陷入局部最优的同时提高算法的收敛精度。为验证MWOA的有效性，使用MWOA与鲸鱼优化算法（WOA）、人工蜂鸟算法（AHA）等智能算法求解CEC2022测试函数，并在设计的UAV动态环境模型中进行验证。仿真结果对比分析表明，与WOA相比，MWOA的收敛精度提高了6.1%，标准差减小了44.7%。可见，所提MWOA收敛更快且精度更高，能有效处理UAV路径规划问题。

多策略改进的天鹰优化器及其在路径规划中的应用

吴素谦, 闫建国, 杨斌, 覃涛, 刘影, 杨靖

2025, 45(3): 937-945. DOI: 10.11772/j.issn.1001-9081.2024020242

摘要 ( )

HTML ( )

PDF (1988KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对原始天鹰优化器（AO）存在局部开发能力不足、寻优精度低以及收敛速度慢等缺陷，提出一种用于机器人路径规划的多策略融合改进的天鹰优化器（MSIAO）。首先，引入Sobol序列对天鹰种群进行初始化，从而有利于初始种群的多样性，并提高收敛速度；其次，利用黄金正弦算子和粒子群的自我学习与社会学习的思想改进局部搜索方式，以增强算法的开发能力，并降低陷入局部最优的可能；同时，采用一种非线性平衡因子作为两阶段的切换条件，使种群之间的交流更充分，并能更有效地均衡全局搜索与局部开发。通过在12个基准测试函数、10个CEC2017复杂函数上的仿真实验可知，所提改进策略极大地增强了MSIAO的全局优化能力。将MSIAO应用于机器人路径规划的结果表明，MSIAO可以获得更短且更安全可靠的移动路径。在20×20栅格地图中，MSIAO的平均路径相较于粒子群优化（PSO）算法、原始的AO和蝴蝶优化算法（BOA）分别缩短了2.53%、3.83%和6.70%；在40×40栅格地图中，MSIAO的平均路径相较于上述3种算法分别缩短了10.65%、5.27%和14.88%。可见MSIAO的寻径更高效。

基于多模态信息相互引导补充的雷达-相机三维目标检测

张传浩, 屠晓涵, 谷学汇, 轩波

2025, 45(3): 946-952. DOI: 10.11772/j.issn.1001-9081.2024030290

摘要 ( )

HTML ( )

PDF (2335KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

多模态三维目标检测是计算机视觉的一项重要任务，如何更好地融合不同模态之间的信息一直是该任务的研究重点。现有方法在融合不同模态信息时缺少对信息的筛选，且过多无关与干扰信息会造成模型性能的下降。针对上述问题，提出一种基于多模态信息相互引导补充的雷达-相机三维目标检测模型，以在融合特征时从另一种模态中自适应地挑选信息进行融合。自适应信息融合包括数据层面的相互引导补充和特征层面的相互引导补充。在数据层面的融合中，使用由点云产生的深度图和图像产生的分割掩码作为输入，以分别构建出实例级的深度图与实例级的三维虚拟点用于图像与点云的补充。在特征层面的融合中，使用点云产生的体素特征和图像产生的特征图作为输入，并从另一种模态中为待融合特征选取关键区域并通过注意力机制进行特征融合。实验结果表明，所提模型在nuScenes测试集上取得了良好的效果。相较于BEVFusion和TransFusion等传统非引导的融合模型，所提模型将平均精度均值（mAP）和nuScenes检测分数（NDS）这2个主流评测指标分别提升了0.9~28.9个百分点和0.6~26.1个百分点。以上验证了所提模型可有效提高多模态三维目标检测的准确性。

基于关联信息增强与关系平衡的场景图生成方法

李林昊, 韩冬, 董永峰, 李英双, 王振

2025, 45(3): 953-962. DOI: 10.11772/j.issn.1001-9081.2024010135

摘要 ( )

HTML ( )

PDF (3809KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

利用场景图的上下文信息可以帮助模型理解目标之间的关联作用；然而，大量不相关的目标可能带来额外噪声，进而影响信息交互，造成预测偏差。在嘈杂且多样的场景中，即使几个简单的关联目标，也足够推断目标所处的环境信息，并消除其他目标的歧义信息。此外，在面对真实场景中的长尾偏差数据时，场景图生成（SGG）的性能难以令人满意。针对上下文信息增强和预测偏差的问题，提出一种基于关联信息增强与关系平衡的SGG（IERB）方法。IERB方法采用一种二次推理结构，即根据有偏场景图的预测结果重新构建不同预测视角下的关联信息并平衡预测偏差。首先，聚焦不同视角下的强相关目标以构建上下文关联信息；其次，利用树型结构的平衡策略增强尾部关系的预测能力；最后，采用一种预测引导方式在已有场景图的基础上预测优化。在通用的数据集Visual Genome上的实验结果表明，与3类基线模型VTransE（Visual Translation Embedding network）、Motif和VCTree（Visual Context Tree）相比，所提方法在谓词分类（PredCls）任务下的均值召回率mR@100分别提高了11.66、13.77和13.62个百分点，验证了所提方法的有效性。

融合时序与全局上下文特征增强的弱监督动作定位

党伟超, 范英豪, 高改梅, 刘春霞

2025, 45(3): 963-971. DOI: 10.11772/j.issn.1001-9081.2024040443

摘要 ( )

HTML ( )

PDF (1810KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有的弱监督动作定位研究中将视频片段视为单独动作实例独立处理带来的动作分类及定位不准确问题，提出一种融合时序与全局上下文特征增强的弱监督动作定位方法。首先，构建时序特征增强分支以利用膨胀卷积扩大感受野，并引入注意力机制捕获视频片段间的时序依赖性；其次，设计基于高斯混合模型（GMM）的期望最大化（EM）算法捕获视频的上下文信息，同时利用二分游走传播进行全局上下文特征增强，生成高质量的时序类激活图（TCAM）作为伪标签在线监督时序特征增强分支；再次，通过动量更新网络得到体现视频间动作特征的跨视频字典；最后，利用跨视频对比学习提高动作分类的准确性。实验结果表明，交并比（IoU）取0.5时，所提方法在THUMOS’14和ActivityNet v1.3数据集上分别取得了42.0%和42.2%的平均精度均值（mAP），相较于CCKEE （Cross-video Contextual Knowledge Exploration and Exploitation）方法，在mAP分别提升了2.6与0.6个百分点，验证了所提方法的有效性。

基于非全局依赖积分回归的轻量姿态估计网络

佘本杰, 苏树智, 朱彦敏, 华健, 王超

2025, 45(3): 972-977. DOI: 10.11772/j.issn.1001-9081.2024030369

摘要 ( )

HTML ( )

PDF (1620KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于热图检测的人体姿态估计网络取得了巨大的成功，然而由于冗余计算、量化误差以及热图解码的需求，基于热图检测的方法参数量较大。针对上述问题，设计基于非全局依赖积分回归的轻量姿态估计网络（Lite-NIRNet）。Lite-NIRNet通过局部卷积（PConv）降低网络的冗余计算，从而使网络更加轻量。为缓解PConv导致的信息丢失问题，引入坐标注意力（CA）机制融合跨通道特征，以提升网络性能。此外，设计非全局依赖的积分回归（NIR）模块，通过该模块，网络可以融入坐标进行监督，从而减少量化误差对网络性能的影响。所提的NIR可有效降低传统积分回归在期望计算时产生的偏差，从而兼顾更好的学习梯度和更低的偏差。实验结果表明，Lite-NIRNet与较先进的高分辨率网络（HRNet）相比，在COCO验证集上的参数量和计算量分别降低了73.0%和63.4%，平均精度均值（mAP）不需要额外的热图解码即可达到72.8%；在MPII验证集上，Lite-NIRNet在网络性能和复杂度之间也能实现良好的平衡。

基于低秩与全变分联合正则化的低剂量CT图像重建

刘宇, 张鹏程, 张丽媛, 刘祎, 桂志国, 张雪怡, 朱陈一菲, 汤豪威

2025, 45(3): 978-987. DOI: 10.11772/j.issn.1001-9081.2024040478

摘要 ( )

HTML ( )

PDF (5600KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对全变分（TV）最小化方法在低剂量计算机断层扫描（LDCT）图像重建中易导致的图像过平滑和块状效应等问题，提出一种基于低秩与TV联合正则化的LDCT图像重建方法，以提升LDCT重建图像的视觉质量。首先，建立一个基于低秩与TV联合正则化的图像重建模型，从而从理论上获得更精确和自然的重建结果；其次，通过引入具有非局部自相似特性的低秩先验克服仅使用TV最小化方法存在的局限性；最后，采用Chambolle-Pock （CP）算法优化求解上述模型，以提高模型的求解效率，并保证模型能有效求解。在3种不同LDCT扫描条件下验证所提方法的有效性。在Mayo数据集上的实验结果表明，与PWLS-LDMM（Penalized Weighted Least-Squares based on Low-Dimensional Manifold）方法、NOWNUNM（NOnlocal Weighted NUclear Norm Minimization）方法和CP方法相比，在25%剂量下，所提方法的视觉信息保真度（VIF）分别提升了28.39%、8.30%和2.93%；在15%剂量下，所提方法的VIF分别提升了29.96%、13.83%和4.53%；在10%剂量下，所提方法的VIF分别提升了30.22%、17.10%和7.66%。可见，所提方法在消除噪声和条纹伪影的同时能保留更多的细节纹理信息，验证了所提方法具有较好的噪声伪影抑制能力。

融合多尺度语义和双分支并行的医学图像分割网络

袁宝华, 陈佳璐, 王欢

2025, 45(3): 988-995. DOI: 10.11772/j.issn.1001-9081.2024030358

摘要 ( )

HTML ( )

PDF (2085KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在医学图像分割网络中，卷积神经网络（CNN）虽然能提取丰富的局部特征细节，但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系，但是会破坏局部特征细节。为充分利用2种网络特征的互补性，提出一种用于医学图像分割的CNN和Transformer并行的融合网络——PFNet。该网络的并行融合模块使用一对基于CNN和Transformer的相互依赖的并行分支来高效地学习局部和全局两方面的辨别特征，并以交互方式交叉融合局部特征和长距离特征的依赖关系；同时，为恢复在下采样期间丢失的空间信息以增强细节的保留，提出多尺度交互（MSI）模块提取分层CNN分支生成的多尺度特征的局部上下文以进行远程依赖关系建模。实验结果表明，PFNet优于MISSFormer（Medical Image Segmentation tranSFormer）和UCTransNet（U-Net with Channel Transformer module）等先进方法。在Synapse和ACDC（Automated Cardiac Diagnosis Challenge）数据集上，相较于最优的基线方法MISSFormer，PFNet的平均Dice相似系数（DSC）分别提高1.27%和0.81%。可见，PFNet能实现更精准的医学图像分割。

坐标增强与多源采样的脑肿瘤图像分割

蒋占军, 李洋, 廉敬, 苗新法

2025, 45(3): 996-1002. DOI: 10.11772/j.issn.1001-9081.2024030359

摘要 ( )

HTML ( )

PDF (2626KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对脑肿瘤图像分割模型对肿瘤区域关注度不够及易丢失空间上下文信息，导致对肿瘤区域分割效果不佳的问题，提出一种融合坐标增强学习机制（CEL）与多源采样的TransUNet脑肿瘤分割网络。首先，提出一种CEL，结合ResNetv2作为模型的浅层特征提取网络，增加对脑肿瘤区域的关注度；其次，设计深层混合采样特征提取器，并利用可变形注意力与自注意力机制对脑肿瘤的全局与局部信息进行多源采样；最后，在编码器与解码器之间设计交互层级融合（ILF）模块，从而在实现深层与浅层特征信息交互的同时减少参数的计算量。在BraTS2018和BraTS2019数据集上的实验结果表明：相较于基准TransUNet，所提模型的平均相似性系数（mDice）、平均交并比（mIoU）、平均精度均值（mAP）和平均召回率（mRecall）分别提高4.84、7.21、3.83和3.15个百分点，模型大小降低了16.9 MB。

运行时保证技术的研究现状与发展综述

董磊, 王琦, 陈曦, 刘嘉琛

2025, 45(3): 1003-1015. DOI: 10.11772/j.issn.1001-9081.2024030318

摘要 ( )

HTML ( )

PDF (6135KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

人工智能（AI）、大数据、云计算等先进技术发展突飞猛进的同时，它们自身具有的难解释、难认证等问题限制了它们在各行业的实际应用。而运行时保证（RTA）技术通过监控系统状态实现了功能之间的切换，化“复杂”为“简单”，初步解决了一些复杂系统行为难预测、难解释、不安全、非预期结果的问题，在未来有着广阔的发展前景。因此，对RTA的研究现状与发展进行综述，为研究者了解最新的RTA技术研究动态、发展趋势提供参考。首先，回顾RTA技术的发展历程；其次，在描述RTA的基本原理架构以及切换逻辑的基础上，对当前RTA在智能航空、无人机（UAV）、智能航天和自动驾驶汽车领域中及信息物理系统（CPS）和安全强化学习上的应用研究现状进行系统性梳理；最后，对RTA技术的发展前景进行讨论。

面向车路协同的路侧交通目标检测模型及部署

王泉, 曹心雨, 陈祺东

2025, 45(3): 1016-1024. DOI: 10.11772/j.issn.1001-9081.2024040424

摘要 ( )

HTML ( )

PDF (4790KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

车路协同旨在通过信息交换和协作实现智能高效的交通管理，其中高精度、轻量化且易于部署的路侧视角下的车辆与行人检测至关重要。因此，提出基于改进YOLOv8的轻量化交通目标检测模型。首先，引入FasterNet中的FasterBlock替换原始C2f中的某些瓶颈组件，以减少浮点运算量（GFLOPs）和参数量，降低整体模型的复杂性；其次，在模型的颈部网络采用兼顾速度和精度的GSConv（Group Shuffle Convolution）替代原有的卷积核，并引入SlimNeck特征融合模块，使每个特征层能够同时考虑深层特征的语义信息和浅层特征的细节；再次，使用MPDIoU（Minimum Point Distance based Intersection over Union）替换原有的损失函数，以提高模型的边界框回归性能；最后，通过通道剪枝修剪模型网络中的冗余连接，以减小模型规模并提高检测速度。实验结果表明，经过改进和剪枝的模型与原始YOLOv8s相比，精度提升了1.0个百分点，平均精度均值（mAP）提升了1.2个百分点，计算量和参数量分别降低了70.1%和69.4%。并且，在边缘设备Atlas 200I DK A2（算力4 TOPS，功耗9 W）的条件下，所提模型达到了58.03 frame/s的检测速度。

当期目录