虚拟专题文章

    大模型前沿研究与典型应用

    “大模型”(大规模预训练模型)自面世以来,其技术发展日新月异。大模型是引领人工智能领域的变革式新范式,能够提供强大的知识表示与聚合能力,已展现出可与人脑媲美的视觉感知与逻辑推理能力。在超大参数规模、海量训练数据和强大计算资源支撑下,大规模基础模型(CLIPSAMGPT-4SoraLLaMA等)已成为一系列下游任务的基石,展示出强大的任务性能与卓越的泛化能力,在自然语言处理、计算机视觉、工业数字化和智能化等多个领域有着重要突破和广泛应用,其技术影响力已超越计算机领域,成为多学科交叉创新的关键驱动力。

    鉴于大模型技术对计算机应用领域的巨大影响,《计算机应用》组织编委及其研究团队撰写并向社会广泛征集相关论文,最后从中遴选20篇从多个角度全面介绍大模型的前沿研究现状和典型应用场景。

    在这些文章中,有关于语言大模型在自然语言理解、知识图谱构建、知识问答系统、个性化学习系统等方面的典型应用,也有用于图像处理和分析的视觉大模型应用实例,还有多模态大模型的使用探索。既有关于预训练、数据增强、参数微调、提示学习等大模型核心技术的研究和讨论,也有将大模型成果用于各行各业及各种应用场景的介绍,特别是还有对大模型带来的偏见和幻觉等问题的分析和对策。

    我刊编委——四川大学吕建成教授,中国科学技术大学刘淇教授、陈恩红教授,哈尔滨工业大学(深圳)陈斌教授,华南师范大学汤庸教授,中山大学操小春教授及其团队对大模型在自然语言理解、目标检测、智能教学和社交网络等方面应用的技术路线及解决方案进行了较为具体和全面的介绍。另外,特别邀请了中国科学院大学秦小林教授撰写综述文章,“介绍大模型的基础架构、训练技术及发展历程,分析当前通用大模型关键技术及以大模型为底座的先进融合技术,进一步阐述了大模型在实际应用中面临的挑战,包括数据偏差、模型幻觉、计算资源消耗等问题,并对大模型的未来进行了展望”。

    《计算机应用》特别策划的“大模型前沿研究与典型应用”专题,聚焦大模型研究的最新进展、技术创新及典型应用,旨在促进学术界、工业界与跨学科领域之间的知识分享与合作。

    该专题作者单位中既有中国科学院计算技术研究所、中国科学院成都计算机应用研究所、人工智能国家重点实验室、哈尔滨工业大学(深圳)国际人工智能研究院、人工智能与数字经济广东省实验室、安徽省人工智能实验室、大数据智能分析与行业应用湖北省重点实验室等从事“大模型”方面研究和应用的科研院所,也有中国科学技术大学、四川大学、中山大学、华南师范大学、北京航空航天大学、东北大学、河海大学、山西大学、苏州大学、北京外国语大学、海军工程大学、湖北大学、贵州大学等从事“大模型”方面研究和应用的高等院校,还有“大模型”的研制和应用企业如科大讯飞人工智能研究院、国网信息通信产业集团、国网电力科学研究院、国能运输技术研究院。作者及其团队在人工智能特别是大模型研究领域具有较高造诣,来自全国各地的权威研究机构,地域分布也具有广泛的代表性,相信他们在大模型方面的研究成果对相关领域研究和应用的从业者有较大参考价值。

    虽然由于组织时间仓促及编辑水平有限,该专题的内容对正处于迅猛发展过程和广泛应用范围中的大模型的介绍难免“管中窥豹”,但希望能“抛砖引玉”,提高大家对该项重要技术的重视程度,加强该方面成果的传播,促进大模型的技术创新和应用落地。

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 大语言模型综述与展望
    秦小林, 古徐, 李弟诚, 徐海文
    《计算机应用》唯一官方网站    2025, 45 (3): 685-696.   DOI: 10.11772/j.issn.1001-9081.2025010128
    摘要584)   HTML44)    PDF (2035KB)(479)    收藏

    大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。

    图表 | 参考文献 | 相关文章 | 多维度评价
    2. 大语言模型的偏见挑战:识别、评估与去除
    徐月梅, 叶宇齐, 何雪怡
    《计算机应用》唯一官方网站    2025, 45 (3): 697-708.   DOI: 10.11772/j.issn.1001-9081.2024091350
    摘要99)   HTML10)    PDF (2112KB)(70)    收藏

    针对大语言模型(LLM)输出内容存在偏见而导致LLM不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先,概述LLM的三大关键技术,从中分析LLM不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型,并分析这些偏见的特点和原因;再次,系统性回顾现有LLM偏见的评估基准,并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术,并指出它们的改进方向,同时,分析指出LLM偏见研究的3个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。

    图表 | 参考文献 | 相关文章 | 多维度评价
    3. 大语言模型幻觉现象的识别与优化
    何静, 沈阳, 谢润锋
    《计算机应用》唯一官方网站    2025, 45 (3): 709-714.   DOI: 10.11772/j.issn.1001-9081.2024081190
    摘要102)   HTML7)    PDF (1539KB)(67)    收藏

    针对大语言模型(LLM)会产生幻觉,难以完全应用到现实生活各个领域(尤其是医疗领域),以及没有高质量的LLM幻觉评估数据集及相应的LLM幻觉程度评估的问题,提出在医疗问答领域中的LLM幻觉识别与优化方法。首先,根据公开数据集Huatuo,结合GPT-4生成问题答案和人工标注的形式构建医疗问答领域LLM幻觉评估数据集;其次,基于所构建的幻觉评估数据集,定义“幻觉率”的概念,通过设计prompt让待测模型回答“是”或“否”的方式测试和量化各个LLM的幻觉程度,并发现LLM的“YES MAN”幻觉现象;再次,采用低幻觉率的大模型GPT-4作为LeaderAI来提供先验知识辅助高幻觉率LLM进行判断;最后,为探究多个不同LLM是否会在同一个问题上犯错,定义“幻觉碰撞”的概念,并基于概率统计方法揭示不同LLM在医疗问答领域的幻觉碰撞情况。实验结果表明,引入LeaderAI的方法可以提升高幻觉率LLM的表现,使LLM能够以低幻觉率应对医疗问答领域的“YES MAN”幻觉现象,并且目前的LLM同时在一个问题上出现幻觉(发生碰撞)的概率较低。

    图表 | 参考文献 | 相关文章 | 多维度评价
    4. 基于剪枝的大模型联邦参数高效微调技术
    曾辉, 熊诗雨, 狄永正, 史红周
    《计算机应用》唯一官方网站    2025, 45 (3): 715-724.   DOI: 10.11772/j.issn.1001-9081.2024030322
    摘要96)   HTML5)    PDF (2395KB)(316)    收藏

    随着数据隐私重要性的不断提升,用于下游任务的预训练基础模型(PFM)的微调变得愈发困难,这推动了基于PFM的联邦学习研究。然而,PFM给联邦学习系统带来了显著的挑战,特别是在本地计算和通信方面。因此,针对联邦学习的本地计算和聚合通信这两个主要阶段,分别提出对应的解决方案,即本地高效微调模式和环形本地聚合模式。本地高效微调模式采用基于参数高效微调(PEFT)的模型剪枝算法以减轻本地计算和通信开销;环形本地聚合模式采用分布式的本地聚合方法取代中心化的聚合方法以提升聚合阶段的通信效率。实验结果表明,所提大模型联邦参数高效微调框架在最终性能和效率方面均表现良好。

    图表 | 参考文献 | 相关文章 | 多维度评价
    5. 面向测试用例生成的大模型高效微调方法
    曹鹏, 温广琪, 杨金柱, 陈刚, 刘歆一, 季学纯
    《计算机应用》唯一官方网站    2025, 45 (3): 725-731.   DOI: 10.11772/j.issn.1001-9081.2024111598
    摘要68)   HTML7)    PDF (1215KB)(28)    收藏

    基于数据驱动的单元测试代码自动化生成技术存在覆盖率低和可读性差的问题,难以应对日益增长的测试需求。大语言模型(LLM)在代码生成任务中显示了极大的潜力,然而由于代码数据的功能风格和编码风格的差异,LLM面临灾难性遗忘和资源受限这2个挑战。为了解决这些问题,提出将编码风格和功能风格同步迁移微调的思想,并开发一种高效的LLM微调训练方法用于单元测试用例生成。首先,利用广泛使用的指令数据集对LLM进行指令对齐,并按任务类型对指令集分类;同时,提取并存储具有任务特征的权重增量;其次,设计一个自适应风格提取模块,该模块包含抗噪声干扰学习和编码风格回溯学习,以应对不同的代码编写风格;最后,在目标域分别对功能风格增量和编码风格增量进行联合训练,以实现在目标域低资源情况下的高效适配和微调。在SF110 Corpus of Classes数据集上的测试用例生成实验结果表明,所提方法的结果均优于对比方法,与主流代码生成LLM Codex、Code Llama和DeepSeek-Coder相比,所提方法的编译率分别提高0.8%、43.5%和33.8%、分支覆盖率分别提高3.1%、1.0%和17.2%;行覆盖率分别提高4.1%、6.5%和15.5%,验证了所提方法在代码生成任务上的优越性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    6. 基于跨模态对比学习的常识问答模型
    王元龙, 刘亭华, 张虎
    《计算机应用》唯一官方网站    2025, 45 (3): 732-738.   DOI: 10.11772/j.issn.1001-9081.2024081139
    摘要71)   HTML4)    PDF (772KB)(40)    收藏

    常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。

    图表 | 参考文献 | 相关文章 | 多维度评价
    7. 基于多语义关联与融合的视觉问答模型
    周浩, 王超, 崔国恒, 罗廷金
    《计算机应用》唯一官方网站    2025, 45 (3): 739-745.   DOI: 10.11772/j.issn.1001-9081.2024050660
    摘要62)   HTML3)    PDF (3044KB)(29)    收藏

    弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的作用。为解决上述问题,提出一种基于多语义关联与融合的VQA模型以建立问题与图像之间的语义联系。首先,基于场景图生成框架提取图像中的多种语义并把它们进行特征精炼后作为VQA模型的特征输入,从而充分挖掘图像场景中的信息;其次,为提高图像特征的语义价值,设计一个信息过滤器过滤图像特征中的噪声和冗余信息;最后,设计多层注意力融合和推理模块将多种图像语义分别与问题特征进行语义融合,以强化视觉图像重点区域与文本问题之间的语义关联。与BAN(Bilinear Attention Network)和CFR(Coarse-to-Fine Reasoning)模型的对比实验结果表明,所提模型在VQA2.0测试集上的准确率分别提高了2.9和0.4个百分点,在GQA测试集上的准确率分别提高了17.2和0.3个百分点。这表明所提模型能够更好地理解图像场景中的语义并回答组合式视觉问题。

    图表 | 参考文献 | 相关文章 | 多维度评价
    8. 面向军事领域知识问答系统的多策略检索增强生成方法
    张艳萍, 陈梅芳, 田昌海, 易子博, 胡文鹏, 罗威, 罗准辰
    《计算机应用》唯一官方网站    2025, 45 (3): 746-754.   DOI: 10.11772/j.issn.1001-9081.2024060833
    摘要135)   HTML7)    PDF (1254KB)(82)    收藏

    基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。

    图表 | 参考文献 | 相关文章 | 多维度评价
    9. ScholatGPT:面向学术社交网络的大语言模型及智能应用
    袁成哲, 陈国华, 李丁丁, 朱源, 林荣华, 钟昊, 汤庸
    《计算机应用》唯一官方网站    2025, 45 (3): 755-764.   DOI: 10.11772/j.issn.1001-9081.2024101477
    摘要182)   HTML16)    PDF (2602KB)(76)    收藏

    针对现有大语言模型(LLM)在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限,提出基于学术社交网络(ASN)的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成(KGAG)与检索增强生成(RAG),以提升精准语义检索与动态知识更新的能力,并通过微调优化以强化学术文本的生成质量。首先,基于学者网(SCHOLAT)关系数据构建学者知识图谱,并利用LLM进行语义增强;其次,提出KGAG检索模型,结合RAG实现多路混合检索,增强LLM的精准检索能力;最后,利用微调技术优化模型,使它在各学术领域的生成质量得到提升。实验结果表明,ScholatGPT在学术问答任务中的精确率达83.2%,相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点,在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面,ScholatGPT取得了稳定且具有竞争力的表现,在专业性与可读性之间实现了较好的平衡。此外,基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。

    图表 | 参考文献 | 相关文章 | 多维度评价
    10. 个性化学情感知的智慧助教算法设计与实践
    董艳民, 林佳佳, 张征, 程程, 吴金泽, 王士进, 黄振亚, 刘淇, 陈恩红
    《计算机应用》唯一官方网站    2025, 45 (3): 765-772.   DOI: 10.11772/j.issn.1001-9081.2024101550
    摘要72)   HTML3)    PDF (2239KB)(24)    收藏

    随着大语言模型(LLM)的快速发展,基于LLM的对话助手逐渐成为学生学习的新方式。通过学生的问答互动,对话助手能生成相应的解答,从而帮助学生解决问题,并提高学习效率。然而,现有的对话助手忽略了学生的个性化需求,无法为学生提供个性化的回答,实现“因材施教”。因此,提出一种基于学生能力感知的个性化对话助手框架。该框架包括2个主要模块:学生能力感知模块和个性化回答生成模块。能力感知模块通过分析学生的答题记录来挖掘学生的知识掌握程度,回答生成模块则根据学生的能力生成个性化回答。基于此框架,设计基于指令、基于小模型驱动和基于智能体Agent的3种实现范式,以深入探讨框架的实际效果。基于指令的对话助手利用LLM的推理能力,从学生的答题记录中挖掘知识掌握程度以帮助生成个性化回答;基于小模型驱动的对话助手利用深度知识追踪(DKT)模型生成学生的知识掌握程度;基于Agent的个性化对话助手采用LLM Agent的方式整合学生能力感知、个性化检测、答案修正等工具辅助答案的生成。基于ChatGLM(Chat General Language Model)、GPT4o_mini的对比实验结果表明,应用3种范式的LLM均能为学生提供个性化的回答,其中基于Agent的范式的准确度更高,表明该范式能更好地感知学生能力,并生成个性化回答。

    图表 | 参考文献 | 相关文章 | 多维度评价
    11. 知识图谱与大语言模型协同的个性化学习推荐
    张学飞, 张丽萍, 闫盛, 侯敏, 赵宇博
    《计算机应用》唯一官方网站    2025, 45 (3): 773-784.   DOI: 10.11772/j.issn.1001-9081.2024070971
    摘要98)   HTML6)    PDF (1570KB)(53)    收藏

    个性化学习推荐是智慧教育领域的重要研究课题,它的核心目标是利用推荐算法和模型为学习者提供与他们的个人学习需求、兴趣、能力和历史相匹配的有效学习资源,从而提高学习者的学习效果。目前的推荐方法存在冷启动、数据稀疏、可解释性差和过度个性化等问题,而知识图谱与大语言模型的结合为解决上述问题提供了有力支持。首先,对个性化学习推荐的概念、研究现状等内容进行概述;其次,分别讨论知识图谱和大语言模型(LLM)的概念以及在个性化学习推荐中的具体应用;再次,总结知识图谱与LLM在个性化学习推荐中协同应用的方法;最后,展望知识图谱和LLM在个性化学习推荐中的未来发展方向,从而为个性化学习推荐领域的持续发展和创新实践提供借鉴和启示。

    图表 | 参考文献 | 相关文章 | 多维度评价
    12. 融合大语言模型和提示学习的数字孪生水利知识图谱构建
    杨燕, 叶枫, 许栋, 张雪洁, 徐津
    《计算机应用》唯一官方网站    2025, 45 (3): 785-793.   DOI: 10.11772/j.issn.1001-9081.2024050570
    摘要71)   HTML6)    PDF (2950KB)(36)    收藏

    构建数字孪生水利建设知识图谱挖掘水利建设对象之间的潜在关系能够帮助相关人员优化水利建设设计方案和决策。针对数字孪生水利建设的学科交叉和知识结构复杂的特性,以及通用知识抽取模型缺乏对水利领域知识的学习和知识抽取精度不足等问题,为提高知识抽取的精度,提出一种基于大语言模型的数字孪生水利建设知识抽取方法(DTKE-LLM)。该方法通过LangChain部署本地大语言模型(LLM)并集成数字孪生水利领域知识,基于提示学习微调LLM,LLM利用语义理解和生成能力抽取知识,同时,设计异源实体对齐策略优化实体抽取结果。在水利领域语料库上进行对比实验和消融实验,以验证所提方法的有效性。对比实验结果表明,相较于基于深度学习的双向长短期记忆条件随机场(BiLSTM-CRF)命名实体识别模型和通用信息抽取模型UIE(Universal Information Extraction),DTKE-LLM的精确率更优;消融实验结果表明,相较于ChatGLM2-6B(Chat Generative Language Model 2.6 Billion),DTKE-LLM的实体抽取和关系抽取F1值分别提高了5.5和3.2个百分点。可见,该方法在保障知识图谱构建质量的基础上,实现了数字孪生水利建设知识图谱的构建。

    图表 | 参考文献 | 相关文章 | 多维度评价
    13. 基于大语言模型和数据增强的通感隐喻分析
    盛坤, 王中卿
    《计算机应用》唯一官方网站    2025, 45 (3): 794-800.   DOI: 10.11772/j.issn.1001-9081.2024091251
    摘要75)   HTML1)    PDF (1164KB)(27)    收藏

    中文通感隐喻分析任务是隐喻领域的一个特定细分任务。由于通感语料中感觉词的分布不均匀,中文通感隐喻数据集存在数据稀疏的问题。为解决这一问题,利用真实训练数据中的稀疏感觉词数据作为提示,并使用大语言模型生成额外的合成样本进行数据增强。为避免合成数据的引入造成的额外噪声影响模型性能,构建基于大语言模型的数据增强框架,并采用评分机制和标签误差优化机制减小合成数据和真实数据之间的分布差异。实验结果表明,所提框架可以生成高质量的合成数据来扩充数据集,在感觉词抽取和感觉领域分类任务上的总体F1值达到68.5%,比仅使用真实训练数据的基线模型T5(Text-To-Text Transfer Transformer)提升了2.7个百分点。

    图表 | 参考文献 | 相关文章 | 多维度评价
    14. 面向工程图纸理解的大语言模型提示生成方法
    孙晨伟, 侯俊利, 刘祥根, 吕建成
    《计算机应用》唯一官方网站    2025, 45 (3): 801-807.   DOI: 10.11772/j.issn.1001-9081.2024101537
    摘要65)   HTML1)    PDF (1540KB)(44)    收藏

    近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题,提出一种规则指导的后提示词大模型(PP-LLM)生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题,从而引入专家知识、降低任务学习难度。具体来说,使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程,并且不增加计算量。实验结果表明,PP-LLM方法显著提高了推理结果的准确性,缩小了模型预测与实际答案之间的差距,与不使用所提方法的结果相比,F1值、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)等都有显著提高。可见,以上工作提高了LLM在专业应用上的可靠性,并为LLM生成技术提供了新的思路。

    图表 | 参考文献 | 相关文章 | 多维度评价
    15. 基于多粒度共享语义中心关联的文本到人物检索方法
    康斌, 陈斌, 王俊杰, 李昱林, 赵军智, 咸伟志
    《计算机应用》唯一官方网站    2025, 45 (3): 808-814.   DOI: 10.11772/j.issn.1001-9081.2024101434
    摘要47)   HTML1)    PDF (1617KB)(27)    收藏

    基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入探索全局对齐和局部对齐之间的促进和抑制效应。首先,引入一个多粒度交叉对齐模块,并通过增强图像-句子和局部区域-分词之间的交互,实现跨模态数据在联合嵌入空间的多层次对齐;其次,建立一个共享语义中心,将它作为一个可学习的语义枢纽,并通过全局特征和局部特征的关联,增强不同对齐机制之间的语义一致性,促进全局和局部特征的协同作用。在共享语义中心内,计算图像特征和文本特征之间的局部和全局跨模态相似性关系,提供一种全局视角与局部视角的互补度量,并最大限度地促进多种对齐机制之间的正向效应;最后,在CUHK-PEDES数据集上进行实验。结果表明:所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点,平均精度均值(mAP)提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能,明显超越了所有对比方法。

    图表 | 参考文献 | 相关文章 | 多维度评价
    16. 融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法
    鲁超峰, 陶冶, 文连庆, 孟菲, 秦修功, 杜永杰, 田云龙
    《计算机应用》唯一官方网站    2025, 45 (3): 815-822.   DOI: 10.11772/j.issn.1001-9081.2024010013
    摘要177)   HTML2)    PDF (1966KB)(365)    收藏

    针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。

    图表 | 参考文献 | 相关文章 | 多维度评价
    17. 视觉基础模型驱动的像素级图像异常检测方法
    薛振华, 李强, 黄超
    《计算机应用》唯一官方网站    2025, 45 (3): 823-831.   DOI: 10.11772/j.issn.1001-9081.2024091398
    摘要35)   HTML6)    PDF (3364KB)(27)    收藏

    现有的异常检测方法能在特定应用场景下实现高精度检测,然而这些方法难以适用于其他应用场景,且自动化程度有限。因此,提出一种视觉基础模型(VFM)驱动的像素级图像异常检测方法SSMOD-Net(State Space Model driven-Omni Dimensional Net),旨在实现更精确的工业缺陷检测。与现有方法不同,SSMOD-Net实现SAM(Segment Anything Model)的自动化提示且不需要微调SAM,因此特别适用于需要处理大规模工业视觉数据的场景。SSMOD-Net的核心是一个新颖的提示编码器,该编码器由状态空间模型驱动,能够根据SAM的输入图像动态地生成提示。这一设计允许模型在保持SAM架构不变的同时,通过提示编码器引入额外的指导信息,从而提高检测精度。提示编码器内部集成一个残差多尺度模块,该模块基于状态空间模型构建,能够综合利用多尺度信息和全局信息。这一模块通过迭代搜索,在提示空间中寻找最优的提示,并将这些提示以高维张量的形式提供给SAM,从而增强模型对工业异常的识别能力。而且所提方法不需要对SAM进行任何修改,从而避免复杂的对训练计划的微调需求。在多个数据集上的实验结果表明,所提方法展现出了卓越的性能,与AutoSAM和SAM-EG(SAM with Edge Guidance framework for efficient polyp segmentation)等方法相比,所提方法在mE(mean E-measure)和平均绝对误差(MAE)、Dice和交并比(IoU)上都取得了较好的结果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    18. 基于视觉大模型隐私保护的监控图像定位
    李强, 白少雄, 熊源, 袁薇
    《计算机应用》唯一官方网站    2025, 45 (3): 832-839.   DOI: 10.11772/j.issn.1001-9081.2024101538
    摘要55)   HTML3)    PDF (3015KB)(29)    收藏

    监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护,在数据传输过程中容易导致敏感内容泄露的问题,提出一种基于视觉大模型(LVM)的监控图像定位方法。首先,设计基于LVM隐私保护的视觉定位架构,以利用少量文本提示和参考图像对输入图像进行风格迁移;其次,提出面向风格迁移图像的特征匹配算法用于相机位姿的估计。在公开数据集上的实验结果表明,所提方法的定位结果误差较小,在保证定位精度的前提下大幅减少了隐私泄露。

    图表 | 参考文献 | 相关文章 | 多维度评价
    19. 基于多模态数据融合的农作物病害识别方法
    陈维, 施昌勇, 马传香
    《计算机应用》唯一官方网站    2025, 45 (3): 840-848.   DOI: 10.11772/j.issn.1001-9081.2024091297
    摘要72)   HTML3)    PDF (2997KB)(48)    收藏

    现有的基于深度学习模型的农作物病害识别方法依赖特定农作物病害图像数据集进行图像特征学习,而忽视了文本特征在辅助图像特征学习中的重要性。为了更有效地提高模型对农作物病害图像的特征提取能力及病害识别能力,提出一种基于对比语言-图像预训练和多模态数据融合的农作物病害识别方法(CDR-CLIP)。首先,构建高质量的病害识别图像-文本对数据集,利用文本信息增强农作物病害图像的特征表示;其次,利用多模态融合策略有效结合文本特征与图像特征,以加强模型对病害的判别能力;最后,针对性地设计预训练和微调策略,从而优化模型在特定农作物病害识别任务中的表现。实验结果表明,在PlantVillage和AI Challenger 2018农作物病害数据集上,CDR-CLIP的病害识别准确率分别达到99.31%和87.66%,F1值分别达到99.04%和87.56%;在PlantDoc农作物病害数据集上,CDR-CLIP的平均精度均值mAP@0.5达到51.10%,展现出CDR-CLIP强大的性能优势。

    图表 | 参考文献 | 相关文章 | 多维度评价
    20. 基于大语言模型的多输入中文拼写纠错方法
    马灿, 黄瑞章, 任丽娜, 白瑞娜, 伍瑶瑶
    《计算机应用》唯一官方网站    2025, 45 (3): 849-855.   DOI: 10.11772/j.issn.1001-9081.2024091325
    摘要59)   HTML3)    PDF (946KB)(17)    收藏

    中文拼写纠错(CSC)是自然语言处理(NLP)中的一项重要研究任务,现有的基于大语言模型(LLM)的CSC方法由于LLM的生成机制,会生成和原文存在语义偏差的纠错结果。因此,提出基于LLM的多输入CSC方法。该方法包含多输入候选集合构建和LLM纠错两阶段:第一阶段将多个小模型的纠错结果构建为多输入候选集合;第二阶段使用LoRA(Low-Rank Adaptation)对LLM进行微调,即借助LLM的推理能力,在多输入候选集合中预测出没有拼写错误的句子作为最终的纠错结果。在公开数据集SIGHAN13、SIGHAN14、SIGHAN15和修正后的SIGHAN15上的实验结果表明,相较于使用LLM直接生成纠错结果的方法Prompt-GEN-1,所提方法的纠错F1值分别提升了9.6、24.9、27.9和34.2个百分点,相较于表现次优的纠错小模型,所提方法的纠错F1值分别提升了1.0、1.1、0.4和2.4个百分点,验证了所提方法能提升CSC任务的效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
2025年 45卷 4期
刊出日期: 2025-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会