智慧家庭领域的发展依赖于构建丰富的时空知识图谱支撑下游任务的设计与执行。然而,构建智慧家庭空间的时空知识图谱面临数据源多样、数据质量低以及规模有限等挑战。因此,提出一种融合说明文档相对位置信息与用户行为日志的双模态知识提取框架来充分挖掘设备说明文档和用户行为日志中的多模态信息,从而高效地实现知识提取与图谱构建。该框架包括两部分:首先,提出一个基于相对位置布局匹配(RPLM)的方法,以利用说明文档的相对位置特性来对设备说明文档中的图像和文本进行关联匹配,同时设计说明文档的本体模型,并与大语言模型(LLM)融合,提取结构化信息并构建说明文档知识图谱;其次,设计功能关联分析(FCA)算法和设备使用行为处理(DUBP)算法,从用户行为日志中提取功能关联的设备信息并构建家庭空间的时空知识图谱。选取LayoutLMv3、ERNIE-Layout和GeoLayoutLM等作为基准模型,并在一个自建中文说明文档布局分析(CMDLA)数据集和合成的用户行为日志数据集以及3个公开文档分析数据集上进行验证。结果表明,所提框架在家庭领域数据集上的知识提取准确性和效率上优于基线方法,准确率达到96.39%,比次优方法GeoLayoutLM提高了0.97个百分点,在异构数据融合与时空建模任务中表现出显著优势。
在时序知识图谱问答(TKGQA)任务中,针对模型难以捕获并利用问句中隐含的时间信息增强模型的复杂问题推理能力的问题,提出一种融合图注意力的时序知识图谱推理问答(GACTR)模型。所提模型采用四元组形式的时序知识库(KB)进行预训练,同时引入图注意力网络(GAT)以有效捕获问句中隐式时间信息;通过与RoBERTa(Robustly optimized Bidirectional Encoder Representations from Transformers pretraining approach)模型训练的关系表示进行集成,进一步增强问句的时序关系表示;将该表示与预训练的时序知识图谱(TKG)嵌入相结合,以获得最高评分的实体或时间戳作为答案预测结果。在最大的基准数据集CRONQUESTIONS上的实验结果显示,GACTR模型在时序推理模式下能更好地捕获隐含时间信息,有效提升模型的复杂推理能力。与基线模型CRONKGQA(Knowledge Graph Question Answering on CRONQUESTIONS)相比,GACTR模型在处理复杂问题类型和时间答案类型上的Hits@1结果分别提升了34.6、13.2个百分点;与TempoQR(Temporal Question Reasoning)模型相比,分别提升了8.3、2.8个百分点。
针对大语言模型(LLM)输出内容存在偏见而导致LLM不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先,概述LLM的三大关键技术,从中分析LLM不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型,并分析这些偏见的特点和原因;再次,系统性回顾现有LLM偏见的评估基准,并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术,并指出它们的改进方向,同时,分析指出LLM偏见研究的3个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。
群智能算法的优化是提升群智能算法性能的一个主要途径,随着群智能算法越来越广泛地运用到各类模型优化、生产调度、路径规划等问题中,对智能算法性能的要求也越来越高。亚群策略作为一种优化群智能算法的重要手段,能够灵活地平衡算法的全局勘探能力和局部开发能力,已经成为群智能算法的研究热点之一。为了促进亚群优化策略的发展和应用,对动态亚群策略、基于主从范式的亚群策略和基于网络结构的亚群策略进行了详细调查,阐述了各类亚群策略的结构特点、改进方式和应用场景。最后,总结了亚群策略目前存在的问题以及未来的研究趋势和发展方向。
针对现有大语言模型(LLM)在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限,提出基于学术社交网络(ASN)的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成(KGAG)与检索增强生成(RAG),以提升精准语义检索与动态知识更新的能力,并通过微调优化以强化学术文本的生成质量。首先,基于学者网(SCHOLAT)关系数据构建学者知识图谱,并利用LLM进行语义增强;其次,提出KGAG检索模型,结合RAG实现多路混合检索,增强LLM的精准检索能力;最后,利用微调技术优化模型,使它在各学术领域的生成质量得到提升。实验结果表明,ScholatGPT在学术问答任务中的精确率达83.2%,相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点,在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面,ScholatGPT取得了稳定且具有竞争力的表现,在专业性与可读性之间实现了较好的平衡。此外,基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。
针对多变量时序预测难以充分利用序列上下文语义信息及变量间隐含关联信息的问题,提出一种基于解耦注意力机制的多变量时序预测模型Decformer。首先,提出一种解耦注意力机制,从而充分利用嵌入的语义信息提升注意力权值分配的准确度;其次,提出一种不依赖于显式变量关系的模式关联挖掘方法,以挖掘并利用变量间隐含的模式关联信息。在话务量、电力消耗和交通3种不同类型的真实数据集(TTV、ECL和PeMS-Bay)上,与长短期时间序列网络(LSTNet)、Transformer、FEDformer等优秀的开源多变量时序预测模型相比,Decformer在所有预测时间长度上都取得了最高的预测精度。相较于LSTNet,Decformer在TTV、ECL和PeMS-Bay数据集上的平均绝对误差(MAE)分别降低了17.73%~27.32%、10.89%~17.01%和13.03%~19.64%;均方误差(MSE)分别降低了23.53%~58.96%、16.36%~23.56%和15.91%~26.30%。实验结果表明,Decformer能够有效提升多变量时序预测的精度。
视觉目标跟踪是计算机视觉中的重要任务之一,为实现高性能的目标跟踪,近年来提出了大量的目标跟踪方法,其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力,是目前视觉目标跟踪领域研究的热点。首先,根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类,概述相关原理和模型改进的关键技术,总结不同网络结构的优缺点;其次,对这类方法在公开数据集上的实验结果进行对比,分析网络结构对性能的影响,其中MixViT-L(ConvMAE)在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%,说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景;最后,对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结,并对今后的研究重点进行展望,通过与模型压缩、自监督学习以及Transformer可解释性分析相结合,可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。
供应链在发展过程中面临许多挑战,包括如何保证产品溯源过程中信息的真实可靠性以及溯源系统的安全性、物流运输过程中产品的安全性,以及中小企业融资过程中的信任管理等。区块链的去中心化、不可篡改、可追溯性等特点为供应链管理提供了高效的解决办法,但在实际实施过程中存在一些技术挑战。为研究区块链技术在供应链中的应用,对一些典型的应用进行讨论与分析。首先简要介绍了供应链的概念及目前面临的挑战;其次阐述了区块链在信息流、物流以及资金流这三个供应链领域中面临的问题,并对相关解决方案作了对比分析;最后对区块链在供应链实际应用中面临的技术挑战加以总结,对未来的应用进行展望。
知识追踪(KT)是一种认知诊断方法,旨在通过学习者的历史答题记录,模拟学习者对于学习知识的掌握程度,最终预测学习者未来的答题情况。目前基于深度神经网络模型的知识追踪技术以强大的特征提取能力和优越的预测能力成为知识追踪领域研究的热点;然而,基于深度学习的知识追踪模型通常缺乏较好的可解释性。清晰的可解释性不仅可以让学习者和教师充分理解知识追踪模型的推理过程和预测结果,从而为下一步学习制定符合当前知识状态的学习计划,还能够提升学习者和教师对知识追踪模型的信任程度。因此,对可解释的深度知识追踪(DKT)方法进行综述。首先,介绍知识追踪的发展历程,并介绍可解释性的定义和必要性;其次,从特征提取和模型内部提升两方面,对解决DKT模型缺乏可解释性而提出的改进方法进行总结和梳理;再次,介绍现有的可供研究者使用的相关公开数据集,并分析数据集内的数据特征对可解释性的影响,从而探讨如何从模型性能和可解释性两个方面对知识追踪模型进行评价,并整理DKT模型在不同数据集上的性能表现;最后,对DKT模型目前存在的问题提出一些未来可能的研究方向。
在医学图像分割网络中,卷积神经网络(CNN)虽然能提取丰富的局部特征细节,但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系,但是会破坏局部特征细节。为充分利用2种网络特征的互补性,提出一种用于医学图像分割的CNN和Transformer并行的融合网络——PFNet。该网络的并行融合模块使用一对基于CNN和Transformer的相互依赖的并行分支来高效地学习局部和全局两方面的辨别特征,并以交互方式交叉融合局部特征和长距离特征的依赖关系;同时,为恢复在下采样期间丢失的空间信息以增强细节的保留,提出多尺度交互(MSI)模块提取分层CNN分支生成的多尺度特征的局部上下文以进行远程依赖关系建模。实验结果表明,PFNet优于MISSFormer(Medical Image Segmentation tranSFormer)和UCTransNet(U-Net with Channel Transformer module)等先进方法。在Synapse和ACDC(Automated Cardiac Diagnosis Challenge)数据集上,相较于最优的基线方法MISSFormer,PFNet的平均Dice相似系数(DSC)分别提高1.27%和0.81%。可见,PFNet能实现更精准的医学图像分割。
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。
在物联网(IoT)时代,人工智能(AI)与IoT的结合已经成为推动技术发展和应用创新的重要趋势。随着设备连接数量的指数级增长,提升终端用户对智能系统的信任度变得尤为关键。可解释人工智能(XAI)指能提供它们的决策过程和结果解释的AI系统。XAI的出现推动了AI技术的发展,并增强了用户对AI系统的信任。因此,对IoT应用中的XAI研究进行综述。首先,介绍IoT和XAI的相关背景及意义;其次,介绍XAI的定义及关键技术;接着,介绍传统AI驱动的IoT应用的最新进展和XAI驱动的IoT应用的最新进展;最后,对XAI在IoT应用中的未来发展方向和相关挑战分别进行总结和展望。
分层联邦学习中隐私安全与资源消耗等问题的存在降低了参与者的积极性。为鼓励足够多的参与者积极参与学习任务,并针对多移动设备与多边缘服务器之间的决策问题,提出基于多领导者Stackelberg博弈的激励机制。首先,通过量化移动设备的成本效用与边缘服务器的支付报酬,构建效用函数并定义最优化问题;其次,将移动设备之间的交互建模为演化博弈,将边缘服务器之间的交互建模为非合作博弈。为求解最优边缘服务器选择和定价策略,提出多轮迭代边缘服务器选择算法(MIES)和梯度迭代定价算法(GIPA),前者用于求解移动设备之间的演化博弈均衡解,后者用于求解边缘服务器之间的定价竞争问题。实验结果表明,所提算法GIPA与最优定价预测策略(OPPS)、历史最优定价策略(HOPS)和随机定价策略(RPS)相比,可使边缘服务器的平均效用分别提高4.06%、10.08%和31.39%。
针对投稿刊物推荐算法总是单独考虑文本主题或者作者历史发刊记录,导致投稿刊物推荐结果准确率低的问题,提出了一种基于作者偏好的学术刊物投稿推荐算法。该算法不仅协调使用了文本主题和作者历史发刊记录,还挖掘了投稿刊物的学术焦点与时间的潜在联系。首先,使用潜在狄利克雷(LDA)主题模型对文章标题进行主题提取;其次,建立主题-刊物和时间-刊物的模型图,并采用大规模信息网络嵌入(LINE)模型学习异构图节点的嵌入;最后,融合作者的主题偏好和历史发刊记录来计算刊物的综合得分,并据此对投稿作者进行投稿刊物推荐。在两个公开数据集DBLP和PubMed上的实验结果表明,相比奇异值分解(SVD)、DeepWalk、非负矩阵分解(NMF)等6个算法,所提出的算法在不同推荐的投稿刊物列表长度的情况下的召回率均为最优,并且在需要从论文和知识库中获取更少信息的同时,保持了较高的准确性,能有效提高投稿刊物推荐算法的鲁棒性。
联邦学习是一种强调隐私保护的分布式机器学习框架。然而,它在应对统计异质性问题时面临显著挑战。统计异质性源于参与节点间的数据分布差异,可能导致模型更新偏差、全局模型性能下降以及收敛不稳定等问题。针对上述问题,首先,详细分析统计异质性带来的主要问题,包括特征分布不一致、标签分布不均衡、数据量不对称以及数据质量参差不齐等;其次,对现有的联邦学习统计异质性解决方案进行系统综述,包括局部校正、聚类方法、客户端选择优化、聚合策略调整、数据共享、知识蒸馏以及解耦优化等,并逐一评估它们的优缺点与适用场景;最后,探讨了未来的相关研究方向,如设备计算能力感知、模型异构适应、隐私安全机制的优化以及跨任务迁移能力的提升,为应对实际应用中的统计异质性提供参考。
针对现有基于深度学习的篡改图像检测网络通常存在检测精度不高、算法可迁移性弱等问题,提出一种双通道渐进式特征过滤网络。利用两个通道并行提取图像的双域特征,一个通道提取图像空间域的浅层和深层特征,另一个通道提取图像噪声域的特征分布;同时,使用渐进式细微特征筛选机制过滤冗余特征,逐步定位篡改区域;为了更准确地提取篡改掩码,提出一个双输入细微特征提取模块,结合空间域和噪声域的细微特征,生成更准确的篡改掩码;在解码过程中,通过融合不同尺度的过滤特征和网络的上下文信息,提高网络对篡改区域的定位能力。实验结果表明,在检测和定位方面,与现有先进的篡改检测网络ObjectFormer、MVSS-Net(Multi-View multi-Scale Supervision Network)和PSCC-Net(Progressive Spatio-Channel Correlation Network)相比,所提网络的F1分数在CASIA V2.0数据集上分别提高10.4、5.9和12.9个百分点;面对高斯低通滤波、高斯噪声和JPEG压缩攻击时,相较于ManTra-Net(Manipulation Tracing Network)、SPAN(Spatial Pyramid Attention Network),所提网络的曲线下面积(AUC)分别至少提高了10.0、5.4个百分点。验证了所提网络可以有效解决篡改检测算法存在的检测精度不高、迁移性差等问题。
知识图谱从装备故障诊断数据中提取有用的知识,通过(实体,关系,实体)的三元组方式,对复杂装备的故障诊断信息进行有效管理,实现装备故障的快速诊断。首先,介绍装备故障诊断知识图谱的相关概念,分析装备故障诊断领域知识图谱的构建框架;其次,归纳国内外装备故障诊断知识图谱的知识抽取、知识融合以及知识推理等几个关键技术的研究现状;最后,对目前装备故障诊断知识图谱应用进行总结,提出该领域知识图谱构建的不足和面临的挑战,并对未来装备故障诊断领域提供一些新的思路。
在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于此,提出一种基于深度强化学习的UAV集群协同作战决策方法。首先,通过建立基于公共物品博弈的UAV集群作战模型,模拟智能化UAV集群在合作中个体与集体间的利益冲突问题;其次,利用多智能体深度确定性策略梯度(MADDPG)算法求解辅助UAV集群最合理的作战决策,从而以最小的损耗代价实现集群胜利。在不同数量UAV情况下进行训练并展开实验,实验结果表明,与IDQN(Independent Deep Q-Network)和ID3QN(Imitative Dueling Double Deep Q-Network)这两种算法的训练效果相比,所提算法的收敛性最好,且在4架辅助型UAV情况下胜率可达100%,在其他UAV数情况下也明显优于对比算法。
跨视角景象匹配是指从不同平台(如无人机、卫星等)发现同一地理目标的图像。然而,不同图像平台会导致无人机(UAV)定位和导航任务精度较低,现有方法通常只关注图像的单一维度,忽略了图像的多维特征。针对上述问题,提出一种全局注意力和多粒度特征融合(GAMF)深度神经网络以改进特征表示,提高特征可区分度。首先,GAMF模型结合无人机视角和卫星视角的图像,在统一的网络架构下延展为3个分支,从3个维度提取图像的空间位置、通道和局部特征;然后,建立空间全局关系注意力模块(SGAM)和通道全局注意力模块(CGAM),引入空间全局关系机制和通道注意力机制捕获全局信息,从而更好地进行注意力学习;其次,为了融合局部感知特征,引入局部划分策略,以更好地增强模型提取细粒度特征的能力;最后,联合3个维度的特征作为最后的特征对模型训练。在公开数据集University-1652上的实验结果表明,GAMF模型在无人机视觉定位任务上的平均精准率(AP)达到了87.41%,在无人机视觉导航任务中召回率(R@1)达到了90.30%。验证了GAMF模型能够有效聚合图像的多维特征,提高无人机定位和导航任务的准确性。
针对现有雷达非接触生命体征检测精度低、实时性差等问题,提出一种基于调频连续波(FMCW)雷达的人体生命体征检测算法。首先,通过毫米波雷达获取生命体征信号;其次,利用改进的经验小波变换(EWT)算法,实现生命体征信号的自适应分解和重构,通过引入麻雀搜索算法(SSA)和模糊熵(FE)寻找频谱分割线的最优值;最后,通过改进频率插值的估计算法计算心率和呼吸频率。通过与医用重症监护仪进行对比实验验证所提算法的优越性和鲁棒性。实验结果表明,所提算法相较于小波变换(WT)算法、CEEMD(Complementary Ensemble Empirical Mode Decomposition)算法和VMD(Variational Mode Decomposition)算法,均方误差(MSE)分别减小了77.65、27.25和21.05,平均绝对百分比(MAPE)分别减小了7.33、4.33和3.42个百分点,实时性分别提高了0.72 s, 16.74 s和1.87 s。同时,利用所提算法也实现了对心率变异性(HRV)的检测。
针对当前瓷砖缺陷检测主要依靠人工检测导致的主观性强、效率低、劳动强度大等问题,提出一种基于改进YOLOv8的轻量级大幅面瓷砖图像微小缺陷检测算法。首先,对高分辨率大幅面图像进行裁切处理,并在骨干网络中引入HorBlock增强模型的捕捉能力;其次,融入大型可分离内核注意力(LSKA)改进C2f提高模型的检测性能,并通过引入SA(Shuffle Attention)增强模型的特征提取能力;最后,引入全维度动态卷积(ODConv)进一步增强模型对微小缺陷的处理能力。在阿里天池瓷砖瑕疵检测数据集上的实验结果表明:改进后的模型不仅参数量比原始YOLOv8n低,而且mAP@0.5提升了8.2个百分点,F1分数提升了7个百分点。可见,改进后的模型能更精确地识别和处理大幅面瓷砖的微小表面缺陷,且能在保持轻量级的同时,显著提升检测效果。