针对大语言模型(LLM)输出内容存在偏见而导致LLM不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先,概述LLM的三大关键技术,从中分析LLM不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型,并分析这些偏见的特点和原因;再次,系统性回顾现有LLM偏见的评估基准,并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术,并指出它们的改进方向,同时,分析指出LLM偏见研究的3个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。
构建数字孪生水利建设知识图谱挖掘水利建设对象之间的潜在关系能够帮助相关人员优化水利建设设计方案和决策。针对数字孪生水利建设的学科交叉和知识结构复杂的特性,以及通用知识抽取模型缺乏对水利领域知识的学习和知识抽取精度不足等问题,为提高知识抽取的精度,提出一种基于大语言模型的数字孪生水利建设知识抽取方法(DTKE-LLM)。该方法通过LangChain部署本地大语言模型(LLM)并集成数字孪生水利领域知识,基于提示学习微调LLM,LLM利用语义理解和生成能力抽取知识,同时,设计异源实体对齐策略优化实体抽取结果。在水利领域语料库上进行对比实验和消融实验,以验证所提方法的有效性。对比实验结果表明,相较于基于深度学习的双向长短期记忆条件随机场(BiLSTM-CRF)命名实体识别模型和通用信息抽取模型UIE(Universal Information Extraction),DTKE-LLM的精确率更优;消融实验结果表明,相较于ChatGLM2-6B(Chat Generative Language Model 2.6 Billion),DTKE-LLM的实体抽取和关系抽取F1值分别提高了5.5和3.2个百分点。可见,该方法在保障知识图谱构建质量的基础上,实现了数字孪生水利建设知识图谱的构建。
分层联邦学习中隐私安全与资源消耗等问题的存在降低了参与者的积极性。为鼓励足够多的参与者积极参与学习任务,并针对多移动设备与多边缘服务器之间的决策问题,提出基于多领导者Stackelberg博弈的激励机制。首先,通过量化移动设备的成本效用与边缘服务器的支付报酬,构建效用函数并定义最优化问题;其次,将移动设备之间的交互建模为演化博弈,将边缘服务器之间的交互建模为非合作博弈。为求解最优边缘服务器选择和定价策略,提出多轮迭代边缘服务器选择算法(MIES)和梯度迭代定价算法(GIPA),前者用于求解移动设备之间的演化博弈均衡解,后者用于求解边缘服务器之间的定价竞争问题。实验结果表明,所提算法GIPA与最优定价预测策略(OPPS)、历史最优定价策略(HOPS)和随机定价策略(RPS)相比,可使边缘服务器的平均效用分别提高4.06%、10.08%和31.39%。
针对多变量时序预测难以充分利用序列上下文语义信息及变量间隐含关联信息的问题,提出一种基于解耦注意力机制的多变量时序预测模型Decformer。首先,提出一种解耦注意力机制,从而充分利用嵌入的语义信息提升注意力权值分配的准确度;其次,提出一种不依赖于显式变量关系的模式关联挖掘方法,以挖掘并利用变量间隐含的模式关联信息。在话务量、电力消耗和交通3种不同类型的真实数据集(TTV、ECL和PeMS-Bay)上,与长短期时间序列网络(LSTNet)、Transformer、FEDformer等优秀的开源多变量时序预测模型相比,Decformer在所有预测时间长度上都取得了最高的预测精度。相较于LSTNet,Decformer在TTV、ECL和PeMS-Bay数据集上的平均绝对误差(MAE)分别降低了17.73%~27.32%、10.89%~17.01%和13.03%~19.64%;均方误差(MSE)分别降低了23.53%~58.96%、16.36%~23.56%和15.91%~26.30%。实验结果表明,Decformer能够有效提升多变量时序预测的精度。
针对投稿刊物推荐算法总是单独考虑文本主题或者作者历史发刊记录,导致投稿刊物推荐结果准确率低的问题,提出了一种基于作者偏好的学术刊物投稿推荐算法。该算法不仅协调使用了文本主题和作者历史发刊记录,还挖掘了投稿刊物的学术焦点与时间的潜在联系。首先,使用潜在狄利克雷(LDA)主题模型对文章标题进行主题提取;其次,建立主题-刊物和时间-刊物的模型图,并采用大规模信息网络嵌入(LINE)模型学习异构图节点的嵌入;最后,融合作者的主题偏好和历史发刊记录来计算刊物的综合得分,并据此对投稿作者进行投稿刊物推荐。在两个公开数据集DBLP和PubMed上的实验结果表明,相比奇异值分解(SVD)、DeepWalk、非负矩阵分解(NMF)等6个算法,所提出的算法在不同推荐的投稿刊物列表长度的情况下的召回率均为最优,并且在需要从论文和知识库中获取更少信息的同时,保持了较高的准确性,能有效提高投稿刊物推荐算法的鲁棒性。
针对利用遗传进化算法解决符号回归(SR)问题时存在的种群多样性降低以及对超参数敏感等问题,提出基于Transformer的深度符号回归(DSRT)方法。该方法在利用Transformer自回归的方式生成表达式符号序列后,将数据和表达式符号序列的拟合度值的变换值当作奖励值,再利用深度强化学习的方法更新模型参数,使模型输出的表达式序列更加拟合数据,并随着模型的不断收敛找出最优的表达式。在SR基准数据集Nguyen上对DSRT方法进行有效性测试,并在200次迭代内将它与DSR(Deep Symbolic Regression)和GP(Genetic Programming)算法进行对比,实验结果验证了DSRT方法的有效性。另外,讨论了各参数对DSRT方法的影响,并在NACA4421数据上进行飞机翼型表面压力系数公式预测实验,将所得到的公式与卡门-钱学森公式作对比,找到了均方根误差(RMSE)较小的数学公式。
针对现有大语言模型(LLM)在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限,提出基于学术社交网络(ASN)的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成(KGAG)与检索增强生成(RAG),以提升精准语义检索与动态知识更新的能力,并通过微调优化以强化学术文本的生成质量。首先,基于学者网(SCHOLAT)关系数据构建学者知识图谱,并利用LLM进行语义增强;其次,提出KGAG检索模型,结合RAG实现多路混合检索,增强LLM的精准检索能力;最后,利用微调技术优化模型,使它在各学术领域的生成质量得到提升。实验结果表明,ScholatGPT在学术问答任务中的精确率达83.2%,相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点,在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面,ScholatGPT取得了稳定且具有竞争力的表现,在专业性与可读性之间实现了较好的平衡。此外,基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。
联邦学习是一种用于解决机器学习中数据共享问题和隐私保护问题的分布式学习方法,旨在多方共同训练一个机器学习模型并保护数据的隐私;但是,联邦学习本身存在安全威胁,这使得联邦学习在实际应用中面临巨大的挑战,因此,分析联邦学习面临的攻击和相应的防御措施对联邦学习的发展和应用至关重要。首先,介绍联邦学习的定义、流程和分类,联邦学习中的攻击者模型;其次,从联邦学习系统的鲁棒性和隐私性两方面介绍可能遭受的攻击,并介绍不同攻击相应的防御措施,同时也指出防御方案的不足;最后,展望安全的联邦学习系统。
环境、社会及治理(ESG)指标是评估企业可持续发展的重要指标。现有的ESG评估体系存在覆盖范围狭窄、主观性强和时效性差等问题,因此,迫切需要研究能利用企业数据准确预测ESG指标的预测模型。针对企业数据中ESG关联特征存在信息丰度不一致的问题,提出一种基于丰度协调技术的企业ESG指标预测模型RCT (Richness Coordination Transformer),其中上游丰度协调模块通过自编码器协调异质丰度特征,从而提高下游模块的ESG指标预测性能。在真实数据集上的实验结果表明,与模型时间卷积网络(TCN)、长短期记忆(LSTM)网络、自注意力模型(Transformer)、极限梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)相比,RCT模型在各项预测指标上均表现最优,验证了RCT模型在预测ESG指标上的有效性和优越性。
在时序知识图谱问答(TKGQA)任务中,针对模型难以捕获并利用问句中隐含的时间信息增强模型的复杂问题推理能力的问题,提出一种融合图注意力的时序知识图谱推理问答(GACTR)模型。所提模型采用四元组形式的时序知识库(KB)进行预训练,同时引入图注意力网络(GAT)以有效捕获问句中隐式时间信息;通过与RoBERTa(Robustly optimized Bidirectional Encoder Representations from Transformers pretraining approach)模型训练的关系表示进行集成,进一步增强问句的时序关系表示;将该表示与预训练的时序知识图谱(TKG)嵌入相结合,以获得最高评分的实体或时间戳作为答案预测结果。在最大的基准数据集CRONQUESTIONS上的实验结果显示,GACTR模型在时序推理模式下能更好地捕获隐含时间信息,有效提升模型的复杂推理能力。与基线模型CRONKGQA(Knowledge Graph Question Answering on CRONQUESTIONS)相比,GACTR模型在处理复杂问题类型和时间答案类型上的Hits@1结果分别提升了34.6、13.2个百分点;与TempoQR(Temporal Question Reasoning)模型相比,分别提升了8.3、2.8个百分点。
联邦学习(FL)是一种分布式机器学习方法,即利用分布式数据在训练模型的同时保护数据隐私。然而,它在高度异构的数据分布情况时表现不佳。个性化联邦学习(PFL)通过为每个客户端提供个性化模型来解决这一问题。然而,以往的PFL算法主要侧重于客户端本地模型的优化,忽略了服务器端全局模型的优化,导致服务器计算资源没有得到充分利用。针对上述局限性,提出基于模型预分配(PA)与自蒸馏(SD)的PFL方法FedPASD。FedPASD从服务器端和客户端2方面入手:在服务器端,对下一轮客户端模型有针对性地预先分配,这样不仅能提高模型的个性化性能,还能有效利用服务器的计算能力;在客户端,经过分层训练,并通过模型自蒸馏微调使模型更好地适应本地数据分布的特点。在3个数据集CIFAR-10、Fashion-MNIST和CIFAR-100上,将FedPASD与FedCP (Federated Conditional Policy)、FedPAC (Personalization with feature Alignment and classifier Collaboration)和FedALA (Federated learning with Adaptive Local Aggregation)等作为基准的典型算法进行对比实验的结果表明:FedPASD在不同异构设置下的测试准确率都高于基准算法。具体而言,FedPASD在CIFAR-100数据集上,客户端数量为50,参与率为50%的实验设置中,测试准确率较传统FL算法提升了29.05~29.22个百分点,较PFL算法提升了1.11~20.99个百分点;在CIFAR-10数据集上最高可达88.54%测试准确率。
在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于此,提出一种基于深度强化学习的UAV集群协同作战决策方法。首先,通过建立基于公共物品博弈的UAV集群作战模型,模拟智能化UAV集群在合作中个体与集体间的利益冲突问题;其次,利用多智能体深度确定性策略梯度(MADDPG)算法求解辅助UAV集群最合理的作战决策,从而以最小的损耗代价实现集群胜利。在不同数量UAV情况下进行训练并展开实验,实验结果表明,与IDQN(Independent Deep Q-Network)和ID3QN(Imitative Dueling Double Deep Q-Network)这两种算法的训练效果相比,所提算法的收敛性最好,且在4架辅助型UAV情况下胜率可达100%,在其他UAV数情况下也明显优于对比算法。
跨视角景象匹配是指从不同平台(如无人机、卫星等)发现同一地理目标的图像。然而,不同图像平台会导致无人机(UAV)定位和导航任务精度较低,现有方法通常只关注图像的单一维度,忽略了图像的多维特征。针对上述问题,提出一种全局注意力和多粒度特征融合(GAMF)深度神经网络以改进特征表示,提高特征可区分度。首先,GAMF模型结合无人机视角和卫星视角的图像,在统一的网络架构下延展为3个分支,从3个维度提取图像的空间位置、通道和局部特征;然后,建立空间全局关系注意力模块(SGAM)和通道全局注意力模块(CGAM),引入空间全局关系机制和通道注意力机制捕获全局信息,从而更好地进行注意力学习;其次,为了融合局部感知特征,引入局部划分策略,以更好地增强模型提取细粒度特征的能力;最后,联合3个维度的特征作为最后的特征对模型训练。在公开数据集University-1652上的实验结果表明,GAMF模型在无人机视觉定位任务上的平均精准率(AP)达到了87.41%,在无人机视觉导航任务中召回率(R@1)达到了90.30%。验证了GAMF模型能够有效聚合图像的多维特征,提高无人机定位和导航任务的准确性。
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。
在多智能体系统中,协作任务往往动态变化,且存在多个冲突的优化目标,因此动态多目标多智能体协同调度问题已经成为亟须解决的关键问题之一。针对动态环境下多智能体协同调度需求,提出了概率驱动的动态预测策略,旨在有效利用历史环境概率分布,预测决策解在新环境的概率分布,从而生成新的多智能体调度方案,实现调度算法在动态环境下的快速响应。具体来讲,设计了基于元素的概率分布表达,以表示解的构成元素在动态环境的适应性,并根据优化算法迭代最优解逐步更新概率分布以趋近实际分布;构建了基于融合的概率分布预测机制,考虑到环境变化的连续性和相关性,当环境变化时,通过融合历史概率分布预测新环境的概率分布,为新环境优化提供先验知识;提出了基于启发式的新解采样机制,结合概率分布和启发式信息,生成解方案以更新过时种群。将概率驱动的动态预测策略嵌入新型的多目标进化算法,获得概率驱动的动态多目标进化算法。在10个动态多目标多智能体协同调度问题实例上,实验结果表明,所提算法在解最优性和多样性上显著优于已有多目标进化算法,所提的概率驱动的动态预测策略能够提高多目标进化算法对动态环境的适应能力。
3D/2D配准是手术导航的关键技术,现有基于深度学习的配准方法通过网络提取图像特征,继而回归出相应的姿态变换参数。此类方法依赖于真实的样本以及对应的3D标签用于训练,然而这部分专家标注的医疗数据十分稀缺。替代的方案用数字重建放射影像(DRR)图像训练网络,由于图像特征跨域的差异,在X射线图像上难以保持原有的配准精度。针对上述问题,设计基于自注意力的无监督跨域迁移网络(UCDTN),无须依赖X射线图像与其对应的3D空间标签作为训练样本,将源域所捕获的图像特征与空间变换间的对应关系迁移到目标域,借助公共特征减小域间特征的差距、降低跨域所带来的负面影响。实验结果表明,UCDTN预测结果的平均配准误差(mTRE)为2.66 mm;与未经跨域迁移训练的模型相比,mTRE指标降低了70.61%,验证了UCDTN在跨域配准任务上的有效性。
联邦学习是一种强调隐私保护的分布式机器学习框架。然而,它在应对统计异质性问题时面临显著挑战。统计异质性源于参与节点间的数据分布差异,可能导致模型更新偏差、全局模型性能下降以及收敛不稳定等问题。针对上述问题,首先,详细分析统计异质性带来的主要问题,包括特征分布不一致、标签分布不均衡、数据量不对称以及数据质量参差不齐等;其次,对现有的联邦学习统计异质性解决方案进行系统综述,包括局部校正、聚类方法、客户端选择优化、聚合策略调整、数据共享、知识蒸馏以及解耦优化等,并逐一评估它们的优缺点与适用场景;最后,探讨了未来的相关研究方向,如设备计算能力感知、模型异构适应、隐私安全机制的优化以及跨任务迁移能力的提升,为应对实际应用中的统计异质性提供参考。
视觉目标跟踪是计算机视觉中的重要任务之一,为实现高性能的目标跟踪,近年来提出了大量的目标跟踪方法,其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力,是目前视觉目标跟踪领域研究的热点。首先,根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类,概述相关原理和模型改进的关键技术,总结不同网络结构的优缺点;其次,对这类方法在公开数据集上的实验结果进行对比,分析网络结构对性能的影响,其中MixViT-L(ConvMAE)在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%,说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景;最后,对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结,并对今后的研究重点进行展望,通过与模型压缩、自监督学习以及Transformer可解释性分析相结合,可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。
智慧家庭领域的发展依赖于构建丰富的时空知识图谱支撑下游任务的设计与执行。然而,构建智慧家庭空间的时空知识图谱面临数据源多样、数据质量低以及规模有限等挑战。因此,提出一种融合说明文档相对位置信息与用户行为日志的双模态知识提取框架来充分挖掘设备说明文档和用户行为日志中的多模态信息,从而高效地实现知识提取与图谱构建。该框架包括两部分:首先,提出一个基于相对位置布局匹配(RPLM)的方法,以利用说明文档的相对位置特性来对设备说明文档中的图像和文本进行关联匹配,同时设计说明文档的本体模型,并与大语言模型(LLM)融合,提取结构化信息并构建说明文档知识图谱;其次,设计功能关联分析(FCA)算法和设备使用行为处理(DUBP)算法,从用户行为日志中提取功能关联的设备信息并构建家庭空间的时空知识图谱。选取LayoutLMv3、ERNIE-Layout和GeoLayoutLM等作为基准模型,并在一个自建中文说明文档布局分析(CMDLA)数据集和合成的用户行为日志数据集以及3个公开文档分析数据集上进行验证。结果表明,所提框架在家庭领域数据集上的知识提取准确性和效率上优于基线方法,准确率达到96.39%,比次优方法GeoLayoutLM提高了0.97个百分点,在异构数据融合与时空建模任务中表现出显著优势。
在医学图像分割网络中,卷积神经网络(CNN)虽然能提取丰富的局部特征细节,但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系,但是会破坏局部特征细节。为充分利用2种网络特征的互补性,提出一种用于医学图像分割的CNN和Transformer并行的融合网络——PFNet。该网络的并行融合模块使用一对基于CNN和Transformer的相互依赖的并行分支来高效地学习局部和全局两方面的辨别特征,并以交互方式交叉融合局部特征和长距离特征的依赖关系;同时,为恢复在下采样期间丢失的空间信息以增强细节的保留,提出多尺度交互(MSI)模块提取分层CNN分支生成的多尺度特征的局部上下文以进行远程依赖关系建模。实验结果表明,PFNet优于MISSFormer(Medical Image Segmentation tranSFormer)和UCTransNet(U-Net with Channel Transformer module)等先进方法。在Synapse和ACDC(Automated Cardiac Diagnosis Challenge)数据集上,相较于最优的基线方法MISSFormer,PFNet的平均Dice相似系数(DSC)分别提高1.27%和0.81%。可见,PFNet能实现更精准的医学图像分割。
针对交通路口图像复杂,小目标难测且目标之间易遮挡以及天气和光照变化引发的颜色失真、噪声和模糊等问题,提出一种基于YOLOv9(You Only Look Once version 9)的交通路口图像的多目标检测算法ITD-YOLOv9(Intersection Target Detection-YOLOv9)。首先,设计CoT-CAFRNet (Chain-of-Thought prompted Content-Aware Feature Reassembly Network)图像增强网络,以提升图像质量,并优化输入特征;其次,加入通道自适应特征融合(iCAFF)模块,以增强小目标及重叠遮挡目标的提取能力;再次,提出特征融合金字塔结构BiHS-FPN (Bi-directional High-level Screening Feature Pyramid Network),以增强多尺度特征的融合能力;最后,设计IF-MPDIoU (Inner-Focaler-Minimum Point Distance based Intersection over Union)损失函数,以通过调整变量因子,聚焦关键样本,并增强泛化能力。实验结果表明,在自制数据集和SODA10M数据集上,ITD-YOLOv9算法的检测精度分别为83.8%和56.3%,检测帧率分别为64.8 frame/s和57.4 frame/s。与YOLOv9算法相比,ITD-YOLOv9算法的检测精度分别提升了3.9和2.7个百分点。可见,所提算法有效实现了交通路口的多目标检测。
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。
针对现有对齐多模态语言序列情感分析方法常用的单词对齐方法缺乏可解释性的问题,提出了一种用于未对齐多模态语言序列情感分析的多交互感知网络(MultiDAN)。MultiDAN的核心是多层的、多角度的交互信息提取。首先使用循环神经网络(RNN)和注意力机制捕捉模态内的交互信息;然后,使用图注意力网络(GAT)一次性提取模态内及模态间的、长短期的交互信息;最后,使用特殊的图读出方法,再次提取图中节点的模态内及模态间交互信息,得到多模态语言序列的唯一表征,并应用多层感知机(MLP)分类获得序列的情感分数。在两个常用公开数据集CMU-MOSI和CMU-MOSEI上的实验结果表明,MultiDAN能充分提取交互信息,在未对齐的两个数据集上MultiDAN的F1值比对比方法中最优的模态时空注意图(MTAG)分别提高了0.49个和0.72个百分点,具有较高的稳定性。MultiDAN可以提高多模态语言序列的情感分析性能,且图神经网络(GNN)能有效提取模态内、模态间的交互信息。
针对现有基于深度学习的篡改图像检测网络通常存在检测精度不高、算法可迁移性弱等问题,提出一种双通道渐进式特征过滤网络。利用两个通道并行提取图像的双域特征,一个通道提取图像空间域的浅层和深层特征,另一个通道提取图像噪声域的特征分布;同时,使用渐进式细微特征筛选机制过滤冗余特征,逐步定位篡改区域;为了更准确地提取篡改掩码,提出一个双输入细微特征提取模块,结合空间域和噪声域的细微特征,生成更准确的篡改掩码;在解码过程中,通过融合不同尺度的过滤特征和网络的上下文信息,提高网络对篡改区域的定位能力。实验结果表明,在检测和定位方面,与现有先进的篡改检测网络ObjectFormer、MVSS-Net(Multi-View multi-Scale Supervision Network)和PSCC-Net(Progressive Spatio-Channel Correlation Network)相比,所提网络的F1分数在CASIA V2.0数据集上分别提高10.4、5.9和12.9个百分点;面对高斯低通滤波、高斯噪声和JPEG压缩攻击时,相较于ManTra-Net(Manipulation Tracing Network)、SPAN(Spatial Pyramid Attention Network),所提网络的曲线下面积(AUC)分别至少提高了10.0、5.4个百分点。验证了所提网络可以有效解决篡改检测算法存在的检测精度不高、迁移性差等问题。
知识追踪(KT)是一种认知诊断方法,旨在通过学习者的历史答题记录,模拟学习者对于学习知识的掌握程度,最终预测学习者未来的答题情况。目前基于深度神经网络模型的知识追踪技术以强大的特征提取能力和优越的预测能力成为知识追踪领域研究的热点;然而,基于深度学习的知识追踪模型通常缺乏较好的可解释性。清晰的可解释性不仅可以让学习者和教师充分理解知识追踪模型的推理过程和预测结果,从而为下一步学习制定符合当前知识状态的学习计划,还能够提升学习者和教师对知识追踪模型的信任程度。因此,对可解释的深度知识追踪(DKT)方法进行综述。首先,介绍知识追踪的发展历程,并介绍可解释性的定义和必要性;其次,从特征提取和模型内部提升两方面,对解决DKT模型缺乏可解释性而提出的改进方法进行总结和梳理;再次,介绍现有的可供研究者使用的相关公开数据集,并分析数据集内的数据特征对可解释性的影响,从而探讨如何从模型性能和可解释性两个方面对知识追踪模型进行评价,并整理DKT模型在不同数据集上的性能表现;最后,对DKT模型目前存在的问题提出一些未来可能的研究方向。
针对现有视频伪造数据集缺少多模态伪造场景与部分伪造场景的问题,构建一个综合使用多种音、视频伪造方法的、伪造比例可调的多模态部分伪造数据集PartialFAVCeleb。所提数据集基于FakeAVCeleb多模态伪造数据集,并通过拼接真伪数据构建,其中伪造数据由FaceSwap、FSGAN(Face Swapping Generative Adversarial Network)、Wav2Lip(Wave to Lip)和SV2TTS(Speaker Verification to Text-To-Speech)这4种方法生成。在拼接过程中,使用概率方法生成伪造片段在时域与模态上的定位,并对边界进行随机化处理以贴合实际伪造场景,并通过素材筛选避免背景跳变现象。最终生成的数据集对于每个伪造比例可产生3 970条视频数据。在基准检测中,使用多种音视频特征提取器,并分别进行强、弱监督两种条件下的测试,其中弱监督测试基于层次多示例学习(HMIL)方法实现。测试结果显示,各个测试模型在伪造比例较低数据上的性能表现显著低于在伪造比例较高数据上的性能,且弱监督条件下各模型的性能表现显著低于强监督条件下的表现,这验证了该部分伪造数据集的弱监督检测困难性。以上结果表明,以所提数据集为代表的多模态部分伪造场景有充分的研究价值。
群智能算法的优化是提升群智能算法性能的一个主要途径,随着群智能算法越来越广泛地运用到各类模型优化、生产调度、路径规划等问题中,对智能算法性能的要求也越来越高。亚群策略作为一种优化群智能算法的重要手段,能够灵活地平衡算法的全局勘探能力和局部开发能力,已经成为群智能算法的研究热点之一。为了促进亚群优化策略的发展和应用,对动态亚群策略、基于主从范式的亚群策略和基于网络结构的亚群策略进行了详细调查,阐述了各类亚群策略的结构特点、改进方式和应用场景。最后,总结了亚群策略目前存在的问题以及未来的研究趋势和发展方向。
为了解决联邦学习中恶意客户端通过上传恶意更新破坏全局模型可靠性的问题,提出一种面向联邦学习的投毒攻击检测与防御算法FedDyna。首先,设计一种异常客户端检测方案,利用余弦相似度与欧几里得距离的历史标准差初步检测异常更新,并结合多视角模型评估机制进一步检测可疑的客户端;其次,提出一种自适应调整策略,根据权重调整因子逐步降低被判定为异常客户端的参与权重,直至将恶意更新从模型训练过程中剔除。在EMNIST和CIFAR-10数据集上评估FedDyna在不同攻击场景下的防御性能,并与现有的先进防御算法进行对比。实验结果表明,在固定攻击频率的条件下,将FedDyna算法与Scope算法进行效果对比:面对投影梯度下降(PGD)、模型替换(MR)以及PGD+MR这3种攻击方式,FedDyna均取得了最优效果,攻击成功率(ASR)分别降低了1.07和0.53、1.49和1.45、10.55和1.25个百分点;在余弦约束攻击(CCA)攻击的EMNIST数据集下,FedDyna的ASR虽略有下降,但仍取得了次优结果。此外,当在不同攻击者池中与对比算法进行效果评估时,FedDyna的ASR在多数条件下表现最优,其余条件下也处于次优水平。尤为突出的是,在不同攻击强度的场景下,FedDyna的平均全局模型准确率(MA)高达98.5%。可见,FedDyna在不同攻击场景下表现出显著的抗投毒攻击稳健性,且能够有效检测并剔除投毒模型。
现有睡眠监测研究主要是针对睡眠质量提出非干扰式监测方法的研究,而缺乏对睡眠质量主动调节方法的研究。基于心率变异性(HRV)分析的精神状态以及睡眠分期研究主要集中在这两种信息的获取上,而这两种信息的获取需要佩戴专业医疗设备,并且这些研究缺乏对信息的应用以及调整。音乐可以作为一种解决睡眠问题的非药物类方法,但现有音乐推荐方法并未考虑个体睡眠及精神状态的差异。针对以上问题提出了一种基于移动设备的精神压力和睡眠状态的音乐推荐系统。首先,用手表采集光体积扫描计信号来提取特征并计算心率;其次,将采集的信号通过蓝牙传递给手机,手机通过这些信号评估人的精神压力以及睡眠状态来播放调整音乐;最后,根据个体每晚的入眠时间进行音乐推荐。实验结果表明,在使用睡眠音乐推荐系统后,用户睡眠总时长相较于使用前增长11.0%。
传统交通流量预测模型未能有效考虑地区间和时段间的时间延迟效应,且难以同时捕捉交通流量的短期波动与长期趋势。为此,提出一种结合小波分解与时间延迟感知的时空预测模型(WTA-LAGNN)。首先,结合小波分解将交通流量数据分为长期趋势模式和短期波动模式:短期波动模式通过特征增强模块强化关键特征,提升对短期波动的敏感性;针对长期趋势,设计了序列增强的多头自注意力机制捕捉流量的长期变化。其次,为了处理时间延迟效应,设计了时间序列延迟感知层,优化区域间流量传播的时空依赖关系。最后,通过融合层生成最终预测结果。基于现实高速公路交通数据集PeMS03、PeMS04、PeMS07、PeMS08进行60 min流量预测,结果表明,在PeMS03和PeMS07数据集上,与时空图神经控制微分方程(STG-NCDE)相比,WTA-LAGNN的平均绝对误差(MAE)、均方根误差(RMSE)分别降低了5.14%、2.69%和5.80%、2.69%;在PeMS08数据集上,与交通流量矩阵-图卷积注意力模型(TFM-GCAM)相比,WTA-LAGNN的MAE、RMSE分别下降了9.28%、3.32%;在PeMS04数据集上,与时空融合图卷积网络(STFGCN)相比,WTA-LAGNN的MAE、RMSE分别降低了3.53%、2.72%。WTA-LAGNN的整体模型性能上优于对比模型,能更有效地捕捉时空依赖关系,提升流量预测精度。