在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。
区块链账本数据是公开透明的。一些攻击者可以通过分析账本数据来获取敏感信息,这对用户的交易隐私造成威胁。鉴于区块链交易隐私保护的重要性,首先分析产生交易隐私泄露的原因,并将交易隐私分为交易者身份隐私和交易数据隐私两类;其次,从这两种不同类型的隐私角度,阐述现有的面向区块链交易的隐私保护技术;接着,鉴于隐私保护和监管之间的矛盾性,介绍兼具监管的交易身份隐私保护方案;最后,总结和展望了区块链交易隐私保护技术未来的研究方向。
针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。
平均场理论(MFT)为理解深度神经网络(DNN)的运行机制提供了非常深刻的见解,可以从理论上指导深度学习的工程设计。近年来,越来越多的研究人员开始投入DNN的理论研究,特别是基于MFT的一系列工作引起人们的广泛关注。为此,对深度神经网络平均场理论相关的研究内容进行综述,主要从初始化、训练过程和泛化性能这三个基本方面介绍最新的理论研究成果。在此基础上,介绍了混沌边缘和动力等距初始化的相关概念、相关特性和具体应用,分析了过参数网络以及相关等价网络的训练特性,并对不同网络架构的泛化性能进行理论分析,体现了平均场理论是理解深度神经网络机理的非常重要的基本理论方法。最后,总结了深度神经网络中初始、训练和泛化阶段的平均场理论面临的主要挑战和未来研究方向。
环形伪影是各类型计算机断层扫描(CT)图像中最常见的伪影之一,通常是由于探测器像素对X射线响应不一致导致的。有效去除环形伪影能极大提高CT图像质量,提升后期诊断和分析的精度,是CT图像重建中的必要步骤。因此,对环形伪影去除(又称“环形伪影校正”)方法进行了系统梳理。首先,介绍环形伪影的表现和成因,给出常用的数据集、算法库;其次,依次介绍基于探测器校正、基于解析和迭代求解(分为投影数据预处理、CT图像重建、CT图像后处理环节)、基于深度学习(分为卷积神经网络、生成对抗网络)的环形伪影去除方法,并分析每类方法的原理、发展过程及优缺点;最后,归纳现有环形伪影去除方法在鲁棒性、数据集多样化、模型构建等方面存在的技术瓶颈,并对解决方案进行展望。
为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。
在多智能体系统中,协作任务往往动态变化,且存在多个冲突的优化目标,因此动态多目标多智能体协同调度问题已经成为亟须解决的关键问题之一。针对动态环境下多智能体协同调度需求,提出了概率驱动的动态预测策略,旨在有效利用历史环境概率分布,预测决策解在新环境的概率分布,从而生成新的多智能体调度方案,实现调度算法在动态环境下的快速响应。具体来讲,设计了基于元素的概率分布表达,以表示解的构成元素在动态环境的适应性,并根据优化算法迭代最优解逐步更新概率分布以趋近实际分布;构建了基于融合的概率分布预测机制,考虑到环境变化的连续性和相关性,当环境变化时,通过融合历史概率分布预测新环境的概率分布,为新环境优化提供先验知识;提出了基于启发式的新解采样机制,结合概率分布和启发式信息,生成解方案以更新过时种群。将概率驱动的动态预测策略嵌入新型的多目标进化算法,获得概率驱动的动态多目标进化算法。在10个动态多目标多智能体协同调度问题实例上,实验结果表明,所提算法在解最优性和多样性上显著优于已有多目标进化算法,所提的概率驱动的动态预测策略能够提高多目标进化算法对动态环境的适应能力。
基于不完整数据的多视图聚类任务已经成为无监督学习领域的研究热点之一。然而大多数基于“浅层”模型的多视图聚类算法通常在面对大规模高维数据时难以提取和刻画视图内的潜在特征结构;同时,堆叠或求平均的多视图信息融合方式忽视了视图之间的差异性,没有充分考虑各视图对构建公共一致表示的不同贡献。针对以上问题,提出一种基于自注意力融合的不完整多视图聚类算法(IMVCSAF)。首先,基于深度自编码器提取各视图的潜在特征,并采用对比学习的方式最大化各视图间的一致性信息;其次,采用自注意力机制对各视图的潜在表示进行重新编码和融合,并全面考虑和挖掘不同视图之间的内在因果性和特征互补性;再次,基于公共一致表示对缺失实例样本的潜在表示进行预测和恢复,从而完整地实现多视图聚类的过程。在Scene-15、LandUse-21、Caltech101-20和Noisy-MNIST数据集上的实验结果表明,IMVCSAF在满足收敛性要求的前提下得到的准确率均高于其他对比算法,而在50%缺失率的Noisy-MNIST数据集上,IMVCSAF的准确率比次优的COMPLETER(inCOMPlete muLti-view clustEring via conTrastivE pRediction)算法提高了6.58个百分点。
多变量时间序列(MTS)数据具有高维性,且分布复杂多变,现有的异常检测模型在面对MTS数据集时普遍存在误判率高、训练困难等问题,且多数模型仅考虑时间序列样本的时空特征,对时间序列特征的学习并不全面。为了解决以上问题,提出一种基于多域特征提取的MTS异常检测模型(MFE-TS)。首先,从原始数据域出发,使用长短期记忆(LSTM)网络与卷积神经网络(CNN)分别提取MTS的时间相关性和空间相关性特征。其次,用傅里叶变换将原始时间序列转换到频域空间,并利用Transformer学习数据在频域空间的幅度与相位特征。多域特征学习能更全面地建模时间序列特征,从而提高模型对MTS的异常检测性能。此外,引入掩码策略,进一步增强模型的特征学习能力,并使模型具备一定的抗噪性。实验结果表明,MFE-TS在多个真实MTS数据集上展现了优越的性能,同时在含有噪声的数据集中仍能保持较好的检测效果。
知识图谱从装备故障诊断数据中提取有用的知识,通过(实体,关系,实体)的三元组方式,对复杂装备的故障诊断信息进行有效管理,实现装备故障的快速诊断。首先,介绍装备故障诊断知识图谱的相关概念,分析装备故障诊断领域知识图谱的构建框架;其次,归纳国内外装备故障诊断知识图谱的知识抽取、知识融合以及知识推理等几个关键技术的研究现状;最后,对目前装备故障诊断知识图谱应用进行总结,提出该领域知识图谱构建的不足和面临的挑战,并对未来装备故障诊断领域提供一些新的思路。
当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成为实时光线追踪的核心。首先,介绍了光线追踪的理论基础,基于目前最主流的2种硬件加速数据结构(KD-Tree(K-Dimensional Tree)和层次包围盒树(BVH-Tree)),分别从基元分割、构造方法、优化方法和遍历加速的角度进行调研,发掘这2种结构用于硬件加速的潜力;其次,从固定函数设计、硬件架构设计、以减少内存带宽为目标的调度和数据管理这3个角度,对各个阶段所开发的专用加速硬件进行总结;再次,面向产业界调研主流的光线追踪GPU的产业界解决方案以及未来发展趋势;最后,总结并讨论光线追踪硬件加速方案的现状与不足,并展望了这些方案的性能优化方向。
针对目前主流的图像编辑方法存在任务单一、操作不友好、保真度低等问题,提出一种基于扩散模型对图像进行高保真编辑的方法。该方法将目前主流的稳定扩散模型作为骨干网络,首先使用低秩适用(LoRA)方法对模型进行微调,使模型能够更好地重建原始图像;其次,使用微调后的模型将图片与简单的提示词通过设计的框架进行推理,最终生成编辑后图像。另外,在上述方法基础上扩展提出了双层U-Net结构用于特定需求的图像编辑任务以及视频合成。与领先的方法Imagic、DiffEdit、InstructPix2Pix在Tedbench数据集上的对比实验结果显示:所提方法能够对图像进行包括非刚性编辑的多种编辑任务,可编辑性强;而且在学习感知块相似性(LPIPS)指数上比Imagic下降了30.38%,表明该方法具有更高的保真度。
情感计算可以为智慧教育提供更好的教学效果和学习体验。目前针对课堂领域的情感计算研究仍存在有限的适应性与对复杂场景的感知能力较弱的问题。针对这一挑战,提出一种混合架构SC-ACNet,旨在对学生课堂进行准确的情感计算。该架构包含一个能适应小目标的多尺度学生面部检测模块;一个能适应不同面部姿态的、具有自适应空间结构的情感计算模块,对学生的5种课堂情感(平静、困惑、愉悦、困倦和惊讶)进行准确识别;以及一个自注意力模块,以可视化模型中对结果产生主要贡献的区域。此外,为缓解课堂环境下学生面部情绪图像数据集匮乏的问题,构建了一个学生课堂数据集SC-ACD。在SC-ACD数据集上的实验结果表明,与基线方法YOLOv7相比,SC-ACNet的平均精度均值(mAP)提升了4.2个百分点,情感计算准确率提升了9.1个百分点;此外,SC-ACNet在KDEF和RaFD数据集上的准确率分别达到了0.972和0.994,验证了SC-ACNet可作为提高智慧课堂教学质量的有前途的解决方案。
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。
联邦学习(FL)是一种在隐私保护和通信效率方面极具潜力的新型机器学习模型构建范式,然而现实物联网(IoT)场景中客户端节点数据之间会存在异构性,学习一个统一的全局模型会导致模型准确率下降。为了解决这一问题,提出一种基于特征分布的聚类联邦学习(CFLFD)算法。在该算法中,对每个客户端节点从模型提取的特征进行主成分分析(PCA)后所得到的结果进行聚类,以将具有相似数据分布的客户端节点聚类在一起相互协作,从而提高模型准确率。为验证算法的有效性,在3个数据集和4种基准算法上进行大量实验。实验结果表明,与FedProx相比,CFLFD算法在CIFAR10数据集和Office-Caltech10数据集上将模型准确率分别提升了1.12和3.76个百分点。
环境、社会及治理(ESG)指标是评估企业可持续发展的重要指标。现有的ESG评估体系存在覆盖范围狭窄、主观性强和时效性差等问题,因此,迫切需要研究能利用企业数据准确预测ESG指标的预测模型。针对企业数据中ESG关联特征存在信息丰度不一致的问题,提出一种基于丰度协调技术的企业ESG指标预测模型RCT (Richness Coordination Transformer),其中上游丰度协调模块通过自编码器协调异质丰度特征,从而提高下游模块的ESG指标预测性能。在真实数据集上的实验结果表明,与模型时间卷积网络(TCN)、长短期记忆(LSTM)网络、自注意力模型(Transformer)、极限梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)相比,RCT模型在各项预测指标上均表现最优,验证了RCT模型在预测ESG指标上的有效性和优越性。
工业缺陷检测在保障产品质量、提高企业竞争力方面具有极其重要的作用。传统的缺陷检测方法依赖人工检查,成本高且效率低下,难以满足大规模的质量检验需求。近年来,基于视觉的工业缺陷检测技术取得了显著进步,已成为产品外观质量检验的一种高效解决方案。但在许多实际工业场景中,获取大量带有标签的数据非常困难,且对产品检测的人工成本和实时性均有所要求,因此,无监督学习逐渐成为研究的热点。针对该领域任务构建、现行技术、评估标准以及不同方法之间的共性和差异,对相关工作进行综述。首先,明确工业缺陷问题的定义,并从数据难点和任务挑战等多个角度分析该问题的难点;其次,重点介绍基于无监督深度学习的工业缺陷检测主流方法,并对它们进行详细的归纳与分析;再次,介绍常用的公开数据集与评价指标;最后,对工业缺陷检测领域将来的工作进行展望。
常规的大规模子空间聚类算法在计算锚点亲和矩阵时忽略了数据之间普遍存在的局部结构,且在计算拉普拉斯(Laplacian)矩阵的近似特征向量时存在较大误差,不利于数据聚类。针对上述问题,提出一种融合局部结构学习的大规模子空间聚类算法(LLSC)。所提算法将局部结构学习嵌入锚点亲和矩阵的学习,从而能够综合利用全局和局部信息挖掘数据的子空间结构;此外,受非负矩阵分解(NMF)的启发,设计一种迭代优化方法以简化锚点亲和矩阵的求解过程;其次,根据Nystr?m近似方法建立锚点亲和矩阵与Laplacian矩阵的数学联系,并改进Laplacian矩阵特征向量的计算方法以提升聚类性能。相较于LMVSC(Large-scale Multi-View Subspace Clustering)、SLSR(Scalable Least Square Regression)、LSC-k(Landmark-based Spectral Clustering using k-means)和k-FSC(k-Factorization Subspace Clustering),LLSC在4个广泛使用的大规模数据集上显示出明显的提升,其中,在Pokerhand数据集上,LLSC的准确率比k-FSC高28.18个百分点,验证了LLSC的有效性。
针对复杂地形环境下的无人机(UAV)路径规划问题,提出一种基于改进鲸鱼优化算法(MWOA)的动态UAV路径规划方法。首先,通过解析山体地形、动态目标和威胁区,建立三维动态环境与UAV航路模型;其次,提出一种自适应步长高斯游走策略,并将该策略用于平衡算法的全局探索与局部发掘的能力;最后,提出一种辅助修正策略对种群最优个体进行修正,并结合差分进化策略,在避免种群陷入局部最优的同时提高算法的收敛精度。为验证MWOA的有效性,使用MWOA与鲸鱼优化算法(WOA)、人工蜂鸟算法(AHA)等智能算法求解CEC2022测试函数,并在设计的UAV动态环境模型中进行验证。仿真结果对比分析表明,与WOA相比,MWOA的收敛精度提高了6.1%,标准差减小了44.7%。可见,所提MWOA收敛更快且精度更高,能有效处理UAV路径规划问题。
抑郁症的诊断主要依赖于医师的咨询和量表评估等主观方法,可能导致误诊。脑电图(EEG)具有高时间分辨率、低成本、易于设置和无创等优点,因此可以用作精神障碍(如抑郁症)的定量测量工具。深度学习算法目前在EEG信号上有多种应用,其中就包括抑郁症的诊断和分类。EGG信号在通过自注意力机制处理时有大量的冗余部分,因此,提出一种基于概率稀疏自注意力机制的卷积神经网络(PSANet)。首先,根据采样因数在自注意力机制中选取少量最关键的注意力点,在运用自注意力机制的同时克服它计算成本高的缺点,使它可以在脑电长序列数据上应用;同时将脑电图与患者的生理量表进行嵌合,从而进行多维度诊断。在一个包含抑郁症患者和健康对照组的数据集上进行实验评估,实验结果表明,PSANet表现出较高的分类准确性,参数量也低于EEGNet等对比方法。
针对现有大语言模型(LLM)在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限,提出基于学术社交网络(ASN)的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成(KGAG)与检索增强生成(RAG),以提升精准语义检索与动态知识更新的能力,并通过微调优化以强化学术文本的生成质量。首先,基于学者网(SCHOLAT)关系数据构建学者知识图谱,并利用LLM进行语义增强;其次,提出KGAG检索模型,结合RAG实现多路混合检索,增强LLM的精准检索能力;最后,利用微调技术优化模型,使它在各学术领域的生成质量得到提升。实验结果表明,ScholatGPT在学术问答任务中的精确率达83.2%,相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点,在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面,ScholatGPT取得了稳定且具有竞争力的表现,在专业性与可读性之间实现了较好的平衡。此外,基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。
全景视频由于独特的沉浸式、交互式体验受到广泛关注。全景视频传输所需的高带宽、低时延给现有网络传输系统带来了挑战。基于tile(块)的视口自适应传输可以有效缓解全景视频所带来的传输压力,成为当前的主流方案和研究热点。通过分析基于tile的视口自适应传输方案的研究现状和发展趋势,对该传输方案的两个重要模块,即视口预测与码率分配进行论述,从不同视角归纳总结相关领域的方法。首先,基于全景视频传输框架对相关技术进行阐明;其次,从主、客观两个维度分别介绍评估传输系统性能的用户体验质量的指标;再后,分别从视口预测、码率分配两方面进行归纳,系统梳理经典的研究方法;最后,基于当前研究现状讨论全景视频传输的未来发展趋势。
针对睡眠阶段与睡眠呼吸暂停低通气之间相关性的问题,提出一种基于自适应多任务学习的睡眠生理时序分类方法。该方法利用单导脑电与心电检测睡眠分期和睡眠呼吸暂停低通气综合征(SAHS),构造双流时间依赖学习模块,在两个任务的联合监督下提取共享特征,设计自适应任务间关联性学习模块,利用通道注意力机制建模睡眠阶段和呼吸暂停低通气之间的相关性。在两个公开数据集上的实验结果表明,所提方法可以同时完成睡眠分期与SAHS检测。在UCD数据集上,所提方法睡眠分期准确率、宏F1分数(MF1)、受试者特性曲线下面积(AUC)与TinySleepNet相比分别提升了1.21个百分点、1.22个百分点和0.008 3,SAHS检测的宏F2分数(MF2)、受试者特性曲线下面积、召回率与6-layer CNN模型相比,分别提升了11.08个百分点、0.053 7和15.75个百分点,能检出更多患病片段。所提方法可应用于家庭睡眠监测或移动医疗中,实现高效、便捷的睡眠质量评估,辅助医生对SAHS进行初步诊断。
现有机器学习方法在面对零日攻击检测时,存在对样本数据过度依赖以及对异常数据不敏感的问题,从而导致入侵检测系统(IDS)难以有效防御零日攻击。因此,提出一种基于Transformer和自适应模糊神经网络推理系统(ANFIS)的混合车联网入侵检测系统。首先,设计了一种数据增强算法,通过先去除噪声再生成的方法解决了数据样本不平衡的问题;其次,将非线性特征交互引入复杂的特征组合,设计了一个特征工程模块;最后,将Transformer的自注意力机制和ANFIS的自适应学习方法相结合,以提高特征表征能力,减少对样本数据的依赖。在CICIDS-2017和UNSW-NB15入侵数据集上将所提系统与Dual-IDS等先进(SOTA)算法进行比较。实验结果表明,对于零日攻击,所提系统在CICIDS-2017入侵数据集上实现了98.64%的检测精确率和98.31%的F1值,在UNSW-NB15入侵数据集上实现了93.07%的检测精确率和92.43%的F1值,验证了所提算法在零日攻击检测方面的高准确性和强泛化能力。
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的相关文献,对无监督学习和监督学习的抽取式文本摘要技术进行多维度、全方位的分析。首先,回顾文本摘要技术的发展,分析不同的抽取式文本摘要方法,主要包括基于规则、词频-逆文件概率(TF-IDF)、中心性方法、潜在语义、深度学习、图排序、特征工程和预训练学习等,并对比不同方法的差异;其次,详细介绍不同语种文本摘要生成的常用数据集和主流的评价指标,通过不同的实验指标对相同数据集上的方法进行比较;最后,指出当前抽取式文本摘要研究中存在的主要问题和挑战,并提出具体的解决思路和未来发展趋势。
随着云计算和大数据的普及,越来越多的用户隐私数据被上传到云端计算和处理;然而,由于隐私数据交由不可信的第三方存储和管理,因此面临被泄露的风险,进而导致公民的生命和财产安全乃至国家的安全都受到不利影响。近年来,一些基于密码学算法的隐私计算技术,例如安全多方计算、同态加密(HE)和联邦学习等,解决了隐私数据传输和计算过程中的安全问题,进而实现了隐私数据的“可用不可见”;然而,这些方案由于计算和通信复杂度的原因没能得到广泛部署和应用。许多研究工作致力于利用可信执行环境(TEE)降低隐私计算技术的计算量和通信复杂度,同时保证不影响这些技术的安全性。TEE通过硬件辅助创建可以信赖的执行环境,并保证其中隐私数据和代码的机密性、完整性和可用性。因此,从隐私计算和TEE结合的研究入手。首先,全面分析TEE保护用户隐私数据的系统架构和硬件支持;其次,对比现有TEE架构各自的优势和不足;最后,结合工业界和学术界的最新进展,探讨隐私计算和TEE交叉研究领域的未来发展方向。
联邦学习(FL)应用场景中,常面临客户端数据异质性和不同任务需求需要提供个性化模型的问题,但现有的部分个性化联邦学习(PFL)算法中存在个性化与全局泛化的权衡问题,并且这些算法大多采用传统FL中根据客户端数据量加权聚合的方法,导致数据分布差异大的客户端模型性能变差,缺乏个性化聚合策略。针对上述问题,提出一种基于相似度聚类和正则化的PFL算法pFedSCR。pFedSCR算法在客户端本地更新阶段训练个性化模型和局部模型,其中:个性化模型在交叉熵损失函数中引入L2范数正则化,动态调整参考全局模型的程度,在汲取全局知识的基础上实现个性化;在服务端聚合阶段,根据客户端模型更新的相似度聚类,构建聚合权重矩阵,动态调整聚合权重,为不同客户端聚合个性化模型,让参数聚合策略具有个性化的同时解决数据异构问题。在CIFAR-10、MNIST、Fashion-MNIST 3个数据集上通过狄利克雷(Dirichlet)分布模拟了多种非独立同分布(Non-IID)数据场景,结果表明:pFedSCR算法在各种场景下的准确度和通信效率都优于经典算法FedProx和最新个性化算法FedPCL (Federated Prototype-wise Contrastive Learning)等联邦学习算法,最高可达到99.03%准确度。
知识追踪(KT)是在线教育中一项基础且具有挑战性的任务,同时也是从学习者的学习历史中建立学习者知识状态模型的任务,可以帮助学习者更好地了解自己的知识状态,使教育者更好地了解学习者的学习情况。对在线教育学习者KT研究进行综述。首先,介绍KT的主要任务和发展历程;其次,从传统KT模型和深度学习KT模型两个方面展开叙述;再次,归纳总结相关数据集和评价指标,并汇总KT的相关应用;最后,总结KT现状,讨论它们的不足和未来发展方向。
情感识别是一种让计算机识别和理解人类情感的技术,在众多领域都起着重要的作用,也是人工智能领域重要的发展方向。因此,梳理与归纳基于语音和文本的双模态情感识别的研究现状:首先,分类阐述情感表示空间;其次,按照情感数据库的情感表示空间对这些数据库进行分类,并总结常见的多模态情感数据库;再次,介绍基于语音和文本的双模态情感识别方法,包括特征提取、模态融合和决策分类,重点介绍模态融合方法并将这些方法分为特征级融合、决策级融合、模型级融合和多层次融合这4类;此外,比较和分析一系列语音和文本双模态情感识别方法的结果;最后,介绍情感识别的应用场景、面临的挑战与未来的发展方向。以上旨在对多模态情感识别,尤其是对基于语音和文本的双模态情感识别的相关工作进行分析与总结,并为情感识别提供有价值的参考。
为提高遥感图像语义分割精度,解决深度卷积神经网络(DCNN)特征提取过程中小尺寸目标信息丢失的问题,提出一种基于多尺度特征融合的语义分割方法FuseSwin。首先,在Swin Transformer中引入注意力增强模块(AEM),以突出目标所在区域并抑制背景噪声的干扰;其次,利用特征金字塔网络(FPN)融合多尺度特征的细节信息和高级语义信息,以补充目标的特征;最后,通过空洞空间金字塔池化(ASPP)模块从融合特征图中进一步捕获目标的上下文信息,提升模型分割精度。实验结果表明,所提方法在Potsdam遥感数据集上的平均像素准确率(mPA)和平均交并比(mIoU),与DeepLabV3方法相比,分别提高了2.34、3.23个百分点;与SegFormer方法相比,分别提高了1.28、1.75个百分点,优于目前主流的分割方法。此外,将所提方法实际应用于广西钦州茅尾海的高分辨率遥感图像中的蚝排识别与分割,分别取得96.21%、91.70%的像素准确率(PA)和交并比(IoU)。