环境、社会及治理(ESG)指标是评估企业可持续发展的重要指标。现有的ESG评估体系存在覆盖范围狭窄、主观性强和时效性差等问题,因此,迫切需要研究能利用企业数据准确预测ESG指标的预测模型。针对企业数据中ESG关联特征存在信息丰度不一致的问题,提出一种基于丰度协调技术的企业ESG指标预测模型RCT (Richness Coordination Transformer),其中上游丰度协调模块通过自编码器协调异质丰度特征,从而提高下游模块的ESG指标预测性能。在真实数据集上的实验结果表明,与模型时间卷积网络(TCN)、长短期记忆(LSTM)网络、自注意力模型(Transformer)、极限梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)相比,RCT模型在各项预测指标上均表现最优,验证了RCT模型在预测ESG指标上的有效性和优越性。
联邦学习(FL)是一种在隐私保护和通信效率方面极具潜力的新型机器学习模型构建范式,然而现实物联网(IoT)场景中客户端节点数据之间会存在异构性,学习一个统一的全局模型会导致模型准确率下降。为了解决这一问题,提出一种基于特征分布的聚类联邦学习(CFLFD)算法。在该算法中,对每个客户端节点从模型提取的特征进行主成分分析(PCA)后所得到的结果进行聚类,以将具有相似数据分布的客户端节点聚类在一起相互协作,从而提高模型准确率。为验证算法的有效性,在3个数据集和4种基准算法上进行大量实验。实验结果表明,与FedProx相比,CFLFD算法在CIFAR10数据集和Office-Caltech10数据集上将模型准确率分别提升了1.12和3.76个百分点。
入侵检测系统(IDS)等安全机制已被用于保护网络基础设施和网络通信免受网络攻击。随着深度学习技术的不断进步,基于深度学习的IDS逐渐成为网络安全领域的研究热点。通过对文献广泛调研,详细介绍利用深度学习技术进行网络入侵检测的最新研究进展。首先,简要概述当前几种IDS;其次,介绍基于深度学习的IDS中常用的数据集和评价指标;然后,总结网络IDS中常用的深度学习模型及其应用场景;最后,探讨当前相关研究面临的问题,并提出未来的发展方向。
大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。
当前求解微分代数方程(DAE)的神经网络方法基本都采用数据驱动策略,需要大量的数据集,因此存在对神经网络的结构和参数选择敏感、求解结果精度低、稳定性差等问题。针对这些问题,提出一种基于Lobatto方法和Legendre多项式的物理信息神经网络(LL-PINN)。首先,基于离散型物理信息神经网络(PINN)的计算框架,结合Lobatto IIIA方法求解DAE高精度和高稳定性的优点,将DAE的物理信息嵌入Lobatto IIIA时间迭代格式中,并使用PINN对该时间迭代进行近似数值求解;其次,采用单隐藏层的神经网络结构,利用勒让德多项式展开项的逼近能力,应用这些多项式作为激活函数来简化网络模型调整的过程;最后,采用时间区域分解方案构建网络模型,即对每个等分的子时间区域依次使用一个微分神经网络和一个代数神经网络,从而实现DAE的高精度连续时间预测。数值算例结果表明,基于勒让德多项式和4阶的Lobatto方法的LL-PINN实现了对DAE的高精度求解。与函数连接理论(TFC)试验解模型和PINN模型相比,LL-PINN的微分变量和代数变量的预测解与精确解的绝对误差显著降低,精度提高了一个或两个量级。因此,所提求解模型对求解DAE问题具有较好的计算精度,可为解决具有挑战性的偏DAE提供可行的解决方案。
针对当前瓷砖缺陷检测主要依靠人工检测导致的主观性强、效率低、劳动强度大等问题,提出一种基于改进YOLOv8的轻量级大幅面瓷砖图像微小缺陷检测算法。首先,对高分辨率大幅面图像进行裁切处理,并在骨干网络中引入HorBlock增强模型的捕捉能力;其次,融入大型可分离内核注意力(LSKA)改进C2f提高模型的检测性能,并通过引入SA(Shuffle Attention)增强模型的特征提取能力;最后,引入全维度动态卷积(ODConv)进一步增强模型对微小缺陷的处理能力。在阿里天池瓷砖瑕疵检测数据集上的实验结果表明:改进后的模型不仅参数量比原始YOLOv8n低,而且mAP@0.5提升了8.2个百分点,F1分数提升了7个百分点。可见,改进后的模型能更精确地识别和处理大幅面瓷砖的微小表面缺陷,且能在保持轻量级的同时,显著提升检测效果。
情感识别是一种让计算机识别和理解人类情感的技术,在众多领域都起着重要的作用,也是人工智能领域重要的发展方向。因此,梳理与归纳基于语音和文本的双模态情感识别的研究现状:首先,分类阐述情感表示空间;其次,按照情感数据库的情感表示空间对这些数据库进行分类,并总结常见的多模态情感数据库;再次,介绍基于语音和文本的双模态情感识别方法,包括特征提取、模态融合和决策分类,重点介绍模态融合方法并将这些方法分为特征级融合、决策级融合、模型级融合和多层次融合这4类;此外,比较和分析一系列语音和文本双模态情感识别方法的结果;最后,介绍情感识别的应用场景、面临的挑战与未来的发展方向。以上旨在对多模态情感识别,尤其是对基于语音和文本的双模态情感识别的相关工作进行分析与总结,并为情感识别提供有价值的参考。
针对传统加密流量识别方法存在多分类准确率低、泛化性不强以及易侵犯隐私等问题,提出一种结合注意力机制(Attention)与一维卷积神经网络(1DCNN)的多分类深度学习模型——Attention-1DCNN-CE。该模型包含3个核心部分:1)数据集预处理阶段,保留原始数据流中数据包间的空间关系,并根据样本分布构建成本敏感矩阵;2)在初步提取加密流量特征的基础上,利用Attention和1DCNN模型深入挖掘并压缩流量的全局与局部特征;3)针对数据不平衡这一挑战,通过结合成本敏感矩阵与交叉熵(CE)损失函数,显著提升少数类别样本的分类精度,进而优化模型的整体性能。实验结果表明,在BOT-IOT和TON-IOT数据集上该模型的整体识别准确率高达97%以上;并且该模型在公共数据集ISCX-VPN和USTC-TFC上表现优异,在不需要预训练的前提下,达到了与ET-BERT(Encrypted Traffic BERT)相近的性能;相较于PERT(Payload Encoding Representation from Transformer),该模型在ISCX-VPN数据集的应用类型检测中的F1分数提升了29.9个百分点。以上验证了该模型的有效性,为加密流量识别和恶意流量检测提供了解决方案。
针对复杂地形环境下的无人机(UAV)路径规划问题,提出一种基于改进鲸鱼优化算法(MWOA)的动态UAV路径规划方法。首先,通过解析山体地形、动态目标和威胁区,建立三维动态环境与UAV航路模型;其次,提出一种自适应步长高斯游走策略,并将该策略用于平衡算法的全局探索与局部发掘的能力;最后,提出一种辅助修正策略对种群最优个体进行修正,并结合差分进化策略,在避免种群陷入局部最优的同时提高算法的收敛精度。为验证MWOA的有效性,使用MWOA与鲸鱼优化算法(WOA)、人工蜂鸟算法(AHA)等智能算法求解CEC2022测试函数,并在设计的UAV动态环境模型中进行验证。仿真结果对比分析表明,与WOA相比,MWOA的收敛精度提高了6.1%,标准差减小了44.7%。可见,所提MWOA收敛更快且精度更高,能有效处理UAV路径规划问题。
在物联网(IoT)时代,人工智能(AI)与IoT的结合已经成为推动技术发展和应用创新的重要趋势。随着设备连接数量的指数级增长,提升终端用户对智能系统的信任度变得尤为关键。可解释人工智能(XAI)指能提供它们的决策过程和结果解释的AI系统。XAI的出现推动了AI技术的发展,并增强了用户对AI系统的信任。因此,对IoT应用中的XAI研究进行综述。首先,介绍IoT和XAI的相关背景及意义;其次,介绍XAI的定义及关键技术;接着,介绍传统AI驱动的IoT应用的最新进展和XAI驱动的IoT应用的最新进展;最后,对XAI在IoT应用中的未来发展方向和相关挑战分别进行总结和展望。
在协同融合气象、空间和时间三大信息的时空混合模型中,时间变化建模通常在一维空间中完成。针对一维序列局限于滑动窗口和缺乏对多尺度特征的灵活提取的问题,提出一种多域时空层次图神经网络(MST-HGNN)模型。首先,构建城市全局尺度和站点局部尺度的两级层次图,从而进行空间关系学习;其次,将一维空气质量序列转换为一组基于多个周期的二维张量,并在二维空间上通过多尺度卷积进行周期解耦以捕获频域特征;同时,在一维空间中利用长短期记忆(LSTM)网络拟合时域特征;最后,为避免聚合冗余信息,设计一种门控机制融合模块用于频域和时域特征的多域特征融合。在Urban-Air数据集和长三角城市群数据集上的实验结果表明,相较于多视图多任务时空图卷积网络模型(M2),所提模型在预测第1 h、3 h、6 h、12 h空气质量的平均绝对误差(MAE)和均方根误差(RMSE)均低于对比模型。可见,MST-HGNN能在频域上解耦复杂时间模式,利用频域信息弥补时域特征建模的局限性,并结合时域信息更全面地预测空气质量变化。
针对滚动轴承故障诊断中处理复杂工况准确率较低的问题,提出一个多任务学习(MTL)模型,即多路层次化混合专家(MHMoE)模型,以及对应的层次化训练模式。该模型结合多阶段、多任务联合训练,实现了层次化的信息共享模式,并在普通MTL模式的基础上进一步提升了模型的泛化性和故障识别准确率,使模型能同时在复杂与简单的数据集上出色地完成任务,同时,结合一维ResNet的瓶颈层结构,在保证网络深度的同时,也规避梯度爆炸与梯度消失等问题,从而能充分地提取数据集的相关特征。以帕德博恩大学轴承故障数据集(PU)为测试数据集设计的实验的结果表明,在不同工况复杂度下,与不使用MTL的单任务混合专家单元结构(OMoE)-ResNet18模型相比,所提模型的准确率提升5.45~9.30个百分点;而与集成经验模态分解的Hilbert谱变换方法(EEMD-Hilbert)、MMoE (Multi-gate Mixture-of-Experts)和多尺度多任务注意力卷积神经网络(MSTACNN)等模型相比,所提模型的准确率至少提升3.21~16.45个百分点。
轨道交通作为居民出行的主体交通方式,具有线路多、流量大、环境复杂和系统集成度高的显著特点。当前,基于人工智能(AI)的信息处理、系统优化和控制技术为轨道交通技术的发展带来了全新的机遇和挑战。首先,从近年来国内外轨道交通领域的智能化发展情况入手,分析了世界各国在轨道交通智能化方面的战略规划和发展进程;然后,围绕智能信号系统、智能运维系统、智慧乘客服务体系和智能监控系统这4个方面对轨道交通智能系统进行了归纳和总结,并梳理了该系统智能化的发展需求和关键技术进展;最后,对我国的轨道交通未来的智能化发展进行总结和展望。
随着轻量级网络的发展,人体姿态估计任务得以在计算资源有限的设备上执行,然而,提升精度变得更具有挑战性。这些挑战主要源于网络复杂度与计算资源的矛盾,导致模型在简化时牺牲了表示能力。针对上述问题,提出一种基于解耦注意力和幻影卷积的轻量级人体姿态估计网络(DGLNet)。具体来说,DGLNet以小型高分辨率网络(Small HRNet)模型为基础架构,通过引入解耦注意力机制构建DFDbottleneck模块;采用shuffleblock的结构对基础模块进行重新设计,即用轻量级幻影卷积替代计算量大的点卷积,并利用解耦注意力机制增强模块性能,从而构建DGBblock模块;此外,用幻影卷积和解耦注意力重新构建的深度可分离卷积模块来替代原过渡层模块,从而构建GSCtransition模块,进一步减少计算量并增强特征交互性和提高性能。在COCO验证集上的实验结果显示,DGLNet优于轻量级高分辨率网络(Lite-HRNet),在计算量和参数量不增加的情况下,最高精度达到了71.9%;与常见的轻量级姿态估计网络MobileNetV2和ShuffleNetV2相比,DGLNet在仅使用21.2%和25.0%的计算量情况下分别实现了4.6和8.3个百分点的精度提升;在AP50的评价标准上,DGLNet超过了大型高分辨率网络(HRNet)的同时计算量和参数量远小于HRNet。
随着云计算和大数据的普及,越来越多的用户隐私数据被上传到云端计算和处理;然而,由于隐私数据交由不可信的第三方存储和管理,因此面临被泄露的风险,进而导致公民的生命和财产安全乃至国家的安全都受到不利影响。近年来,一些基于密码学算法的隐私计算技术,例如安全多方计算、同态加密(HE)和联邦学习等,解决了隐私数据传输和计算过程中的安全问题,进而实现了隐私数据的“可用不可见”;然而,这些方案由于计算和通信复杂度的原因没能得到广泛部署和应用。许多研究工作致力于利用可信执行环境(TEE)降低隐私计算技术的计算量和通信复杂度,同时保证不影响这些技术的安全性。TEE通过硬件辅助创建可以信赖的执行环境,并保证其中隐私数据和代码的机密性、完整性和可用性。因此,从隐私计算和TEE结合的研究入手。首先,全面分析TEE保护用户隐私数据的系统架构和硬件支持;其次,对比现有TEE架构各自的优势和不足;最后,结合工业界和学术界的最新进展,探讨隐私计算和TEE交叉研究领域的未来发展方向。
雷达自动目标识别(RATR)在军事和民用领域中都有广泛的应用。由于集成学习通过集成已有的机器学习模型改善模型分类性能,具有较好的鲁棒性,因此被越来越多地应用于雷达目标检测与识别领域。系统梳理和提炼现有相关文献对集成学习在RATR中的研究进展。首先,介绍集成学习的概念、框架与发展历程,将集成学习与传统机器学习、深度学习方法对比,并总结集成学习理论和常见集成学习方法的优势、不足及研究的主要聚焦点;其次,简述RATR的概念;接着,重点阐述集成学习在不同雷达图像分类特征中的应用,详细讨论基于合成孔径雷达(SAR)和高分辨距离像(HRRP)的目标检测与识别方法,并总结这些方法的研究进展和应用成效;最后,讨论RATR以及集成学习所面临的挑战,并对集成学习在雷达目标识别领域的应用进行展望。
针对建筑设备运维过程中的智能分析与自主决策能力不足、故障诊断效率低等问题,提出一种基于知识图谱和多任务学习的设备故障诊断方法。首先,构建面向运维的知识图谱,利用自然语言处理和实体链接技术提取建筑设备系统的多源异构数据,从而获取丰富的知识表示。其次,在小样本标注的情况下,探索多源症状关联识别,并把未标注数据通过自训练和协同训练策略迭代优化模型参数,提高模型泛化能力。最后,在设计基于深度知识推理的故障根因定位技术时,借助概率图模型追溯复杂设备系统的故障传播路径,提高故障分析的准确性和可解释性。同时,引入多任务学习框架融合机制,提升所提方法在故障诊断任务上的性能。实验结果显示,所提方法的故障诊断准确率达92%,平均每条记录诊断时间达6.5 s,在准确率、精确率和召回率等评估指标上均优于对比模型。
针对下一代Wi-Fi7设备中多链路传输时通信与感知一体化的功率和信道联合资源分配的问题,根据多链路设备(MLD)特殊的上下两层媒体接入控制层(MAC)结构,提出一种基于QMIX的联合功率控制与信道分配的多链路多智能体强化学习算法(JPCQMIX)。该算法将MLD的每个下层MAC即每条链路作为一个智能体,并在上层MAC中设置混合网络用来处理所有下层MAC的局部值函数,以达到中心式训练的效果。训练完成后,每个下层MAC进入分布式执行模式,并独立地与它的局部环境进行交互,以进行功率控制和信道分配决策。仿真结果表明,相较于多智能体深度Q网络(MADQN)算法和传统启发式粒子群优化(PSO)算法,所提算法在通信吞吐量性能上分别提高了20.51%和29.10%;同时,所提算法在面对不同感知精度阈值和不同链路最低信干噪比(SINR)时,鲁棒性更好。可见,JPCQMIX能有效提升系统在满足感知精度条件下的通信吞吐量。
当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成为实时光线追踪的核心。首先,介绍了光线追踪的理论基础,基于目前最主流的2种硬件加速数据结构(KD-Tree(K-Dimensional Tree)和层次包围盒树(BVH-Tree)),分别从基元分割、构造方法、优化方法和遍历加速的角度进行调研,发掘这2种结构用于硬件加速的潜力;其次,从固定函数设计、硬件架构设计、以减少内存带宽为目标的调度和数据管理这3个角度,对各个阶段所开发的专用加速硬件进行总结;再次,面向产业界调研主流的光线追踪GPU的产业界解决方案以及未来发展趋势;最后,总结并讨论光线追踪硬件加速方案的现状与不足,并展望了这些方案的性能优化方向。
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。
时间序列分类是时间序列分析的基础。然而,现有的时间序列分类方法对应的形态特征并不能作为分类依据,且通道间的特征通过图上的单一权重刻画不够准确,导致分类精度不高。因此,提出一种融合衍生特征的时间序列事件分类方法(TSEC-FDF)。首先,在时间序列上构建时间序列事件集合后,根据每个时间序列事件构建突变图、协同图、启发图,以减少噪声对高维特征的干扰;其次,融合多图的特征作为衍生特征,并抽取时间序列事件的多个时间级别的特征;最后,提出一种融合衍生特征的多图卷积分类模型级联时间序列和图特征作为时间序列事件的高维特征。实验结果表明,与TF-C(Time-Frequency Consistency)和BiLSTM+隐马尔可夫模型(Bi-directional Long Short-Term Memory-Hidden Markov Model, BL-HMM)方法相比,TSEC-FDF在4个真实数据集上的准确率、精确率、查全率、F1值、AUROC(Area Under the Receiver Operating Characteristic curve)以及AUPRC(Area Under the Precision versus Recall Curve)至少提升了3.2%、4.7%、7.8%、6.3%、0.9%和2.2%。
在医学图像分割网络中,卷积神经网络(CNN)虽然能提取丰富的局部特征细节,但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系,但是会破坏局部特征细节。为充分利用2种网络特征的互补性,提出一种用于医学图像分割的CNN和Transformer并行的融合网络——PFNet。该网络的并行融合模块使用一对基于CNN和Transformer的相互依赖的并行分支来高效地学习局部和全局两方面的辨别特征,并以交互方式交叉融合局部特征和长距离特征的依赖关系;同时,为恢复在下采样期间丢失的空间信息以增强细节的保留,提出多尺度交互(MSI)模块提取分层CNN分支生成的多尺度特征的局部上下文以进行远程依赖关系建模。实验结果表明,PFNet优于MISSFormer(Medical Image Segmentation tranSFormer)和UCTransNet(U-Net with Channel Transformer module)等先进方法。在Synapse和ACDC(Automated Cardiac Diagnosis Challenge)数据集上,相较于最优的基线方法MISSFormer,PFNet的平均Dice相似系数(DSC)分别提高1.27%和0.81%。可见,PFNet能实现更精准的医学图像分割。
为解决现有的目标检测模型在处理小目标交通标志时精度不足以及漏检率较高的问题,提出一种基于YOLOv8算法的改进型目标检测模型。首先,融合残差网络(ResNet)的设计理念,在Backbone中引入残差连接机制使模型更有效地整合多层特征信息,从而增强对小目标的识别能力;其次,逆转Neck部分的路径聚合特征金字塔网络(PAFPN)结构,提出I-PAFPN(Inverse PAFPN)结构,从而使网络更集中地捕捉目标的关键特征;再次,将原先的3级检测扩展为4级检测,使模型关注并更细致地提取小目标的特征,从而提高模型对小目标的敏感度;最后,引入WIoU(Wise Intersection over Union)损失函数弱化低质量样例对模型的影响,提高模型准确率。在数据增强后的TT100K(Tsinghua-Tencent 100K)数据集上的实验结果表明,经过改进的YOLOv8模型的mAP50和mAP50:95相较于原始的YOLOv8模型分别提高17.1和12.5个百分点,验证了改进YOLOv8模型在小目标交通标志检测方面的有效性和优越性。
遥感图像中目标尺度变化大且目标长宽比差异大,导致遥感图像目标检测困难。针对遥感图像的这一特点,通过改进YOLO框架,提出EW-YOLO(Efficient Weighted-YOLO)提高遥感图像目标检测的精度。首先,在特征融合部分,设计多级特征融合结构,以利用双分支的残差模块促进不同尺度特征的融合,并通过融合模块的级联以及跨层特征的融合设计,增强对不同尺度目标的提取能力,并进一步增强检测能力;其次,在预测部分,提出加权检测头,引入加权检测框融合(WBF),以利用置信度分数对每个候选框进行加权,并融合生成预测框,从而提高不同长宽比目标的检测精度;最后,针对图像尺寸过大的问题,提出图像重采样处理方法,即通过将图像采样至合适大小并参与网络训练,解决由于切割造成的大尺寸目标检测精度较低的问题。在DOTA数据集上进行的实验的结果表明,所提方法的检测平均精度均值(mAP)达到了77.47%,较基于原始YOLO框架的方法提升了1.55个百分点,且优于目前的主流方法。同时,也在HRSC和UCAS-AOD数据集上验证了所提方法的有效性。
基于深度学习的图像分类算法通常依赖大量训练数据,然而在实际场景中通常难以获取足够大规模的高质量标注样本。针对小样本场景下分类模型泛化能力不足的问题,提出一种基于对比学习的小样本图像分类方法。首先,在训练中增加全局对比学习作为辅助目标,从而使特征提取网络从实例中获得更丰富的信息;其次,对问询样本分块并用于计算局部对比损失,从而促进模型获得从局部推断整体的能力;最后,利用显著性检测混合查询样本的重要区域,并构造复杂样本,以增强模型泛化能力。在2个公开数据集miniImageNet和tieredImageNet上进行的5-way 1-shot和5-way 5-shot的图像分类任务实验结果表明:相较于小样本学习的基线模型Meta-Baseline,所提方法在miniImageNet上的分类准确率分别提高了5.97和4.25个百分点,在tieredImageNet上的分类准确率分别提高了3.86和2.84个百分点;并且,所提方法在miniImageNet上的分类准确率比DFR(Disentangled Feature Representation)模型分别提高了1.02和0.72个百分点。可见,所提方法有效提高了小样本图像分类的准确率,具有良好的泛化能力。
针对分布式位置大数据收集导致的信息孤岛问题和位置隐私泄露面临的风险,提出一种基于联邦学习的位置大数据统计预测与隐私保护方法。首先,构建基于横向联邦学习的位置大数据统计预测发布框架,该框架允许各行政区域的数据收集者保留各自的原始数据,并使多个参与方通过交换训练参数来协同完成预测模型的训练任务;其次,针对具有时空序列特性的位置大数据密度统计预测问题,设计PVTv2-CBAM,以提高客户端预测结果的准确性;最后,提出一种差分隐私预算的动态分配和调整算法,并结合MMA (Modified Moments Accountant)机制实现对客户端模型的差分隐私保护。实验结果表明,相较于卷积神经网络(CNN)、长短期记忆(LSTM)网络、卷积LSTM(ConvLSTM)模型,PVTv2-CBAM在Yellow_tripdata数据集和T-Driver轨迹数据集上预测的平均绝对误差分别降低0~62%和39%~44%;所提差分隐私预算动态分配和调整算法在调整阈值为0.3和0.7时,使模型预测的准确率与无动态调整相比分别提高了约5%与6%。以上结果验证了所提方法的可行性和有效性。
将差分隐私应用于联邦学习的方法是保护训练数据隐私的关键技术之一。针对之前多数工作未考虑参数的异质性,对训练参数均匀裁剪使每轮加入的噪声都是均匀的,从而影响模型收敛和训练参数质量的问题,提出一种基于梯度裁剪的自适应噪声添加方案。考虑梯度的异质性,在不同轮次为不同客户端执行自适应的梯度裁剪,从而使噪声大小自适应调整;同时,为进一步提升模型性能,对比传统的客户端随机采样方式,提出一种结合轮盘赌与精英保留的客户端采样方法。结合上述2种方法,提出一种结合客户端选择的自适应差分隐私联邦学习(CS&AGC DP_FL)方法。实验结果表明,在隐私预算为0.5时,相较于自适应差分隐私的联邦学习方法(Adapt DP_FL),所提方法能在相同级别的隐私约束下使最终的模型分类准确率提升4.9个百分点,并且在收敛速度方面,所提方法相较于对比方法进入收敛状态所需的轮次减少了4~10轮。
快速扩展随机树星(RRT*)因具有渐近最优性和概率完备性,在机器人路径规划领域有广泛的应用。然而,RRT*及其改进算法仍存在初始路径质量差、路径收敛慢和探索效率低等缺陷。针对这些问题,提出一种基于节点到障碍物距离的自适应扩展RRT*算法——AE-RRT*。为提高探索效率,采用基于节点到障碍物距离的动态目标偏置采样策略和动态步长策略,从而在更短的时间内获得初始路径。为提高路径的质量,提出一种更精确的选择父节点的方法MA-ChooseParent,从而扩大选择父节点的集合。此外,为加快路径收敛,在路径收敛阶段采用基于节点到障碍物距离的自适应高斯采样方法和全局高斯采样方法AG-Gaussian Sample。通过Matlab中的仿真实验将AE-RRT*与RRT*、Quick-RRT*、Bi-RRT*、Informed-RRT*和Smart-RRT*进行对比。实验结果表明,与RRT*相比,AE-RRT*在二维环境中找到初始路径的时间、初始路径的长度和收敛至全局次优路径的时间分别减少了63.78%、6.55%和71.93%;在三维环境中的3个指标分别减少了59.44%、18.26%和79.58%。
实时、准确的玻璃缺陷检测至关重要;然而,尺度多变的缺陷形态以及特征微弱的小目标和长宽比例极端的细长目标让这个任务极具挑战性。针对上述需求,提出一种基于改进YOLOv8(You Only Look Once version 8)的小目标与细长目标检测模型YOLO-WANI(WPAN+AMFI+NWD&Inner-CIoU)。首先,设计WPAN(Weighted Path Aggregation Network)减小小目标和细长目标信息在网络传播过程中发生的损失,从而平衡不同尺度信息的重要性;其次,引入基于注意力的多尺度特征交互模块(AMFI),以捕捉深层特征中聚焦对象的语义信息;再次,使用归一化沃瑟斯坦距离(NWD)和Inner-CIoU损失替换原始的CIoU(Complete Intersection over Union)损失,从而提高对小目标和细长目标的检测效率;最后,制作玻璃缺陷检测数据集验证模型性能。实验结果表明,相较于YOLOv8n,YOLO-WANI在玻璃缺陷检测数据集上的mAP50:95提高了1.9个百分点、mAP50提高了4.6个百分点,分别达到了42.6%、81.7%;在NEU-DET(the NorthEastern University surface defect database for defect DETection task)钢材缺陷检测数据集上mAP50:95提高了1.5个百分点、mAP50提高了1.9个百分点,分别达到了40.3%、76.1%。所提模型和各个量级的实时缺陷检测模型相比都有着最高的精度,同时只有4.1×106的参数量和9.9 GFLOPs的计算量,且FPS(Frames Per Second)达到138、单图推理时间为(7.16±0.17) ms,满足轻量化和高精度的需求。