环境、社会及治理(ESG)指标是评估企业可持续发展的重要指标。现有的ESG评估体系存在覆盖范围狭窄、主观性强和时效性差等问题,因此,迫切需要研究能利用企业数据准确预测ESG指标的预测模型。针对企业数据中ESG关联特征存在信息丰度不一致的问题,提出一种基于丰度协调技术的企业ESG指标预测模型RCT (Richness Coordination Transformer),其中上游丰度协调模块通过自编码器协调异质丰度特征,从而提高下游模块的ESG指标预测性能。在真实数据集上的实验结果表明,与模型时间卷积网络(TCN)、长短期记忆(LSTM)网络、自注意力模型(Transformer)、极限梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)相比,RCT模型在各项预测指标上均表现最优,验证了RCT模型在预测ESG指标上的有效性和优越性。
联邦学习(FL)是一种在隐私保护和通信效率方面极具潜力的新型机器学习模型构建范式,然而现实物联网(IoT)场景中客户端节点数据之间会存在异构性,学习一个统一的全局模型会导致模型准确率下降。为了解决这一问题,提出一种基于特征分布的聚类联邦学习(CFLFD)算法。在该算法中,对每个客户端节点从模型提取的特征进行主成分分析(PCA)后所得到的结果进行聚类,以将具有相似数据分布的客户端节点聚类在一起相互协作,从而提高模型准确率。为验证算法的有效性,在3个数据集和4种基准算法上进行大量实验。实验结果表明,与FedProx相比,CFLFD算法在CIFAR10数据集和Office-Caltech10数据集上将模型准确率分别提升了1.12和3.76个百分点。
多变量时间序列(MTS)数据具有高维性,且分布复杂多变,现有的异常检测模型在面对MTS数据集时普遍存在误判率高、训练困难等问题,且多数模型仅考虑时间序列样本的时空特征,对时间序列特征的学习并不全面。为了解决以上问题,提出一种基于多域特征提取的MTS异常检测模型(MFE-TS)。首先,从原始数据域出发,使用长短期记忆(LSTM)网络与卷积神经网络(CNN)分别提取MTS的时间相关性和空间相关性特征。其次,用傅里叶变换将原始时间序列转换到频域空间,并利用Transformer学习数据在频域空间的幅度与相位特征。多域特征学习能更全面地建模时间序列特征,从而提高模型对MTS的异常检测性能。此外,引入掩码策略,进一步增强模型的特征学习能力,并使模型具备一定的抗噪性。实验结果表明,MFE-TS在多个真实MTS数据集上展现了优越的性能,同时在含有噪声的数据集中仍能保持较好的检测效果。
入侵检测系统(IDS)等安全机制已被用于保护网络基础设施和网络通信免受网络攻击。随着深度学习技术的不断进步,基于深度学习的IDS逐渐成为网络安全领域的研究热点。通过对文献广泛调研,详细介绍利用深度学习技术进行网络入侵检测的最新研究进展。首先,简要概述当前几种IDS;其次,介绍基于深度学习的IDS中常用的数据集和评价指标;然后,总结网络IDS中常用的深度学习模型及其应用场景;最后,探讨当前相关研究面临的问题,并提出未来的发展方向。
当前求解微分代数方程(DAE)的神经网络方法基本都采用数据驱动策略,需要大量的数据集,因此存在对神经网络的结构和参数选择敏感、求解结果精度低、稳定性差等问题。针对这些问题,提出一种基于Lobatto方法和Legendre多项式的物理信息神经网络(LL-PINN)。首先,基于离散型物理信息神经网络(PINN)的计算框架,结合Lobatto IIIA方法求解DAE高精度和高稳定性的优点,将DAE的物理信息嵌入Lobatto IIIA时间迭代格式中,并使用PINN对该时间迭代进行近似数值求解;其次,采用单隐藏层的神经网络结构,利用勒让德多项式展开项的逼近能力,应用这些多项式作为激活函数来简化网络模型调整的过程;最后,采用时间区域分解方案构建网络模型,即对每个等分的子时间区域依次使用一个微分神经网络和一个代数神经网络,从而实现DAE的高精度连续时间预测。数值算例结果表明,基于勒让德多项式和4阶的Lobatto方法的LL-PINN实现了对DAE的高精度求解。与函数连接理论(TFC)试验解模型和PINN模型相比,LL-PINN的微分变量和代数变量的预测解与精确解的绝对误差显著降低,精度提高了一个或两个量级。因此,所提求解模型对求解DAE问题具有较好的计算精度,可为解决具有挑战性的偏DAE提供可行的解决方案。
大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。
情感识别是一种让计算机识别和理解人类情感的技术,在众多领域都起着重要的作用,也是人工智能领域重要的发展方向。因此,梳理与归纳基于语音和文本的双模态情感识别的研究现状:首先,分类阐述情感表示空间;其次,按照情感数据库的情感表示空间对这些数据库进行分类,并总结常见的多模态情感数据库;再次,介绍基于语音和文本的双模态情感识别方法,包括特征提取、模态融合和决策分类,重点介绍模态融合方法并将这些方法分为特征级融合、决策级融合、模型级融合和多层次融合这4类;此外,比较和分析一系列语音和文本双模态情感识别方法的结果;最后,介绍情感识别的应用场景、面临的挑战与未来的发展方向。以上旨在对多模态情感识别,尤其是对基于语音和文本的双模态情感识别的相关工作进行分析与总结,并为情感识别提供有价值的参考。
针对传统加密流量识别方法存在多分类准确率低、泛化性不强以及易侵犯隐私等问题,提出一种结合注意力机制(Attention)与一维卷积神经网络(1DCNN)的多分类深度学习模型——Attention-1DCNN-CE。该模型包含3个核心部分:1)数据集预处理阶段,保留原始数据流中数据包间的空间关系,并根据样本分布构建成本敏感矩阵;2)在初步提取加密流量特征的基础上,利用Attention和1DCNN模型深入挖掘并压缩流量的全局与局部特征;3)针对数据不平衡这一挑战,通过结合成本敏感矩阵与交叉熵(CE)损失函数,显著提升少数类别样本的分类精度,进而优化模型的整体性能。实验结果表明,在BOT-IOT和TON-IOT数据集上该模型的整体识别准确率高达97%以上;并且该模型在公共数据集ISCX-VPN和USTC-TFC上表现优异,在不需要预训练的前提下,达到了与ET-BERT(Encrypted Traffic BERT)相近的性能;相较于PERT(Payload Encoding Representation from Transformer),该模型在ISCX-VPN数据集的应用类型检测中的F1分数提升了29.9个百分点。以上验证了该模型的有效性,为加密流量识别和恶意流量检测提供了解决方案。
针对当前瓷砖缺陷检测主要依靠人工检测导致的主观性强、效率低、劳动强度大等问题,提出一种基于改进YOLOv8的轻量级大幅面瓷砖图像微小缺陷检测算法。首先,对高分辨率大幅面图像进行裁切处理,并在骨干网络中引入HorBlock增强模型的捕捉能力;其次,融入大型可分离内核注意力(LSKA)改进C2f提高模型的检测性能,并通过引入SA(Shuffle Attention)增强模型的特征提取能力;最后,引入全维度动态卷积(ODConv)进一步增强模型对微小缺陷的处理能力。在阿里天池瓷砖瑕疵检测数据集上的实验结果表明:改进后的模型不仅参数量比原始YOLOv8n低,而且mAP@0.5提升了8.2个百分点,F1分数提升了7个百分点。可见,改进后的模型能更精确地识别和处理大幅面瓷砖的微小表面缺陷,且能在保持轻量级的同时,显著提升检测效果。
针对复杂地形环境下的无人机(UAV)路径规划问题,提出一种基于改进鲸鱼优化算法(MWOA)的动态UAV路径规划方法。首先,通过解析山体地形、动态目标和威胁区,建立三维动态环境与UAV航路模型;其次,提出一种自适应步长高斯游走策略,并将该策略用于平衡算法的全局探索与局部发掘的能力;最后,提出一种辅助修正策略对种群最优个体进行修正,并结合差分进化策略,在避免种群陷入局部最优的同时提高算法的收敛精度。为验证MWOA的有效性,使用MWOA与鲸鱼优化算法(WOA)、人工蜂鸟算法(AHA)等智能算法求解CEC2022测试函数,并在设计的UAV动态环境模型中进行验证。仿真结果对比分析表明,与WOA相比,MWOA的收敛精度提高了6.1%,标准差减小了44.7%。可见,所提MWOA收敛更快且精度更高,能有效处理UAV路径规划问题。
针对滚动轴承故障诊断中处理复杂工况准确率较低的问题,提出一个多任务学习(MTL)模型,即多路层次化混合专家(MHMoE)模型,以及对应的层次化训练模式。该模型结合多阶段、多任务联合训练,实现了层次化的信息共享模式,并在普通MTL模式的基础上进一步提升了模型的泛化性和故障识别准确率,使模型能同时在复杂与简单的数据集上出色地完成任务,同时,结合一维ResNet的瓶颈层结构,在保证网络深度的同时,也规避梯度爆炸与梯度消失等问题,从而能充分地提取数据集的相关特征。以帕德博恩大学轴承故障数据集(PU)为测试数据集设计的实验的结果表明,在不同工况复杂度下,与不使用MTL的单任务混合专家单元结构(OMoE)-ResNet18模型相比,所提模型的准确率提升5.45~9.30个百分点;而与集成经验模态分解的Hilbert谱变换方法(EEMD-Hilbert)、MMoE (Multi-gate Mixture-of-Experts)和多尺度多任务注意力卷积神经网络(MSTACNN)等模型相比,所提模型的准确率至少提升3.21~16.45个百分点。
在协同融合气象、空间和时间三大信息的时空混合模型中,时间变化建模通常在一维空间中完成。针对一维序列局限于滑动窗口和缺乏对多尺度特征的灵活提取的问题,提出一种多域时空层次图神经网络(MST-HGNN)模型。首先,构建城市全局尺度和站点局部尺度的两级层次图,从而进行空间关系学习;其次,将一维空气质量序列转换为一组基于多个周期的二维张量,并在二维空间上通过多尺度卷积进行周期解耦以捕获频域特征;同时,在一维空间中利用长短期记忆(LSTM)网络拟合时域特征;最后,为避免聚合冗余信息,设计一种门控机制融合模块用于频域和时域特征的多域特征融合。在Urban-Air数据集和长三角城市群数据集上的实验结果表明,相较于多视图多任务时空图卷积网络模型(M2),所提模型在预测第1 h、3 h、6 h、12 h空气质量的平均绝对误差(MAE)和均方根误差(RMSE)均低于对比模型。可见,MST-HGNN能在频域上解耦复杂时间模式,利用频域信息弥补时域特征建模的局限性,并结合时域信息更全面地预测空气质量变化。
在物联网(IoT)时代,人工智能(AI)与IoT的结合已经成为推动技术发展和应用创新的重要趋势。随着设备连接数量的指数级增长,提升终端用户对智能系统的信任度变得尤为关键。可解释人工智能(XAI)指能提供它们的决策过程和结果解释的AI系统。XAI的出现推动了AI技术的发展,并增强了用户对AI系统的信任。因此,对IoT应用中的XAI研究进行综述。首先,介绍IoT和XAI的相关背景及意义;其次,介绍XAI的定义及关键技术;接着,介绍传统AI驱动的IoT应用的最新进展和XAI驱动的IoT应用的最新进展;最后,对XAI在IoT应用中的未来发展方向和相关挑战分别进行总结和展望。
轨道交通作为居民出行的主体交通方式,具有线路多、流量大、环境复杂和系统集成度高的显著特点。当前,基于人工智能(AI)的信息处理、系统优化和控制技术为轨道交通技术的发展带来了全新的机遇和挑战。首先,从近年来国内外轨道交通领域的智能化发展情况入手,分析了世界各国在轨道交通智能化方面的战略规划和发展进程;然后,围绕智能信号系统、智能运维系统、智慧乘客服务体系和智能监控系统这4个方面对轨道交通智能系统进行了归纳和总结,并梳理了该系统智能化的发展需求和关键技术进展;最后,对我国的轨道交通未来的智能化发展进行总结和展望。
随着轻量级网络的发展,人体姿态估计任务得以在计算资源有限的设备上执行,然而,提升精度变得更具有挑战性。这些挑战主要源于网络复杂度与计算资源的矛盾,导致模型在简化时牺牲了表示能力。针对上述问题,提出一种基于解耦注意力和幻影卷积的轻量级人体姿态估计网络(DGLNet)。具体来说,DGLNet以小型高分辨率网络(Small HRNet)模型为基础架构,通过引入解耦注意力机制构建DFDbottleneck模块;采用shuffleblock的结构对基础模块进行重新设计,即用轻量级幻影卷积替代计算量大的点卷积,并利用解耦注意力机制增强模块性能,从而构建DGBblock模块;此外,用幻影卷积和解耦注意力重新构建的深度可分离卷积模块来替代原过渡层模块,从而构建GSCtransition模块,进一步减少计算量并增强特征交互性和提高性能。在COCO验证集上的实验结果显示,DGLNet优于轻量级高分辨率网络(Lite-HRNet),在计算量和参数量不增加的情况下,最高精度达到了71.9%;与常见的轻量级姿态估计网络MobileNetV2和ShuffleNetV2相比,DGLNet在仅使用21.2%和25.0%的计算量情况下分别实现了4.6和8.3个百分点的精度提升;在AP50的评价标准上,DGLNet超过了大型高分辨率网络(HRNet)的同时计算量和参数量远小于HRNet。
随着云计算和大数据的普及,越来越多的用户隐私数据被上传到云端计算和处理;然而,由于隐私数据交由不可信的第三方存储和管理,因此面临被泄露的风险,进而导致公民的生命和财产安全乃至国家的安全都受到不利影响。近年来,一些基于密码学算法的隐私计算技术,例如安全多方计算、同态加密(HE)和联邦学习等,解决了隐私数据传输和计算过程中的安全问题,进而实现了隐私数据的“可用不可见”;然而,这些方案由于计算和通信复杂度的原因没能得到广泛部署和应用。许多研究工作致力于利用可信执行环境(TEE)降低隐私计算技术的计算量和通信复杂度,同时保证不影响这些技术的安全性。TEE通过硬件辅助创建可以信赖的执行环境,并保证其中隐私数据和代码的机密性、完整性和可用性。因此,从隐私计算和TEE结合的研究入手。首先,全面分析TEE保护用户隐私数据的系统架构和硬件支持;其次,对比现有TEE架构各自的优势和不足;最后,结合工业界和学术界的最新进展,探讨隐私计算和TEE交叉研究领域的未来发展方向。
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim (Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO (Trust Region Policy Optimization)和SAC (Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。
针对下一代Wi-Fi7设备中多链路传输时通信与感知一体化的功率和信道联合资源分配的问题,根据多链路设备(MLD)特殊的上下两层媒体接入控制层(MAC)结构,提出一种基于QMIX的联合功率控制与信道分配的多链路多智能体强化学习算法(JPCQMIX)。该算法将MLD的每个下层MAC即每条链路作为一个智能体,并在上层MAC中设置混合网络用来处理所有下层MAC的局部值函数,以达到中心式训练的效果。训练完成后,每个下层MAC进入分布式执行模式,并独立地与它的局部环境进行交互,以进行功率控制和信道分配决策。仿真结果表明,相较于多智能体深度Q网络(MADQN)算法和传统启发式粒子群优化(PSO)算法,所提算法在通信吞吐量性能上分别提高了20.51%和29.10%;同时,所提算法在面对不同感知精度阈值和不同链路最低信干噪比(SINR)时,鲁棒性更好。可见,JPCQMIX能有效提升系统在满足感知精度条件下的通信吞吐量。
针对当前时间序列预测任务存在的高维特征、大规模数据以及对预测准确性高要求等问题,提出一种基于多尺度趋势-周期分解的多头门控膨胀卷积网络模型。该模型采用多尺度分解方法,将原始协变量序列和预测变量序列分解为各自的周期项和趋势项,从而实现独立的预测。对于周期项,引入多头门控膨胀卷积网络的编码器,以提取各自的周期信息;在解码器阶段,使用交叉注意力机制进行通道信息的交互融合,并将预测变量的周期信息采样对齐后通过时间注意力与通道融合信息进行周期预测。对趋势项则采用自回归方式进行趋势预测。最后将趋势预测与周期预测的结果相加得到预测序列。与长短期记忆(LSTM)、Informer等多个主流基准模型进行比较,所提模型在ETTm1、ETTh1等5个数据集上的均方误差(MSE)平均下降了19.2%~52.8%,平均绝对误差(MAE)平均下降了12.1%~33.8%。通过消融实验验证了所提出的多尺度分解模块、多头门控膨胀卷积以及时间注意力模块能提升时序预测的准确度。
雷达自动目标识别(RATR)在军事和民用领域中都有广泛的应用。由于集成学习通过集成已有的机器学习模型改善模型分类性能,具有较好的鲁棒性,因此被越来越多地应用于雷达目标检测与识别领域。系统梳理和提炼现有相关文献对集成学习在RATR中的研究进展。首先,介绍集成学习的概念、框架与发展历程,将集成学习与传统机器学习、深度学习方法对比,并总结集成学习理论和常见集成学习方法的优势、不足及研究的主要聚焦点;其次,简述RATR的概念;接着,重点阐述集成学习在不同雷达图像分类特征中的应用,详细讨论基于合成孔径雷达(SAR)和高分辨距离像(HRRP)的目标检测与识别方法,并总结这些方法的研究进展和应用成效;最后,讨论RATR以及集成学习所面临的挑战,并对集成学习在雷达目标识别领域的应用进行展望。
当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成为实时光线追踪的核心。首先,介绍了光线追踪的理论基础,基于目前最主流的2种硬件加速数据结构(KD-Tree(K-Dimensional Tree)和层次包围盒树(BVH-Tree)),分别从基元分割、构造方法、优化方法和遍历加速的角度进行调研,发掘这2种结构用于硬件加速的潜力;其次,从固定函数设计、硬件架构设计、以减少内存带宽为目标的调度和数据管理这3个角度,对各个阶段所开发的专用加速硬件进行总结;再次,面向产业界调研主流的光线追踪GPU的产业界解决方案以及未来发展趋势;最后,总结并讨论光线追踪硬件加速方案的现状与不足,并展望了这些方案的性能优化方向。
针对建筑设备运维过程中的智能分析与自主决策能力不足、故障诊断效率低等问题,提出一种基于知识图谱和多任务学习的设备故障诊断方法。首先,构建面向运维的知识图谱,利用自然语言处理和实体链接技术提取建筑设备系统的多源异构数据,从而获取丰富的知识表示。其次,在小样本标注的情况下,探索多源症状关联识别,并把未标注数据通过自训练和协同训练策略迭代优化模型参数,提高模型泛化能力。最后,在设计基于深度知识推理的故障根因定位技术时,借助概率图模型追溯复杂设备系统的故障传播路径,提高故障分析的准确性和可解释性。同时,引入多任务学习框架融合机制,提升所提方法在故障诊断任务上的性能。实验结果显示,所提方法的故障诊断准确率达92%,平均每条记录诊断时间达6.5 s,在准确率、精确率和召回率等评估指标上均优于对比模型。
时间序列分类是时间序列分析的基础。然而,现有的时间序列分类方法对应的形态特征并不能作为分类依据,且通道间的特征通过图上的单一权重刻画不够准确,导致分类精度不高。因此,提出一种融合衍生特征的时间序列事件分类方法(TSEC-FDF)。首先,在时间序列上构建时间序列事件集合后,根据每个时间序列事件构建突变图、协同图、启发图,以减少噪声对高维特征的干扰;其次,融合多图的特征作为衍生特征,并抽取时间序列事件的多个时间级别的特征;最后,提出一种融合衍生特征的多图卷积分类模型级联时间序列和图特征作为时间序列事件的高维特征。实验结果表明,与TF-C(Time-Frequency Consistency)和BiLSTM+隐马尔可夫模型(Bi-directional Long Short-Term Memory-Hidden Markov Model, BL-HMM)方法相比,TSEC-FDF在4个真实数据集上的准确率、精确率、查全率、F1值、AUROC(Area Under the Receiver Operating Characteristic curve)以及AUPRC(Area Under the Precision versus Recall Curve)至少提升了3.2%、4.7%、7.8%、6.3%、0.9%和2.2%。
运动想象脑电(MI-EEG)信号在构建临床辅助康复的无创脑机接口(BCI)中获得了广泛关注。受限于不同被试者的MI-EEG信号样本分布存在差异,跨被试MI-EEG信号的特征学习成为研究重点。然而,现有的相关方法存在域不变特征表达能力弱、时间复杂度较高等问题,无法直接应用于在线BCI。为解决该问题,提出黎曼切空间特征迁移核学习(TKRTS)方法,并基于此构建了高效的跨被试MI-EEG信号分类算法。TKRTS方法首先将MI-EEG信号协方差矩阵投影至黎曼空间,并在黎曼空间上对齐不同被试者的协方差矩阵,同时提取黎曼切空间(RTS)特征;随后,学习RTS特征集上的域不变核矩阵,从而获得完备的跨被试MI-EEG特征表达,并通过该矩阵训练核支持向量机(KSVM)进行分类。为验证TKRTS方法的可行性与有效性,在3个公开数据集上分别进行多源域-单目标域以及单源域-单目标域的实验,平均分类准确率分别提升了0.81个百分点和0.13个百分点。实验结果表明,与主流方法对比,TKRTS方法提升了平均分类准确率并保持相似的时间复杂度。此外,消融实验结果验证了TKRTS方法对跨被试特征表达的完备性和参数不敏感性,适合构建在线脑接机口。
在医学图像分割网络中,卷积神经网络(CNN)虽然能提取丰富的局部特征细节,但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系,但是会破坏局部特征细节。为充分利用2种网络特征的互补性,提出一种用于医学图像分割的CNN和Transformer并行的融合网络——PFNet。该网络的并行融合模块使用一对基于CNN和Transformer的相互依赖的并行分支来高效地学习局部和全局两方面的辨别特征,并以交互方式交叉融合局部特征和长距离特征的依赖关系;同时,为恢复在下采样期间丢失的空间信息以增强细节的保留,提出多尺度交互(MSI)模块提取分层CNN分支生成的多尺度特征的局部上下文以进行远程依赖关系建模。实验结果表明,PFNet优于MISSFormer(Medical Image Segmentation tranSFormer)和UCTransNet(U-Net with Channel Transformer module)等先进方法。在Synapse和ACDC(Automated Cardiac Diagnosis Challenge)数据集上,相较于最优的基线方法MISSFormer,PFNet的平均Dice相似系数(DSC)分别提高1.27%和0.81%。可见,PFNet能实现更精准的医学图像分割。
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。
为解决现有的目标检测模型在处理小目标交通标志时精度不足以及漏检率较高的问题,提出一种基于YOLOv8算法的改进型目标检测模型。首先,融合残差网络(ResNet)的设计理念,在Backbone中引入残差连接机制使模型更有效地整合多层特征信息,从而增强对小目标的识别能力;其次,逆转Neck部分的路径聚合特征金字塔网络(PAFPN)结构,提出I-PAFPN(Inverse PAFPN)结构,从而使网络更集中地捕捉目标的关键特征;再次,将原先的3级检测扩展为4级检测,使模型关注并更细致地提取小目标的特征,从而提高模型对小目标的敏感度;最后,引入WIoU(Wise Intersection over Union)损失函数弱化低质量样例对模型的影响,提高模型准确率。在数据增强后的TT100K(Tsinghua-Tencent 100K)数据集上的实验结果表明,经过改进的YOLOv8模型的mAP50和mAP50:95相较于原始的YOLOv8模型分别提高17.1和12.5个百分点,验证了改进YOLOv8模型在小目标交通标志检测方面的有效性和优越性。
基于深度学习的图像分类算法通常依赖大量训练数据,然而在实际场景中通常难以获取足够大规模的高质量标注样本。针对小样本场景下分类模型泛化能力不足的问题,提出一种基于对比学习的小样本图像分类方法。首先,在训练中增加全局对比学习作为辅助目标,从而使特征提取网络从实例中获得更丰富的信息;其次,对问询样本分块并用于计算局部对比损失,从而促进模型获得从局部推断整体的能力;最后,利用显著性检测混合查询样本的重要区域,并构造复杂样本,以增强模型泛化能力。在2个公开数据集miniImageNet和tieredImageNet上进行的5-way 1-shot和5-way 5-shot的图像分类任务实验结果表明:相较于小样本学习的基线模型Meta-Baseline,所提方法在miniImageNet上的分类准确率分别提高了5.97和4.25个百分点,在tieredImageNet上的分类准确率分别提高了3.86和2.84个百分点;并且,所提方法在miniImageNet上的分类准确率比DFR(Disentangled Feature Representation)模型分别提高了1.02和0.72个百分点。可见,所提方法有效提高了小样本图像分类的准确率,具有良好的泛化能力。
长期时间序列预测在多个领域中具有广泛的应用需求。但是,时间序列的长期预测过程中表现出的非平稳性问题是影响预测准确性的关键因素。为了提高时间序列长期预测精度,以及预测模型的普适性,构建了基于序列分解的多尺度融合注意力神经网络预测网络(MSDFAN)模型。该模型采用时间序列分解提取输入数据中的季节成分和趋势成分,对不同数据成分进行不同的预测建模,能够对具有多尺度稳定特征的非平稳时间成分进行建模和预测。实验结果表明,与FEDformer相比,MSDFAN在5个基准数据集上的预测结果的均方误差(MSE)和平均绝对误差(MAE)分别平均下降了12.95%和8.49%,MSDFAN模型在多变量时间序列上取得了更好的预测精度。