作为迁移学习的关键技术,域适应能很好地解决训练和测试数据集分布不同的问题。然而,传统的域适应方法通常只适用于目标域和源域数据集所含类别的数量和种类相同的情况,在实际场景中该条件通常很难满足。开集域适应(OSDA)正是为了解决此问题而出现的。为了填补该领域的空白,并为相关研究提供借鉴参考,对近年来出现的OSDA方法进行归纳分析。首先,介绍相关概念与基本结构;其次,分别从针对数据增强、针对特征提取以及针对分类器3个阶段梳理分析相关的典型方法;最后,对OSDA的未来发展方向进行展望。
针对裁判文书案件结构复杂、涉案事实冗余且案情分布广泛的问题,现有的大语言模型(LLM)难以有效关注结构信息并可能会产生事实错误关联,从而导致结构信息缺失和事实不一致。因此,提出一种结合LLM与动态提示的裁判文书摘要方法DPCM(Dynamic Prompt Correction Method)。首先,利用LLM进行单样本学习,以生成裁判文书摘要。其次,计算原文与摘要之间的高维相似性,以检测摘要中可能存在的结构缺失或事实不一致的问题:如果发现问题,将错误摘要与原文拼接,并加入提示词,随后再次进行单样本学习,以修正并生成新的摘要,且再次进行相似性检测,如果问题仍然存在,则重复此生成与检测过程。最后,通过这种反复迭代的方式动态调整提示词,以逐步优化生成的摘要。在CAIL2020公共司法摘要数据集上的实验结果表明,相较于Least-To-Most-Prompting、Zero-Shot-Reasoners和Self_Consistency_Cot等方法,所提方法在Rouge-1、Rouge-2、Rouge-L、BERTscore、FactCC (Factual Consistency)指标上均有所提高。
针对真实复杂场景下模态缺失带来的模型兼容性问题,提出一种支持任意模态输入的情感识别方法。首先,在预训练和精调阶段,采用模态随机丢弃的训练策略保证模型在推理阶段的兼容性;其次,分别提出时空掩码策略和基于跨模态注意力机制的特征融合机制,以减少模型过拟合的风险并优化模型跨模态特征融合的效果;最后,为了解决多种模态情感标签不一致带来的噪声标签问题,提出一种基于多原型聚类的自适应去噪策略,该策略为多种模态分别设置类中心,并通过对比每种模态特征对应的聚类类别与标签的一致性去除噪声标签。实验结果表明:在自建数据集上,所提方法相比基线AV-HuBERT(Audio-Visual Hidden unit Bidirectional Encoder Representation from Transformers)在加权平均召回率(WAR)指标上,模态对齐推理、视频缺失推理和音频缺失推理分别提升了6.98、4.09和33.05个百分点;在视频公开数据集DFEW上,相较于AV-HuBERT,所提方法取得了最高的WAR指标,达到了68.94%。
联邦学习是一种强调隐私保护的分布式机器学习框架。然而,它在应对统计异质性问题时面临显著挑战。统计异质性源于参与节点间的数据分布差异,可能导致模型更新偏差、全局模型性能下降以及收敛不稳定等问题。针对上述问题,首先,详细分析统计异质性带来的主要问题,包括特征分布不一致、标签分布不均衡、数据量不对称以及数据质量参差不齐等;其次,对现有的联邦学习统计异质性解决方案进行系统综述,包括局部校正、聚类方法、客户端选择优化、聚合策略调整、数据共享、知识蒸馏以及解耦优化等,并逐一评估它们的优缺点与适用场景;最后,探讨了未来的相关研究方向,如设备计算能力感知、模型异构适应、隐私安全机制的优化以及跨任务迁移能力的提升,为应对实际应用中的统计异质性提供参考。
针对现有对齐多模态语言序列情感分析方法常用的单词对齐方法缺乏可解释性的问题,提出了一种用于未对齐多模态语言序列情感分析的多交互感知网络(MultiDAN)。MultiDAN的核心是多层的、多角度的交互信息提取。首先使用循环神经网络(RNN)和注意力机制捕捉模态内的交互信息;然后,使用图注意力网络(GAT)一次性提取模态内及模态间的、长短期的交互信息;最后,使用特殊的图读出方法,再次提取图中节点的模态内及模态间交互信息,得到多模态语言序列的唯一表征,并应用多层感知机(MLP)分类获得序列的情感分数。在两个常用公开数据集CMU-MOSI和CMU-MOSEI上的实验结果表明,MultiDAN能充分提取交互信息,在未对齐的两个数据集上MultiDAN的F1值比对比方法中最优的模态时空注意图(MTAG)分别提高了0.49个和0.72个百分点,具有较高的稳定性。MultiDAN可以提高多模态语言序列的情感分析性能,且图神经网络(GNN)能有效提取模态内、模态间的交互信息。
现有的知识追踪(KT)模型未能有效利用学习行为信息,且忽略了不同学习行为对答题表现的贡献差异。因此,提出一种学习行为增强的知识追踪(LBBKT)模型。该模型采用门控残差网络(GRN)将学生的学习行为特征编码成4种上下文向量并把它们融入模型中,从而充分利用学习行为信息(答题速度、尝试次数和提示)更好地建模学生的学习过程。此外,利用变量选择网络对学生的学习行为特征进行选择性加权,并通过GRN抑制不相关特征的干扰,以增强相关特征对学生答题表现的影响,从而充分考虑不同学习行为对学生答题表现的差异性贡献。在多个公开数据集上的实验结果表明,LBBKT模型在预测准确性上显著优于对比的KT模型。
针对现有情感分类模型在深层情感理解上的局限性、传统注意力机制的单向性束缚以及自然语言处理(NLP)中的类别不平衡等问题,提出一种融合多尺度BERT(Bidirectional Encoder Representations from Transformers)特征和双向交叉注意力机制的情感分类模型M-BCA(Multi-scale BERT features with Bidirectional Cross Attention)。首先,从BERT的低层、中层和高层分别提取多尺度特征,以捕捉句子文本的表面信息、语法信息和深层语义信息;其次,利用三通道门控循环单元(GRU)进一步提取深层语义特征,从而增强模型对文本的理解能力;最后,为促进不同尺度特征之间的交互与学习,引入双向交叉注意力机制,从而增强多尺度特征之间的相互作用。此外,针对不平衡数据问题,设计数据增强策略,并采用混合损失函数优化模型对少数类别样本的学习。实验结果表明,在细粒度情感分类任务中,M-BCA表现优异。M-BCA在处理分布不平衡的多分类情感数据集时,它的性能显著优于大多数基线模型。此外,M-BCA在少数类别样本的分类任务中表现突出,尤其是在NLPCC 2014与Online_Shopping_10_Cats数据集上,M-BCA的少数类别的Macro-Recall领先其他所有对比模型。可见,该模型在细粒度情感分类任务中取得了显著的性能提升,并适用于处理不平衡数据集。
供应链在发展过程中面临许多挑战,包括如何保证产品溯源过程中信息的真实可靠性以及溯源系统的安全性、物流运输过程中产品的安全性,以及中小企业融资过程中的信任管理等。区块链的去中心化、不可篡改、可追溯性等特点为供应链管理提供了高效的解决办法,但在实际实施过程中存在一些技术挑战。为研究区块链技术在供应链中的应用,对一些典型的应用进行讨论与分析。首先简要介绍了供应链的概念及目前面临的挑战;其次阐述了区块链在信息流、物流以及资金流这三个供应链领域中面临的问题,并对相关解决方案作了对比分析;最后对区块链在供应链实际应用中面临的技术挑战加以总结,对未来的应用进行展望。
近年来,生成对抗网络(GAN)被广泛应用于数据增强,能有效缓解训练样本不足的问题,对模型训练具有重要研究意义。然而,现有用于数据增强的GAN模型存在对数据集要求高和模型收敛不稳定等问题,导致生成的图像易出现失真和形变。因此,提出一种基于动态上采样的轻量级GAN——DU-FastGAN(Dynamic-Upsample-FastGAN)进行数据增强。首先,通过动态上采样模块构建生成器,使生成器能够根据当前特征图的大小采用不同粒度的上采样方法,从而重建纹理,提高合成的整体结构和局部细节的质量;其次,为了使模型能够更好地获取图像的全局信息流,提出权重信息跳跃连接模块,以减小卷积及池化操作对特征的扰动,提高模型对不同特征的学习能力,使得模型生成图像的细节更逼真;最后,给出特征丢失损失函数,通过计算采样过程中对应特征图之间的相对距离提高模型生成质量。实验结果表明,相较于FastGAN、MixDL(Mixup-based Distance Learning)和RCL-master(Reverse Contrastive Learning-master)等方法,DU-FastGAN在10个小数据集上的FID(Fréchet Inception Distance)的最大降幅达到23.47%,能够有效缓解生成图像的失真和形变问题,并提高了生成图像的质量;同时,DU-FastGAN的模型训练时间在600 min内,实现了轻量级开销。
快速扩展随机树星(RRT*)因具有渐近最优性和概率完备性,在机器人路径规划领域有广泛的应用。然而,RRT*及其改进算法仍存在初始路径质量差、路径收敛慢和探索效率低等缺陷。针对这些问题,提出一种基于节点到障碍物距离的自适应扩展RRT*算法——AE-RRT*。为提高探索效率,采用基于节点到障碍物距离的动态目标偏置采样策略和动态步长策略,从而在更短的时间内获得初始路径。为提高路径的质量,提出一种更精确的选择父节点的方法MA-ChooseParent,从而扩大选择父节点的集合。此外,为加快路径收敛,在路径收敛阶段采用基于节点到障碍物距离的自适应高斯采样方法和全局高斯采样方法AG-Gaussian Sample。通过Matlab中的仿真实验将AE-RRT*与RRT*、Quick-RRT*、Bi-RRT*、Informed-RRT*和Smart-RRT*进行对比。实验结果表明,与RRT*相比,AE-RRT*在二维环境中找到初始路径的时间、初始路径的长度和收敛至全局次优路径的时间分别减少了63.78%、6.55%和71.93%;在三维环境中的3个指标分别减少了59.44%、18.26%和79.58%。
针对现有的基于深度学习的源代码漏洞检测方法存在目标代码语法和语义缺失严重以及神经网络模型对目标代码图点(边)权重分配不合理等问题,提出一种基于代码属性图(CPG)与自适应图卷积网络(AT-GCN)的源代码漏洞检测方法VulATGCN。该方法使用CPG对源代码进行表征,结合CodeBERT进行节点向量化,并通过图中心性分析提取深层次结构特征,从而多维度地捕捉代码的语法和语义信息。之后,结合Transformer自注意力机制善于捕捉长距离依赖关系和图卷积网络(GCN)善于捕捉局部特征的优势设计AT-GCN模型,从而实现对不同重要性区域特征的融合学习和精确提取。在真实漏洞数据集Big-Vul和SARD上的实验结果表明,所提方法VulATGCN的平均F1分数达到了82.9%,相较于VulSniper、VulMPFF和MGVD等基于深度学习的漏洞检测方法提高了10.4%~132.9%,平均提高约52.9%。
针对交通路口图像复杂,小目标难测且目标之间易遮挡以及天气和光照变化引发的颜色失真、噪声和模糊等问题,提出一种基于YOLOv9(You Only Look Once version 9)的交通路口图像的多目标检测算法ITD-YOLOv9(Intersection Target Detection-YOLOv9)。首先,设计CoT-CAFRNet (Chain-of-Thought prompted Content-Aware Feature Reassembly Network)图像增强网络,以提升图像质量,并优化输入特征;其次,加入通道自适应特征融合(iCAFF)模块,以增强小目标及重叠遮挡目标的提取能力;再次,提出特征融合金字塔结构BiHS-FPN (Bi-directional High-level Screening Feature Pyramid Network),以增强多尺度特征的融合能力;最后,设计IF-MPDIoU (Inner-Focaler-Minimum Point Distance based Intersection over Union)损失函数,以通过调整变量因子,聚焦关键样本,并增强泛化能力。实验结果表明,在自制数据集和SODA10M数据集上,ITD-YOLOv9算法的检测精度分别为83.8%和56.3%,检测帧率分别为64.8 frame/s和57.4 frame/s。与YOLOv9算法相比,ITD-YOLOv9算法的检测精度分别提升了3.9和2.7个百分点。可见,所提算法有效实现了交通路口的多目标检测。
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。
针对生成对抗网络(GAN)生成伪随机数的质量不高和生成速度较慢的问题,提出一种基于长短时记忆(LSTM)网络和可分离自注意力(SA)机制的模型LSA-WGAN-GP(Wasserstein GAN with Gradient Penalty based on LSTM and separable SA)。该模型通过将数据从一维扩展为二维,改进数据的表示方式,从而提取更深层次的特征。并且,创新性地提出LSA(LSTM and separable Self-Attention)模块,以融合LSTM和SA机制,从而显著提升伪随机数的不可回溯性和不可预测性。此外,通过精简网络结构有效减小模型参数量,并提高生成速度。实验结果表明,LSA-WGAN-GP生成的伪随机数可以100%通过NIST(National Institute of Standards and Technology)测试;与WGAN-GP(Wasserstein GAN with Gradient Penalty)和GAN相比,LSA-WGAN-GP在频率和全局通用测试项的P值和通过率上均有提升;在伪随机数生成速度上,LSA-WGAN-GP比WGAN-GP和GAN分别提升了164%和976%。可见,LSA-WGAN-GP在保证生成的伪随机数质量的同时,减少了模型的参数量,并提高了生成伪随机数的速度。
为解决现有时间序列模型未能充分融合局部和全局依赖的问题,提出一种融合局部和全局相关性的多变量时间序列预测方法PatchLG(Patch-integrated Local-Global correlation method)。该方法基于3个关键部分:1)将时间序列划分为多个子序列(Patch),在保持时间序列的局部性的同时使模型更易于提取全局依赖;2)使用深度可分离卷积和自注意力机制建模局部和全局相关性;3)将时间序列分解为趋势项与季节项2个部分同时进行预测,并将预测结果组合起来得到最终预测结果。在7个基准数据集上的实验结果表明,PatchLG相较于最优基线方法PatchTST(Patch Time Series Transformer)在均方误差(MSE)和平均绝对误差(MAE)2个指标上平均改进量为3.0%和2.9%,同时具有较短的实际运行时间和较低的内存消耗,验证了PatchLG在时间序列预测中的有效性。
在实际应用中,多视图度量学习成了处理多视图数据的有效方法。然而,多视图数据的不完整性给多视图度量学习带来了巨大挑战。尽管已有一些方法试图解决不完整多视图问题,但它们仍存在以下不足:1)现有方法大多依赖于已有样本的k近邻(kNN)来补全缺失数据,而容易忽视样本或视图的独特特征;2)它们仅利用现有样本表示来计算近邻,而无法充分表达样本间的近邻关系。因此,提出基于双补全的不完整多视图度量学习方法(DIMVML)。首先,利用深度自编码器提取各视图的潜在特征,再结合样本的分布信息和视图间的差异信息补全缺失样本;其次,根据补全后的样本的质量进行结果融合,以获得更高质量的补全结果;最后,通过损失函数优化视图内和视图间的关系。实验结果表明:在聚类实验中,所提方法在HandWritten、Caltech101-7、Leaves和YouTubeFace10数据集上的准确率和F1分数均优于SPCC(Subgraph Propagation and Contrastive Calibration)、LHGN(Latent Heterogeneous Graph Network)等先进的多视图方法;在分类实验中,所提方法在CUB、ORL和HandWritten数据集上的准确率显著超过其他多视图方法。
准确的风功率预测能为风电能源行业提供可靠的指导和决策依据,然而传统的建模方法主要是将风功率预测问题转换为时序预测问题,忽略了机组间的空间信息,因此,提出一种面向多时间步风功率预测的深度时空网络模型。该模型采用编码器-解码器架构设计,首先,编码器根据历史功率信息建图,并使用图注意力网络(GAT)提取融合风场空间信息的机组特征;其次,使用门控循环单元(GRU)提取输入数据中的时间特性,从而得到关于该机组的风能时间特征;最后,在解码器融合编码器输出的时空特征后,使用样本卷积和交互网络(SCINet)融合不同时间尺度分辨率下的时空特征,输出未来多时间步风功率的预测值。在WindFarm1数据集上的实验结果表明,在预测步数为72时,所提模型的绝对平均误差(MAE)低至42.38,相较于双向门控循环单元(Bi-GRU)的MAE下降了4.25%;所提模型的均方根误差(RMSE)低至42.71,相较于Autoformer的RMSE下降了8.70%。而在WindFarm2数据集上的泛化性实验结果表明,所提模型在不同风场中具备适用性,为未来风功率的准确预测提供了一种新的途径。
个性化学习推荐是智慧教育领域的重要研究课题,它的核心目标是利用推荐算法和模型为学习者提供与他们的个人学习需求、兴趣、能力和历史相匹配的有效学习资源,从而提高学习者的学习效果。目前的推荐方法存在冷启动、数据稀疏、可解释性差和过度个性化等问题,而知识图谱与大语言模型的结合为解决上述问题提供了有力支持。首先,对个性化学习推荐的概念、研究现状等内容进行概述;其次,分别讨论知识图谱和大语言模型(LLM)的概念以及在个性化学习推荐中的具体应用;再次,总结知识图谱与LLM在个性化学习推荐中协同应用的方法;最后,展望知识图谱和LLM在个性化学习推荐中的未来发展方向,从而为个性化学习推荐领域的持续发展和创新实践提供借鉴和启示。
针对当前无人机(UAV)视角下小目标检测性能低以及漏检和误检的问题,提出基于YOLOv8改进的BDS-YOLO (BiFPN-Dual-Small target detection-YOLO)模型。首先,使用RepViTBlock(Revisiting mobile CNN from ViT perspective Block)与EMA(Efficient Multi-scale Attention)机制构造C2f-RE (C2f-RepViTBlock Efficient multi-scale attention)从而改进骨干网络中深层的C2f (faster implementation of CSP bottleneck with 2 Convolutions)模块,提升模型对小目标特征的提取能力并降低参数量;其次,使用双向特征金字塔网络(BiFPN)重构颈部网络,从而使不同层级的特征得以相互融合;然后,在改进颈部网络的基础上构造双重小目标检测层,并结合浅层和最浅层特征来提高模型对小目标的检测能力;最后,引入改进损失函数Inner-EIoU (Inner-Efficient-Intersection over Union),该函数使用更合理的宽高比衡量方式并解决交并比(IoU)自身的局限。实验结果表明,改进模型在VisDrone2019数据集上相对原始模型的精确率、召回率、mAP@50、mAP@50:95分别提升了8.5、7.7、9.2和6.3个百分点,而参数量仅为2.23×106,模型大小减小了19.1%。可见,所提模型在实现一定轻量化的同时显著提升了性能。
注意缺陷多动障碍(ADHD)是一种常见于儿童期的神经发育障碍,以注意力不集中、多动和冲动为主要特征,常表现出特定的动作模式。传统的动作识别算法在处理这些特定动作时存在识别准确率低和响应慢等问题。为解决这些问题,提出基于骨架和3D热图的注意缺陷多动障碍患者动作识别算法,并通过高斯分布精确地表示关节点间的空间关系,以有效地保留时空信息。针对单一模态数据的限制,引入基于骨架和3D热图的多模态集成方法。同时,通过融合Short 3D-CNN(3D Convolutional Neural Network)和自适应图卷积网络(AGCN)的输出特征,充分利用两种模态数据的优势,从而提升动作识别性能。在四川大学华西医院心理卫生中心采集的ADHD患者数据集上的实验结果表明,对于8种不同类型的动作,所提算法的Top-1识别准确率为0.860 4,Top-5识别准确率为0.987 3。此外,提出基于动作类型的ADHD自动分型算法,该算法将ADHD分型为头面部体动型、躯干体动型和四肢体动型,它的识别准确率为75%,响应时间为5 s。与2s-AGCN(two-stream AGCN)和PoseConv3D相比,所提算法在复杂动作场景下具有更高的识别精度,为ADHD的个性化干预提供了新的技术手段。
针对大语言模型(LLM)输出内容存在偏见而导致LLM不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先,概述LLM的三大关键技术,从中分析LLM不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型,并分析这些偏见的特点和原因;再次,系统性回顾现有LLM偏见的评估基准,并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术,并指出它们的改进方向,同时,分析指出LLM偏见研究的3个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。
针对现有大语言模型(LLM)在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限,提出基于学术社交网络(ASN)的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成(KGAG)与检索增强生成(RAG),以提升精准语义检索与动态知识更新的能力,并通过微调优化以强化学术文本的生成质量。首先,基于学者网(SCHOLAT)关系数据构建学者知识图谱,并利用LLM进行语义增强;其次,提出KGAG检索模型,结合RAG实现多路混合检索,增强LLM的精准检索能力;最后,利用微调技术优化模型,使它在各学术领域的生成质量得到提升。实验结果表明,ScholatGPT在学术问答任务中的精确率达83.2%,相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点,在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面,ScholatGPT取得了稳定且具有竞争力的表现,在专业性与可读性之间实现了较好的平衡。此外,基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。
针对基于知识图谱(KG)的推荐模型中存在的降噪效果不佳、项目间语义信息提取不足和信息利用不平衡的问题,提出一种融合降噪策略与多视图对比学习(FDSMVC)的知识感知推荐模型。首先,分别以选择性丢边和加权函数掩盖低权重三元组的方式对用户项目交互图与知识图进行降噪;其次,分别采用随机奇异值分解(SVD)、余弦相似度与k-最近邻(kNN)稀疏法和基于路径的图注意力网络构建协同视图、项目间的语义视图和结构视图;再次,将多个视图进行图内、局部和全局这3种对比学习;最后,利用多任务策略联合优化推荐任务和对比学习任务,从而得到用户与项目交互的可能性。实验结果表明,相较于最优的基线模型,在Book-Crossing、MovieLens-1M、Last.FM、Alibaba-iFashion和Yelp2018共5个真实数据集上,FDSMVC模型的曲线下面积(AUC)和F1分数分别提升了1.06%~2.04%和1.52%~2.06%,且Recall@K也优于最优的基线模型。
针对普惠金融领域客户流失问题的严峻性及现有客户挽留模型在预测精度与可解释性上的不足,提出一种基于层次图神经网络(HGNN)和差异化特征学习(SFL)的客户流失预测模型HGNN-SFLN (HGNN-SFL Network),以提升模型的预测能力和对特征交互的理解。首先,为了应对数据不平衡问题,提出一种混合采样策略,并在特征层面对不同类别的特征进行加权调整,以确保各类数据的有效利用;其次,利用层次图强化不同特征之间的关联性,并构建一种基于自注意力机制的SFL模块,以增强模型对分类特征的处理能力及特征交互关系的解析能力。通过该模块,模型能够精准识别关键特征,并有效捕捉它们之间的复杂交互关系,从而优化预测决策过程。实验结果表明,所提模型在多个真实金融数据集上相较于主流模型,如Light GBM(Light Gradient Boosting Machine)和深度神经网络(DNN),在曲线下面积(AUC)等关键指标上都取得了最优结果,并且在精确识别关键流失特征以及有效捕捉特征间的复杂交互关系方面,相较于对比模型展现出显著的优势。
基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG (Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。
轴承表面缺陷对机电设备的性能和稳定性有显著影响。针对当前轴承表面缺陷检测过程中存在的小目标识别精度不高、速度较慢的问题,提出一种基于RT-DETR(Real-Time DEtection TRansformer)的轴承表面微小缺陷检测算法——FECS-DETR(Faster Expand and Cross hierarchical-scaled feature Screening DETR)算法。首先,采用轻量级FasterNet-T1重构RT-DETR主干网络以降低计算开销;其次,设计内嵌注意力的扩张残差融合(AERF)模块用于提取深层特征,从而增强对小尺度抽象特征的描述能力;再次,通过引入级联分组注意力(CGA),进一步降低计算冗余,并提升模型的运行效率;继次,提出一种跨层级尺度的信息筛选特征金字塔网络(CIS-FPN),以解决特征融合过程中的信息丢失问题,并增强特征融合能力;最后,利用归一化Wasserstein距离(NWD)与改进Inner-MPDIoU联合的回归损失优化策略提高模型收敛速度和模型检测小尺度目标的准确性。实验结果表明,相较于原RT-DETR算法,FECS-DETR算法在轴承表面微小缺陷数据集上的平均精度均值(mAP)提升了2.5个百分点,计算量减少了28.8%,帧率提升了20.8%。可见,所提算法实现了准确率与实时性之间的平衡,能够满足工业环境下的轴承表面微小缺陷检测需求。