台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。
针对在记忆型饱和控制器的作用下,研究非线性时滞系统的指数稳定性问题。首先,考虑系统参数不稳定的因素;其次,利用包含分布式时滞项辅助反馈的多面体方法处理饱和非线性;同时,建立增广Lyapunov-Krasovskii泛函,并利用改进的积分不等式放缩积分项,从而导出基于线性矩阵不等式(LMI)的稳定性准则;此外,制定保守性较低的吸引域优化方案,以提高吸引域的上界;最后,通过一个仿真实例证明所提方案的有效性和实用性。实验结果表明,在非线性系统中,在相同的参数条件下,与无记忆型控制器的现有的吸引域优化方案相比,所提有记忆型控制器的吸引域优化方案具有较低的保守性。
重大突发性传染病以它的强传染性、快变异性和高风险性,对人类生命安全与经济发展构成重大威胁。流行病学调查是遏制传染病扩散的关键步骤和落实全链路精准防控的前提。针对现有流调系统存在的人工效率低下、数据质量差、专业知识不足等问题,在现有数字化的基础上结合知识图谱,提出一套辅助流行病学调查的技术应用方案。首先,基于人、地、事、物、组织五大类实体及其关系和属性构建知识图谱;其次,根据病例查风险点位查密接的思路,以病例为起点,以点位为重心,辅助判定风险人群和风险点位;最后,通过对流调数据的可视化分析,实现流调信息落位、传播扩散溯源和疫情态势感知等多个应用,从而辅助重大突发性传染病防控工作的顺利开展。在相同的误差范围内,基于图谱增强的轨迹落位方法的准确率显著高于传统基于人工问询的方法,千米内的判定准确率达到85.15%;基于图谱增强的风险点位和人群的判定方法使得效率显著提升,生成报告的平均耗时降至1 h内。实验结果表明,所提方案有效融合了知识图谱的技术优势,不仅提高了精准疫情防控策略制定的科学性与时效性,更为流行病传染预防领域的实践探索提供了重要的参考价值。
针对宫颈细胞核图像分割中上下文信息联系匮乏和边缘分割不准确且精度低等问题,提出一种基于U-net改进的结合密集块的U型卷积多尺度引导滤波模块的宫颈细胞核分割网络DGU-Net (Dense-Guided-UNet),可以更完整且精确地分割宫颈细胞核图像。首先,以编码器、解码器结构的U-net模型作为网络骨干提取图像特征;其次,引入密集块模块连接不同层之间的特征,实现上下文信息的传递,从而增强模型的特征提取能力;同时,在每次下采样后和上采样前引入多尺度引导滤波模块,从而引入灰度引导图像中明显的边缘细节信息,增强图像细节和边缘信息;最后,在每个解码器路径中都增加一个侧输出层,融合并平均所有输出的特征信息,从而融合不同尺度不同层次的特征信息,提升结果的准确性和完整性。在Herlev数据集上实验,并把所提网络与U-net、PGU-net+ (Progressive Growing of U-net+)和LFANet (Lightweight Feature Attention Network)这3种深度学习模型对比。结果表明,与PGU-net+相比,DGU-Net的准确率提升了70.06%;与LFANet相比,DGU-Net的交并比(IoU)提升了6.75%。可见,DGU-Net在边缘细节信息处理上更准确,并在分割指标上普遍优于对比模型。
针对中药材粉末的显微图像中含有大量细微特征和背景干扰因素导致的同一类药材的变化过大(类内差异大)和多种药材之间特征过于相似(类间差异小)的问题,提出一种多尺度2D-Adaboost算法。首先,构建一个全局?局部特征融合的主干网络架构,以更好地提取多尺度特征,该架构通过结合Transformer和卷积神经网络(CNN)的优势能有效提取并融合各个尺度的全局和局部特征,从而显著提高主干网络的特征捕捉能力;其次,将Adaboost的单尺度输出拓展到多尺度,并构建2D-Adaboost结构的背景抑制模块,该模块将主干网络各个尺度的输出特征图划分为前景和背景,从而有效抑制背景区域的特征值,并增加判别性特征的强度;最后,在2D-Adaboost结构的每个尺度上额外添加一个分类器以构建特征细化模块,该模块通过控制温度参数协调分类器间的协作学习,从而逐步细化不同尺度的特征图,帮助网络学习更合适的特征尺度,并丰富细节特征的表示。实验结果表明,所提算法的识别准确率达到了96.85%,与ConvNeXt-L、ViT-L、Swin-L和Conformer-L模型相比分别上升了7.56、5.26、3.79和2.60个百分点。高准确率和分类效果的稳定性验证了所提算法在中药材粉末显微图像分类任务中的有效性。
现有的烟火检测方法主要依赖员工现场巡视,效率低且实时性差,因此,提出一种基于YOLOv5s的复杂场景下的高效烟火检测算法YOLOv5s-MRD (YOLOv5s-MPDIoU-RevCol-Dyhead)。首先,采用MPDIoU (Maximized Position-Dependent Intersection over Union)方法改进边框损失函数,以适应重叠或非重叠的边界框回归(BBR),从而提高BBR的准确性和效率;其次,利用可逆柱状结构RevCol(Reversible Column)网络模型思想重构YOLOv5s模型的主干网络,使它具有多柱状网络架构,并在模型的不同层之间加入可逆链接,从而最大限度地保持特征信息以提高网络的特征提取能力;最后,引入Dynamic head检测头,以统一尺度感知、空间感知和任务感知,从而在不额外增加计算开销的条件下显著提高目标检测头的准确性和有效性。实验结果表明:在DFS(Data of Fire and Smoke)数据集上,与原始YOLOv5s算法相比,所提算法的平均精度均值(mAP@0.5)提升了9.3%,预测准确率提升了6.6%,召回率提升了13.8%。可见,所提算法能满足当前烟火检测应用场景的要求。
提取准确的边缘信息对分割建筑物至关重要。将多尺度细节与语义特征进行简单融合,或者设计复杂的损失函数引导网络关注边缘信息是当前较常见的方法,然而这些方法很少关注语义和细节特征的相互促进作用。针对该问题,提出一种基于语义和细节特征双促进的遥感影像建筑物提取网络。所提网络的结构类似U-Net框架,在编码端提取浅层高分辨率细节特征图,在解码端将深层的语义与细节特征双促进模块(SDFF)嵌入主干网络中,从而使网络同时具备较好的语义特征和细节特征的提取能力。之后对语义和细节特征进行通道融合,并结合不同分辨率影像的边缘损失监督,提高网络对建筑物细节的提取能力和泛化性。实验结果表明:与U-Net和双路细节关注网络(DSDCNet)等多种主流方法相比,所提网络在WHU数据集和马萨诸塞州建筑物(Massachusetts)数据集上均取得了最佳的语义分割结果。可见,所提网络能更好地保留建筑物边缘特征,有效提升遥感影像中的建筑物分割精度。
静态背景信息和运动前景对象的数据分布不平衡通常会引起发生异常的前景区域信息学习不充分问题,进而影响视频异常检测(VAD)的精度。为了解决上述问题,提出一种用于VAD的嵌套U型帧预测生成对抗网络(NUFP-GAN)方法。所提方法使用具有突出视频帧中显著目标能力的嵌套U型帧预测网络架构作为帧预测模块,并在判别阶段设计一个自注意力补丁判别器,应用不同大小的感受野提取视频帧中更重要的外观和运动特征,以提升异常检测的准确性。此外,为保证预测帧和真实帧在高级语义信息上的多尺度特征一致性,引入多尺度一致性损失,以进一步提升方法的异常检测效果。实验结果表明,所提方法在CUHK Avenue、UCSD Ped1、UCSD Ped2和ShanghaiTech数据集上的曲线下面积(AUC)值分别达到了87.6%、85.2%、96.0%和73.3%;与MAMC (Memory-enhanced Appearance-Motion Consistency)方法相比,所提方法在ShanghaiTech数据集上的AUC值提升了1.8个百分点。可见,所提方法能够有效应对VAD中数据分布不平衡带来的挑战。
针对因遮挡和自相似性导致的从单张RGB图像估计三维手部姿态不精确的问题,提出结合注意力机制和多尺度特征融合的三维手部姿态估计算法。首先,提出结合扩张卷积和CBAM (Convolutional Block Attention Module)注意力机制的感受强化模块(SEM),以替换沙漏网络(HGNet)中的基本块(Basicblock),在扩大感受野的同时增强对空间信息的敏感性,从而提高手部特征的提取能力;其次,设计一种结合SPCNet (Spatial Preserve and Content-aware Network)和Soft-Attention改进的多尺度信息融合模块SS-MIFM (SPCNet and Soft-attention-Multi-scale Information Fusion Module),在充分考虑空间内容感知机制的情况下,有效地聚合多级特征,并显著提高二维手部关键点检测的准确性;最后,利用2.5D姿态转换模块将二维姿态转换为三维姿态,从而避免二维关键点坐标直接回归计算三维姿态信息导致的空间丢失问题。实验结果表明,在InterHand2.6M数据集上,所提算法的双手关节点平均误差(MPJPE)、单手MPJPE和根节点平均误差(MRRPE)分别达到了12.32、9.96和29.57 mm;在RHD(Rendered Hand pose Dataset)上,与InterNet和QMGR-Net算法相比,所提算法的终点误差(EPE)分别降低了2.68和0.38 mm。以上结果说明了所提算法能够更准确地估计手部姿态,且在一些双手交互和遮挡的场景下有更高的鲁棒性。
步态识别旨在通过人们的步行姿态进行身份识别。针对步态识别中有效感受野(ERF)与人体轮廓区域匹配不佳的问题,提出一种基于空洞卷积的步态识别方法DilatedGait。首先,采用空洞卷积扩大神经元感受野,缓解下采样和模型深度增加导致的分辨率下降,以提高轮廓结构的辨识度;其次,提出扩张重参数化模块(DRM),通过重参数化方法融合多尺度卷积核参数,优化ERF聚焦范围,使模型捕获更多的全局上下文信息;最后,通过特征映射提取判别性步态特征。在户外数据集Gait3D和GREW上的实验结果表明,对比目前的先进方法GaitBase,DilatedGait在Gait3D的Rank-1和平均逆负惩罚(mINP)上分别提升了9.0和14.2个百分点,在GREW的Rank-1和Rank-5上分别提升了11.6和8.8个百分点。可见,DilatedGait消除了复杂协变量带来的不利影响,能进一步提升户外场景下步态识别的准确率。
行人作为非刚性物体,对它的视觉特征进行有效的不变表示是提高识别效果的关键。在自然视觉场景中,运动行人通常会发生尺度、背景、姿态等变化,这对用现有技术提取这些不规则特征造成阻碍。针对该问题,基于哺乳动物视网膜神经结构特性,探究运动行人不变性识别问题,并提出一种适用于视觉场景的运动行人检测神经网络(MPDNN)。MPDNN包括2个神经模块:突触前网络和突触后网络。其中,突触前网络感知表征运动目标的低阶视觉运动线索,并提取目标的二值化视觉信息;突触后网络借助生物视觉系统中的稀疏不变响应特性,利用目标轮廓在连续改变形状后较大凹凸区域之间的位置关系不变特性,从低阶运动线索中编码平稳变化的视觉特征以构建行人不变表征。实验结果表明,MPDNN在公共数据集CUHK Avenue与EPFL上达到了96.96%的跨域检测准确率,比SOTA (State Of The Art)模型高4.52个百分点;在尺度、运动姿势变化数据集上也表现了较好的鲁棒性,准确率分别达到了89.48%与91.45%。以上实验结果验证了生物不变性物体识别机制在运动行人检测中的有效性。
协议转换通常用于解决不同协议之间的数据交互问题,它的本质是寻找不同协议字段之间的映射关系。传统的协议转换方法存在以下缺点:转换大多是在特定协议的基础上设计的,因而这些转换是静态的,灵活性较差,不适用于多协议转换的场景;一旦协议发生改变,就需要再次分析协议的结构和字段语义以重新构建字段之间的映射关系,从而产生指数级的工作量,降低了协议转换的效率。因此,提出基于语义相似度的通用协议转换方法,旨在通过智能的方法发掘字段间的映射关系,进而提高协议转换的效率。首先,通过BERT (Bidirectional Encoder Representations from Transformers)模型分类协议字段,并排除“不应该”存在映射关系的字段;其次,通过计算字段之间的语义相似度,推理字段之间的映射关系,进而构建字段映射表;最后,提出基于语义相似度的通用协议转换框架,并定义相关协议以进行验证。仿真实验结果表明:所提方法的字段分类精准率达到了94.44%;映射关系识别精准率达到了90.70%,相较于基于知识抽取的方法提高了13.93%。以上结果验证了所提方法的有可行性,该方法可以快速识别不同协议字段之间的映射关系,适用于无人协同中多协议转换的场景。
面对未来双功能雷达通信(DFRC)系统对通信与感知性能的更高要求,结合非正交多址(NOMA)和可重构智能表面(RIS)技术,提出一种RIS辅助的融合多簇NOMA的DFRC系统模型。在所提模型中,DFRC基站利用叠加的多簇NOMA信号实现目标感知,并借助RIS反射建立的虚拟视距链路提升多簇NOMA中的用户通信性能。基于所提模型,以最大化系统和速率与感知功率的加权和为目标,构建受多条件约束且包含多变量耦合的非凸目标函数。为求解该目标函数,提出一种联合波束成形与功率分配的优化方案。在所提方案中,首先,将原优化问题分解为3个非凸优化子问题;其次,采用连续凸逼近(SCA)和半正定松弛(SDR)等方法将原非凸优化子问题转换为凸优化子问题;最后,采用交替优化(AO)方法对这些子问题进行迭代求解,从而实现联合波束成形(包括主动波束成形和被动波束成形)和簇内功率分配系数的优化。仿真实验结果表明,所提方案具有良好的通信性能与感知性能,与正交多址(OMA)方案相比,系统和速率的提升约为1 bit/(s·Hz),同时保持较高的目标感知性能,在通信性能和感知性能之间取得较好的折中。
对存储在云服务器上的数据进行周期性的审计,是确保存储在云上数据的安全性和完整性的核心策略,它可以有效识别和应对可能存在的数据篡改或丢失的风险。然而传统的公共审计方案存在证书管理问题或密钥托管等问题,进而在数据的查询和动态修改过程中存在隐私泄露问题;此外,随着量子计算技术的不断发展,传统公钥体制下的公共审计方案面临被量子计算机破解的严重威胁。为了解决以上问题,提出一种基于格的后量子无证书公共审计方案。首先,使用无证书公钥密码体制,以解决传统公共审计方案中的证书管理和密钥托管问题;其次,在数据查询和动态修改过程中,数据拥有者(DO)无需提供具体的数据块信息,从而保证DO的隐私;最后,采用格密码学的技术抵抗量子计算机的攻击。理论分析和实验对比结果验证了所提方案可以抵御恶意攻击并保证DO操作的隐私,同时在标签生成方面具备更高的效率。
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。
为解决网络架构复杂化、动态化和碎片化演变导致的边界防护措施失效,应对非自主可控的系统、软硬件和密码算法不断呈现的脆弱性对网络数据安全造成的挑战,首先,基于零信任理念设计一个零信任网络架构实现模型;其次,提出一种零信任网络安全保护框架,在身份管理与认证、授权与访问、数据处理与传输等环节融合利用零信任安全理念、国密算法体系和可信计算技术,设计国密证书申请与签发、业务数据安全处理与传输等框架流程,并设计与实现身份与访问管理模块、终端可信网络访问代理设备等功能组件;最后,构建基于安全保护框架的网络平台,从而为网络数据安全保护和零信任安全实践提供新框架、技术和工具。安全分析与性能测试的结果显示,所提平台对SM2的签名与验签性能分别平均达到了每秒1 118.72次和每秒441.43次,对SM4的加密和解密性能分别平均达到了10.05 MB/s和9.96 MB/s,平台数据安全访问/响应性能为7.23 MB/s,表明所提框架可以提供稳定的数据安全支持。
针对多行为推荐研究中存在的数据稀疏和忽视多行为之间复杂联系的问题,提出一种基于级联残差图卷积网络的多行为推荐(CRMBR)模型。首先,从由所有行为的相互作用构建的统一同构图中学习用户和项目的全局嵌入,并将这些嵌入用作初始化嵌入;其次,通过级联残差块捕获不同行为之间的联系,以不断细化不同类型行为的嵌入,从而完善用户偏好;最后,通过2种不同的聚合策略分别聚合用户和项目嵌入,并采用多任务学习(MTL)优化这些嵌入。在多个真实数据集上的实验结果表明,CRMBR模型的推荐性能优于目前的主流模型。与先进的基准模型——多行为分层图卷积网络(MB-HGCN)相比,在Tmall数据集上,所提模型的命中率(HR@20)和归一化折损累积增益(NDCG@20)分别提升了3.1%和3.9%;在Beibei数据集上,则分别提升了15.8%和16.9%;在Jdata数据集上,则分别提升了1.0%和3.3%,验证了所提模型的有效性。
面向开源项目推荐开发人员对开源生态建设具有重要意义。区别于传统软件开发,开源领域的开发者、项目、组织及相互关系体现了开放式协作项目的特点,而它们蕴含的语义有助于精准推荐开源项目的开发者。因此,提出一种基于协作贡献网络(CCN)的开发者推荐(DRCCN)方法。首先,利用开源软件(OSS)开发者、OSS项目、OSS组织之间的贡献关系构建CCN;其次,基于CCN构建一个3层深度的异构GraphSAGE (Graph SAmple and aggreGatE)图神经网络(GNN)模型,预测开发者节点和开源项目节点之间的链接,从而产生相应的嵌入对;最后,根据预测结果,采用K最近邻(KNN)算法完成开发者推荐。在GitHub数据集上训练和测试模型的实验结果表明,相较于序列推荐的对比学习模型CL4SRec (Contrastive Learning for Sequential Recommendation),DRCCN在精确率、召回率和F1值这3个指标上分别提升了约10.7%、2.6%和4.2%。因此,所提模型可以为开源社区项目的开发者推荐提供重要的参考依据。
针对现有基于图神经网络(GNN)的群组推荐模型难以充分利用显隐式交互信息的问题,提出一种基于多视角学习的GNN群组推荐(GRGM)模型。先根据群组交互数据构造超图、二分图和超图投影图,并针对各个图结构的特性采用相应的GNN提取图节点特征,从而充分表达用户、群组和项目之间的显隐式关系;再提出一种多视角信息融合策略,以获取最终的群组和项目表示。在Mafengwo、CAMRa2011和Weeplaces数据集上的实验结果表明,相较于基线模型ConsRec,GRGM模型的命中率(HR@5、HR@10)和归一化折损累计增益(NDCG@5、NDCG@10)在Mafengwo数据集上分别提升了3.38%、1.96%和3.67%、3.84%,在CAMRa2011数据集上分别提升了2.87%、1.18%和0.96%、1.62%,在Weeplaces数据集上分别提升了2.41%、1.69%和4.35%、2.60%。可见,GRGM模型相较于对比模型具有更好的推荐性能。
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERT-BiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。
小说中的说话人识别(SI)旨在通过引语所在上下文判断它的说话人。这项任务对在制作有声书的过程中为不同的角色分配合适的声音有很大帮助。然而,现有方法对引语上下文的选择主要以固定窗口值为主,这种方式不够灵活,会产生冗余文段,导致模型不易捕捉到真正有用的信息。另外,由于不同小说的引语数量和写作风格差异巨大,仅靠少量的标注样本无法使模型充分泛化,同时数据集的标注比较昂贵。为了解决上述问题,提出一个融合叙事单元和可靠标签的小说说话人识别框架。首先,使用基于叙事单元的上下文选择(NUCS)方法选择合适长度的上下文,从而让模型高度聚焦与引语归因最密切的文段;其次,构建一个说话人评分网络(SSN),并把生成的上下文作为输入;此外,引入自训练,并设计一个可靠伪标签选择(RPLS)算法,从而在一定程度上弥补标签样本过少的不足,筛选出更可靠且质量更高的伪标签样本;最后,构建并标注一个包含11本中文小说的中文小说说话人识别语料库(CNSI)。为评价所提框架,在2个公开数据集和自建数据集上进行实验,结果表明,融合叙事单元和可靠标签的小说说话人识别框架优于CSN(Candidate Scoring Network)、E2E_SI和ChatGPT-3.5等方法。
作为自然语言处理领域的一项关键任务,事实验证要求能够从大量的纯文本中根据给定的声明检索相关的证据,并使用这些证据推理验证声明。以往的研究通常利用证据句子拼接或图结构表示证据之间的关系,而不能清晰地表示各证据之间的内在关联。因此,设计一种基于图谱和文本融合的协同推理网络模型CNGT (Co-attention Network with Graph and Text fusion),以通过构建证据知识图谱和证据句子进行语义融合。首先,根据证据句子构建证据知识图谱,并利用图变换编码器学习图谱表示;其次,利用BERT (Bidirectional Encoder Representations from Transformers)模型对声明和证据编码;最后,通过双层协同推理网络有效地融合推理图谱信息和文本特征。实验结果表明,相较于先进模型KGAT (Knowledge Graph Attention neTwork),所提模型在FEVER (Fact Extraction and VERification)数据集上的标签准确率(LA)提高了0.84个百分点,FEVER得分提高了1.51个百分点。可见,所提模型更关注证据句子之间的关系,并且通过证据图谱展示出模型对证据句子关系的可解释性。
传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world knowledge Reasoning)。首先,使用由实体对间结构生成的多条路径和单个实体周围结构生成的增强三元组,其中路径文本通过拼接路径中的三元组文本得到,而增强三元组文本通过拼接头实体邻域文本、关系文本和尾实体邻域文本得到;其次,使用BERT(Bidirectional Encoder Representations from Transformers)分别编码路径文本和增强三元组文本;最后,使用路径向量和三元组向量计算语义匹配注意力,再使用语义匹配注意力聚合多条路径的语义信息。在3个开放世界知识图谱数据集WN18RR、FB15k-237和NELL-995上的对比实验结果表明,与次优模型BERTRL(BERT-based Relational Learning)相比,所提模型的命中率(Hits@10)指标分别提升了2.6、2.3和8.5个百分点,验证了所提模型的有效性。
当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。
针对现有的问诊推荐方法未能充分利用医患间丰富的对话信息和无法捕捉患者实时的健康需求和偏好的问题,提出一种基于知识图谱和对话结构的问诊推荐方法(KGDS)。首先,构建包含评论情感分析和医学专业知识的医疗知识图谱(KG),增强医生和患者的细粒度特征表示;其次,在患者表示学习部分,设计一种患者查询编码器,从词级和句级这2个层面提取查询文本的关键特征,并通过注意力机制加强医患向量间的高阶特征交互;再次,建模诊断对话,充分利用医患间丰富的对话信息增强医患特征表示;最后,设计基于对比学习的对话模拟器,捕捉患者的动态需求和实时偏好,利用模拟的对话表示辅助推荐得分的预测。在真实数据集上的实验结果表明,KGDS相较于最优基线方法在曲线下面积(AUC)、平均值倒数秩(MRR@15)、推荐多样性(Diversity@15)、调和平均值(F1@15)、命中率(HR@15)和归一化折损累计增益(NDCG@15)上分别提高了1.82、1.78、3.85、3.06、10.02和4.51个百分点,验证了KGDS的有效性,且可见情感分析和KG的纳入增强了推荐结果的可解释性。
已有的知识图谱补全(KGC)方法大多未充分挖掘三元组结构中的关系路径,仅考虑了图结构信息;同时现有模型在实体聚合过程中着重考虑邻域信息,对关系的学习相对简单。针对以上问题,提出融合有向关系和关系路径的图注意力模型DRPGAT。首先,将常规三元组转换为有向关系三元组,并引入注意力机制对不同的有向关系赋予不同的权重,从而完成实体信息的聚合,同时,建立关系路径模型,通过将关系位置嵌入路径信息区分不同位置之间的关系,并过滤无关路径得到有用的路径信息;其次,使用注意力机制对路径信息进行深度学习,以实现关系的聚合;最后,将实体与关系送入解码器,训练得到最终的补全结果。在2个真实数据集上进行链接预测实验,以验证所提模型的有效性。实验结果表明,在FB15k-237数据集上,相较于基线模型中的最优结果,DRPGAT的平均排名(MR)降低了13,平均倒数排名(MRR)、Hits@1、Hits@3、Hits@10分别提高1.9、1.2、2.3和1.6个百分点;在WN18RR数据集上,DRPGAT的MR降低了125,MRR、Hits@1、Hits@3、Hits@10分别提高了1.1、0.4、1.2和0.6个百分点,显示了所提模型的有效性。
针对离散词扰动和嵌入扰动方法中未充分考虑潜在空间词向量之间距离边界的问题,提出一种邻近性语义感知的对抗性自动编码器(SPAAE)方法。首先,采用对抗自动编码器作为底层模型;其次,根据词向量的邻近距离求得噪声向量概率分布的标准差;最后,通过对概率分布进行随机采样,动态调整扰动参数,从而最大限度模糊自身语义且不影响其他词向量的语义。实验结果表明,与DAAE (Denoising Adversarial Auto-Encoders)和EPAAE (Embedding Perturbed Adversarial Auto-Encoders)方法相比,所提方法在Yelp数据集上的自然流畅度分别提升了14.88%、15.65%;在Scitail数据集上的文本风格迁移(TST)的准确率分别提升了11.68%、6.45%;在Tenses数据集上的BLEU (BiLingual Evaluation Understudy)值分别提升了28.16%、26.17%。可见,SPAAE方法不仅在理论上提供了一种更精确的词向量扰动方式,而且在7个公开数据集上展示了它在不同风格迁移任务中的显著优势。特别是在网络舆论引导中,所提方法可以用于情感文本的风格迁移。
现有的领域自适应方法过于关注源域的细粒度特征学习,从而削弱了相关方法有效推广到目标域的能力,导致这些方法容易在特定的环境中过度拟合,且缺乏对复杂环境的鲁棒性。为了解决上述问题,提出一个融合环境标签平滑与核范数差异(ELSND)的领域自适应模型。所提模型通过环境标签平滑模块,减小真实标签的概率,增大非真实标签的概率,进而增强模型对不同场景的适应性。同时,运用核范数差异模块度量源域与目标域的分布差异,从而提高决策边界处样本的分类确定性。在Office-31、Office-Home和MiniDomainNet这3个领域的自适应基准数据集上进行大量实验。结果表明,与先进的基线模型DomainAdaptor-Aug (DomainAdaptor with generalized entropy minimization-Augmentation)在MiniDomainNet数据集上相比,ELSND模型在图像分类领域自适应任务上的精确度提升了1.23个百分点。因此,所提模型在图像分类时具有更高的精确度和泛化性。
针对内镜语义分割网络中病灶边缘信息丢失和大面积病灶分割不全的问题,提出一种引入解耦残差自注意力(DRA)的边界交叉监督语义分割网络(BCS-SegNet)。首先,引入DRA,以增强网络对远距离关联性病灶的学习能力;其次,构建跨级交叉融合(CLF)模块,从而将编码结构中的多级特征图逐对组合,进而实现在低计算成本下图像细节与语义信息的融合;最后,使用多方向多尺度的二维Gabor变换提取边缘信息,并使用空间注意力加权特征图中的边缘特征,以监督分割网络的解码过程,从而在像素级别上提供更精准的类内分割一致性。实验结果表明,在ISIC2018皮肤镜和Kvasir-SEG/CVC-ClinicDB结肠镜数据集上,BCS-SegNet的平均交并比(mIoU)和Dice系数分别为84.27%、90.68%和79.24%、87.91%;在自建食管内镜数据集上,BCS-SegNet的mIoU和Dice系数分别为82.73%和90.84%,mIoU相较于U-net和UCTransNet分别提升了3.30%和4.97%。可见,所提网络可以达到更完整的分割区域和更清晰的边缘细节等视觉效果。
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。