构建数字孪生水利建设知识图谱挖掘水利建设对象之间的潜在关系能够帮助相关人员优化水利建设设计方案和决策。针对数字孪生水利建设的学科交叉和知识结构复杂的特性,以及通用知识抽取模型缺乏对水利领域知识的学习和知识抽取精度不足等问题,为提高知识抽取的精度,提出一种基于大语言模型的数字孪生水利建设知识抽取方法(DTKE-LLM)。该方法通过LangChain部署本地大语言模型(LLM)并集成数字孪生水利领域知识,基于提示学习微调LLM,LLM利用语义理解和生成能力抽取知识,同时,设计异源实体对齐策略优化实体抽取结果。在水利领域语料库上进行对比实验和消融实验,以验证所提方法的有效性。对比实验结果表明,相较于基于深度学习的双向长短期记忆条件随机场(BiLSTM-CRF)命名实体识别模型和通用信息抽取模型UIE(Universal Information Extraction),DTKE-LLM的精确率更优;消融实验结果表明,相较于ChatGLM2-6B(Chat Generative Language Model 2.6 Billion),DTKE-LLM的实体抽取和关系抽取F1值分别提高了5.5和3.2个百分点。可见,该方法在保障知识图谱构建质量的基础上,实现了数字孪生水利建设知识图谱的构建。
为了获得更准确的分子毒性预测结果,提出基于元图同构网络的分子毒性预测模型Meta-MTP。首先,使用图同构神经网络将原子作为节点、键作为边、分子作为图结构,以获取分子表征;使用预训练模型对图同构网络(GIN)初始化,使它获得更好的参数;引入基于分层注意力和局部增强的前馈Transformer;使用原子类型预测和键预测作为辅助任务提取更多的分子内部信息;通过元学习双层优化策略对模型进行训练;最后使用Tox21和SIDER数据集对模型进行训练。实验结果表明,在Tox21和SIDER数据集上,Meta-MTP具有良好的分子毒性预测能力,当样本数为10时,相较于FSGNNTR(Few-Shot Graph Neural Network-TRansformer)模型,Meta-MTP的曲线下面积(AUC)分别提高了1.4%和5.4%,相较于图同构网络(GIN)、图卷积网络(GCN)和GraphSAGE(Graph Sample and AGgrEgate)3种传统的图神经网络模型,Meta-MTP的AUC提高了18.3%~23.7%和7.3%~22.2%。
空气质量数据作为一种典型的时空数据,具有复杂的多尺度内在特性并存在突变的问题。针对现有空气质量预测方法在处理包含大量突变数据的空气质量预测任务时表现不佳的问题,提出一种面向空气质量预测的多粒度突变拟合网络(MACFN)。首先,针对空气质量数据在时间上的周期性,对输入数据进行了多粒度的特征提取。然后,采用图卷积网络与时间卷积网络分别提取空气质量数据的空间关联性与时间依赖性。最后,设计一个突变拟合网络自适应地学习数据中的突变部分,从而减小预测误差。所提网络在3个真实的空气质量数据集上进行了实验评估,与多尺度时空网络(MSSTN)相比,均方根误差(RMSE)分别下降约11.6%、6.3%和2.2%。实验结果表明,MACFN能有效捕捉复杂的时空关系,并在变化幅度较大、易发生突变的空气质量预测任务中有更好表现。
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MS-COCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1 (BiLingual Evaluation Understudy with 1-gram)、BLEU4 (BiLingual Evaluation Understudy with 4-grams)、METEOR (Metric for Evaluation of Translation with Explicit ORdering)、ROUGE (Recall-Oriented Understudy for Gisting Evaluation)和SPICE (Semantic Propositional Image Caption Evaluation)指标上分别提升了1.1、0.9、0.3、0.7、0.4和0.3、0.1、0.3、0.5、0.6。可见,SGC-Net所使用的方法能够有效提升模型的图像描述性能及生成描述的流畅度。
现有的深度多视图聚类方法存在以下缺点:1)在对单一视图进行特征提取时,只考虑了样本的属性信息或结构信息,而没有将二者进行融合,导致提取到的特征不能充分表示原始数据的潜在结构;2)将特征提取与聚类划分为两个独立的过程,没有建立两者间的联系,因此无法利用聚类过程优化特征提取过程。针对以上问题,提出一种深度融合多视图聚类网络(DFMCN)。首先,结合自编码器和图卷积自编码器融合样本的属性信息和结构信息,获取每个视图的嵌入空间;然后,通过加权融合获取融合视图嵌入空间并在此空间中进行聚类,并且在聚类过程中采用双层自监督机制优化特征提取过程。在FM(Fashion-MNIST)、HW(HandWritten numerals)、YTF(YouTube Face)数据集上的实验结果表明:DFMCN的准确率高于所有对比方法;在FM数据集上,DFMCN的准确率比次优的CMSC-DCCA(Cross-Modal Subspace Clustering via Deep Canonical Correlation Analysis)方法提高了1.80个百分点,标准化互信息(NMI)高于除CMSC-DCCA和DMSC(Deep Multimodal Subspace Clustering networks)的所有方法1.26~14.84个百分点。实验结果验证了所提方法的有效性。
针对大多数粒计算特征选择算法未考虑数据的类别不平衡性的问题,提出一种融合伪标签策略的类别不平衡数据特征选择算法。首先,为了便于研究类别不平衡数据特征选择算法,重新定义样本和数据集一致度的概念,并设计了相应特征选择的贪婪前向搜索算法;其次,引入伪标签策略以平衡数据的类别分布,并将所学样本的伪标签融入一致性测度中,以构造伪标签一致度来估计类别不平衡数据集的特征;最后,通过保持类别不平衡数据集的伪标签一致度不变,设计一种面向类别不平衡数据的基于伪标签一致性的特征选择算法(PLCFS)。实验结果表明,所提PLCFS的性能仅次于最大相关最小冗余(mRMR)算法,而优于Relief算法和基于一致性的特征选择算法(CFS)。
深度学习方法被广泛应用于轴承故障诊断,但在实际工程应用中,轴承服役期间的真实服役故障数据不易收集,缺乏数据标签,难以进行充分的训练。针对轴承服役故障诊断困难的问题,提出了一种基于图卷积网络(GCN)的迁移学习轴承服役故障诊断模型。该模型从数据充足的人工模拟损伤故障数据中学习故障知识,并迁移到真实的服役故障上,以提高服役故障的诊断准确率。具体来说,通过将人工模拟损伤故障数据和服役故障数据的原始振动信号由小波变换转换为同时具有时间和频率信息的时频图,并将得到的时频图输入到图卷积层中进行学习,从而有效地提取源域和目标域的故障特征表示;然后计算源域和目标域的数据分布之间的Wasserstein距离来度量两个数据分布之间的差异,通过最小化数据分布差异,构建了一个能诊断轴承服役故障的故障诊断模型。在不同的轴承故障数据集和不同工作条件下设计了多种不同的任务进行实验,实验结果表明,该模型具有诊断轴承服役故障的能力,同时也能从一个工作条件迁移到另一工作条件,在不同组件类型和不同工作条件之间进行故障诊断。
作为自然语言处理中的热点问题,摘要生成具有重要的研究意义。基于Seq2Seq模型的生成式摘要模型取得了良好的效果,然而抽取式的方法具有挖掘有效特征并抽取文章重要句子的潜力,因此如何利用抽取式方法来改进生成式方法是一个较好的研究方向。鉴于此,提出了融合生成式和抽取式方法的模型。首先,使用TextRank算法并融合主题相似度来抽取文章中有重要意义的句子。然后,设计了融合抽取信息语义的基于Seq2Seq模型的生成式框架来实现摘要生成任务;同时,引入指针网络解决模型训练中的未登录词(OOV)问题。综合以上步骤得到最终摘要,并在CNN/Daily Mail数据集上进行验证。结果表明在ROUGE-1、ROUGE-2和ROUGE-L三个指标上所提模型比传统TextRank算法均有所提升,同时也验证了融合抽取式和生成式方法在摘要生成领域中的有效性。
基于图像复原的去雾算法中参数的估计容易造成去雾图像场景信息的丢失,对此,提出一种图像去雾新算法。在暗通道先验的基础上,通过对大气散射模型的分析,总结出雾气分布对暗通道图像的影响,并依此对外景图像进行加雾操作,利用加雾后的参考图像与外景图像中各点的景深关系完成透射率的估计,进而达到去雾目的。算法利用物理模型和多幅图像实现参数的估计,能够更好地保留场景信息。实验结果表明,该算法不仅去雾效果优于对比算法,在处理速度上也有明显改善。
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。
针对目前汉语兼类词标注的准确率不高的问题,提出了规则与统计模型相结合的兼类词标注方法。首先,利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注;然后,将改进的互信息算法应用到词性(POS)标注规则的获取上,通过计算目标词前后词单元与目标词的相关性获得词性标注规则;最后,将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后,平均词性标注准确率提升了5%左右。