基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠的问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取效果。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示;其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测和联合解码,对齐成实体关系三元组,并构建了PTBG (Prompt Tuned BERT with Global pointer)模型,解决实体嵌套和关系重叠问题,同时避免了管道式解码的错误传播问题;最后,在上述工作基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验的结果表明,相较于注入领域知识前后的OneRel模型,PTBG模型所取得的F1值分别提升了1.64和1.97个百分点。可见,PTBG模型能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。
针对古籍信息处理中自动断句及标点任务依赖大规模标注语料的现象,在考虑高质量、大规模样本的训练成本昂贵且难以获取的背景下,提出一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,通过对支持集加入结构化提示信息形成有效的提示模板,从而提高模型的学习效率;其次,结合标点位置提取器和原型网络分类器,有效减少传统序列标注方法中的误判影响及非标点标签的干扰。实验结果表明,与Siku-BERT-BiGRU-CRF(Siku-Bidirectional Encoder Representation from Transformer-Bidirectional Gated Recurrent Unit-Conditional Random Field)方法相比,在《史记》数据集上所提方法的F1值提升了2.47个百分点。此外,在公开的多领域古籍数据集CCLUE上,所提方法的精确率和F1值分别达到了91.60%和93.12%,说明所提方法利用少量训练样本就能对多领域古籍进行有效的自动断句标点。因此,所提方法为多领域古籍文本的自动断句及标点任务的深入研究以及提高模型的学习效率提供了新的思路和方法。
在传统多背包问题的基础上,从典型物流服务场景中共性抽象出异构多背包问题(HMKP),并设计和定制了一种帝国竞争算法(ICA)对HMKP进行求解和评估。针对原始ICA易陷入局部最优以及0-1背包问题最优解往往在约束边界周围的特点,设计了双点自变异策略(TPAS)和跳出局部最优算法(JLOA)对ICA进行改进,提出面向0-1背包问题的二进制帝国竞争算法(BICA)。BICA在求解35个0-1背包问题算例时展现出了全面、高效的寻优能力,基于最佳匹配值法(BMV)的BICA在第一组测试集的20个算例上能对19个算例100%找到理想最优值,在第二组测试集的15个算例上能对12个算例100%找到理想最优值,在所有对比算法中表现最优。数值结果分析表明,BICA在寻优演化中维持多极发展策略,并依托独特的种群进化方式在解空间中高效搜索理想解。在此基础上,针对HMKP强约束性和高复杂度的特性,基于BICA设计了求解HMKP的多级二进制帝国竞争算法(MLB-ICA)。分别在多个典型0-1背包问题算例组合构建的HMKP高维测试集上进行了MLB-ICA的数值实验和性能评估,结果表明虽然MLB-ICA的求解时间比Gurobi长,但求解精度提高了28%。可见,MLB-ICA能以较低的计算代价在可接受的时间范围内高效求解高维复杂的HMKP,为ICA在超大规模组合优化问题中的求解提出了可行的算法设计方案。
参考点与参数的选取会对反距离权重(IDW)的精度产生影响。针对多参数协同优化反距离权重算法(PIDW)忽略局部特性的问题,提出一种利用粒子群对IDW进行局部优化的改进算法——PLIDW。首先,分别对研究区域中各个样本点的参数进行寻优,利用交叉验证方法进行评估,记录各自最优取值的一组参数;同时,为提高查询效率,使用K维树(KD-Tree)保存空间位置与最优参数;最后,根据空间邻近程度从K维树选取最近的一组参数优化IDW。基于模拟数据与真实的温度数据集上的实验结果表明,相较于PIDW,PLIDW在真实数据集上的准确度提高4.18%以上,改善了PIDW存在的因忽略局部特性导致部分场景准确度低的问题,适应能力更强。
知识图谱(KG)可以通过高效组织海量数据实现信息的有效抽取,因而基于知识图谱的推荐方法得到了广泛的研究和应用。针对图神经网络在知识图谱建模中的采样误差问题,提出了一种无采样协作知识图网络(NCKN)的方法。首先,设计了无采样知识传播模块,通过在单个卷积层使用不同大小的线性聚合器来捕捉深层次的信息,实现高效的无采样预计算;然后,为了区分邻居节点贡献度,在传播过程中引入注意力机制;最后,协作传播模块将知识嵌入同用户交互中的协作信号相结合,以更好地描述用户偏好。基于三个真实数据集,评估了NCKN在CTR预测和Top-k预测中的性能。实验结果表明,与主流算法RippleNet、知识图卷积神经网络(KGCN)相比,NCKN在CTR预测中的准确率平均分别提升了2.71%、4.60%;Top-k预测中,NCKN的准确率平均分别提升了5.26%、3.91%。所提方法不仅解决了图神经网络在知识图谱建模中的采样误差问题,且提升了推荐模型的准确率。