摘要: 基于“预训练+微调”范式的实体关系联合抽取方法依赖大规模标注数据,在数据标注难度大、成本高的中文古籍小样本场景下,微调效率低,抽取性能不佳;中文古籍中普遍存在实体嵌套和关系重叠问题,限制了实体关系联合抽取的效果;管道式抽取方法存在错误传播问题,影响抽取准确率。针对以上问题,提出一种基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法。首先,利用区间抽取式阅读理解的提示学习方法,对预训练语言模型(PLM)注入领域知识以统一预训练和微调的优化目标,并对输入句子进行编码表示。其次,使用全局指针网络分别对主、客实体边界和不同关系下的主、客实体边界进行预测并联合解码,对齐成实体关系三元组,完成PTBG( Tuned BERT with Global Pointer)模型构建,解决了实体嵌套和关系重叠问题,避免了管道式解码的错误传播问题。最后在此基础上分析了不同提示模板对抽取性能的影响。在《史记》数据集上进行实验,较注入领域知识前后的Onerel模型F1值提升了4.71和1.91个百分点。实验结果表明,所提方法能更好地对中文古籍实体关系进行联合抽取,为低资源的小样本深度学习场景提供了新的研究思路与方法。
中图分类号: