• • 下一篇
任登燃1,王淑营2
摘要: 摘 要: 针对风电装备领域中实体的高度嵌套性和长文本的特性,本文提出了一种差分边界增强嵌套命名实体识别模型(DBE-NER),旨在有效识别嵌套实体和处理文本的多样特性。首先,通过语义编码器模块来获取融合实体头尾词、实体类型和相对距离的特征表示,提升模型对嵌套语义特征的捕捉能力;其次,设计了一种高效的差分语义编码模块,有效解决嵌套实体边界的模糊问题;最后,提出基于分组空洞注意力网络来提高模型在长文本实体、嵌套实体和嵌套边界的识别效果。实验结果显示,模型在多个数据集上的表现优于近两年现有技术,在ACE2004和ACE2005数据集上,DBE-NER模型的F1得分分别达到87.88%和87.12%,均优于基准模型,达到了当前技术的领先水平。特别在Genia数据集上,DBE-NER的F1得分达到80.79%,准确率提升了0.32%,召回率提升了0.41%。此外,在人工标注的某大型风电能源企业故障数据集WPEF上,DBE-NER的F1得分达到87.01%,准确率提升了3.24%。这些结果表明,DBE-NER在各类数据集上的准确率和召回率均表现出显著提升,证明了其在处理复杂嵌套实体和长文本任务中的优越性。针对风电装备领域中实体的高度嵌套性和长文本的特性,提出一种基于差分边界增强的嵌套命名实体识别模型(DBE-NER)。首先,通过语义编码器模块来获取融合实体头尾词、实体类型和相对距离的特征表示,提升模型对嵌套语义特征的捕捉能力;其次,输入到设计的一种高效的差分语义编码模块来解决嵌套实体边界的模糊问题;再次,基于分组空洞注意力网络来提高模型在长文本实体、嵌套实体和嵌套边界的识别效果;最后,将特征分数矩阵输入到跨度解码器中得到实体位置和类别。实验结果表明,DBE-NER与DIFINET(Boundary-Aware Semantic Differentiation and Filtration Network)和CNN-NER(Convolutional Neural Network for Nested Named Entity Recognition)模型相比,F1得分在人工标注的某大型风电能源企业故障数据集WPEF上,分别提升了0.92%和1.07% ,并且在多种公开数据集上的F1得分均有所提高。
中图分类号: