摘要: 针对当前大多数命名实体识别模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出了一种融合多粒度语言知识与层级信息的中文命名实体模型(CMH)。首先,使用经过多粒度语言知识预训练的模型对文本进行编码,使模型能够同时捕获文本的细粒度和粗粒度语言信息,从而更好地对语料进行表征。其次,使用ON-LSTM(Ordered Neurons Long Short Term Memory Network)模型进行层级信息提取,以利用文本本身的层级结构信息,增强编码间的时序关系。最后,在模型的解码端结合了文本的分词信息,并将实体识别问题转化为表格填充问题,以更好地解决实体重叠问题,并获得更加准确的实体识别结果。同时,为解决当前模型在不同领域中的迁移能力较差的问题,提出通用实体识别的理念,通过筛选多领域的通用实体类型,构建一套提升模型在多领域中的泛化能力的通用命名实体识别数据集(MDNER)。为验证所提模型的效果,在数据集Resume、Weibo、MSRA进行了实验,与MECT(Multi-metadata Embedding based Cross-Transformer)模型相比,F1值分别提高了0.94、4.95和1.58个百分点,达到了最优水平。同时,为了验证模型在多领域中的实体识别效果,在MDNER数据上进行了实验,F1值达到了95.29%。实验结果表明多粒度语言知识预训练、文本层级结构信息提取以及高效指针解码器对于模型的性能至关重要。
中图分类号: