《计算机应用》唯一官方网站 ›› 0, Vol. ›› Issue (): 66-71.DOI: 10.11772/j.issn.1001-9081.2024030311
Xiaozhi XU(), Yanfang MAO, Xiaoxiang LYU
摘要:
在电力领域科研活动中产生的科研成果,如论文与专利,蕴含丰富的信息,然而对于电力文本的命名实体识别(NER)研究较少。因此,构建了一个能够有效识别中文电力文本中命名实体的模型,并验证了它的性能和有效性。首先,爬取电力文献关键词后对它们进行预处理和整理,并构建电力领域的命名实体词库;其次,结合分词技术,对获取的电力领域文献摘要进行命名实体标注,并生成电力领域的命名实体标注语料数据。为了增强模型的表示能力和语义理解能力,在BiLSTM-CRF模型中引入了Transformer编码器机制。为了提升模型在电力垂直领域的适应性,构建了电力科研关键词与字之间的知识图谱,并基于该图谱得到了融合邻居信息的每个字的邻域矩阵,之后得到了融合关键词与字的知识图谱实体的邻居信息向量。通过构建双分支的词嵌入向量输入层,能够获得包含上下文信息和综合关键词邻居信息的词嵌入向量。实验结果表明,所提模型在电力领域表现出良好的识别效果。
中图分类号: