面向短文本的命名实体识别

计算机应用

面向短文本的命名实体识别

王丹樊兴华

重庆邮电大学计算机科学与技术研究所重庆邮电大学

收稿日期:2008-07-14 修回日期:1900-01-01 发布日期:2009-01-01 出版日期:2009-01-01
通讯作者: 王丹

Named entity recognition for short text

Received:2008-07-14 Revised:1900-01-01 Online:2009-01-01 Published:2009-01-01

摘要/Abstract

摘要： 针对短文本命名实体识别这项紧缺任务，提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步：第一步，针对短文本表达不规范特性对命名实体识别的干扰，采取去干扰字符，化繁为简等规范化操作。第二步，针对短文本语意不完整特性，提出用HMM（隐马尔可夫模型）以词性做观察值进行初步命名实体识别。第三步，据初步识别结果，构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明，该方法能较好地进行短文本命名实体识别。

关键词: 短文本, 隐马尔可夫模型, 命名实体识别, 拼音同指关系库, 词性

Abstract: Aiming at the urgent task of named entity recognition for short text, a fast and effective method was proposed. The method comprised three steps: Firstly, according to the disturbance of non-standard expression in short text, the elimination of interferential characters and text simplification were adopted. Secondly, according to the non-integrity of short text, Hidden Markov Model (HMM) was employed to preliminarily name entity recognition, in which the part of speech was used as observed value. In the end, by means of the preliminary recognition result, a pinyin co-referential relation library was established to identify the potential entity. The experiment on the test-set including 8464 short texts shows that this method has better performance to named entity recognition for short text.

Key words: short text, HMM, named entity recognition, pinyin co-referential relation library, part of speech

王丹樊兴华. 面向短文本的命名实体识别[J]. 计算机应用.

Xin-Hua FAN. Named entity recognition for short text[J]. Journal of Computer Applications.

[1]	胡婕, 胡燕, 刘梦赤, 张龑. 基于知识库实体增强BERT模型的中文命名实体识别[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2680-2685.
[2]	侯旭东, 滕飞, 张艺. 基于深度自编码的医疗命名实体识别模型[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2686-2692.
[3]	徐关友, 冯伟森. 基于transformer的python命名实体识别模型[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2693-2700.
[4]	左亚尧, 陈皓宇, 陈致然, 洪嘉伟, 陈坤. 融合多语义特征的命名实体识别方法[J]. 《计算机应用》唯一官方网站, 2022, 42(7): 2001-2008.
[5]	韩玉民, 郝晓燕. 基于子词嵌入和相对注意力的材料实体识别[J]. 《计算机应用》唯一官方网站, 2022, 42(6): 1862-1868.
[6]	杨世刚, 刘勇国. 融合语料库特征与图注意力网络的短文本分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1324-1329.
[7]	张毅, 王爽胜, 何彬, 叶培明, 李克强. 基于BERT的初等数学文本命名实体识别方法[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 433-439.
[8]	曾兰兰, 王以松, 陈攀峰. 基于BERT和联合学习的裁判文书命名实体识别[J]. 《计算机应用》唯一官方网站, 2022, 42(10): 3011-3017.
[9]	张洋, 江铭虎. 基于注意力机制的文本作者识别[J]. 计算机应用, 2021, 41(7): 1897-1901.
[10]	武国亮, 徐继宁. 基于命名实体识别任务反馈增强的中文突发事件抽取方法[J]. 计算机应用, 2021, 41(7): 1891-1896.
[11]	崔博文, 金涛, 王建民. 自由文本电子病历信息抽取综述[J]. 计算机应用, 2021, 41(4): 1055-1063.
[12]	许力, 李建华. 基于句法依存分析的图网络生物医学命名实体识别[J]. 计算机应用, 2021, 41(2): 357-362.
[13]	邓钰, 李晓瑜, 崔建, 刘齐. 用于短文本情感分类的多头注意力记忆网络[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3132-3138.
[14]	尹春勇, 章荪. 面向短文本情感分类的端到端对抗变分贝叶斯方法[J]. 计算机应用, 2020, 40(9): 2536-2542.
[15]	张心怡, 冯仕民, 丁恩杰. 面向煤矿的实体识别与关系抽取模型[J]. 计算机应用, 2020, 40(8): 2182-2188.