改进的基于知网的词语相似度算法

doi:10.3724/SP.J.1087.2011.03075

计算机应用 ›› 2011, Vol. 31 ›› Issue (11): 3075-3077.DOI: 10.3724/SP.J.1087.2011.03075

改进的基于知网的词语相似度算法

王小林¹,王义¹,²

1. 安徽工业大学计算机学院，安徽马鞍山 243002
2. 山东省淄博市周村区人民医院信息科，山东淄博 255300

收稿日期:2011-05-10 修回日期:2011-06-26 发布日期:2011-11-16 出版日期:2011-11-01
通讯作者: 王小林
作者简介:王小林（1964-）, 男，安徽安庆人，教授，硕士，主要研究方向：人工智能、中文信息处理；
王义（1974-），男，山东淄博人，工程师，硕士研究生，主要研究方向：中文信息处理。
基金资助:
国家自然科学基金资助项目;安徽省高校省级自然科学基金资助项目

Improved word similarity algorithm based on HowNet

WANG Xiao-lin¹,WANG Yi¹,²

1. School of Computer, Anhui University of Technology, Maanshan Anhui 243002, China
2. Information Department, Zhoucun People’s Hospital of Zibo City of Shandong Province, Zibo Shandong 255300, China

Received:2011-05-10 Revised:2011-06-26 Online:2011-11-16 Published:2011-11-01
Contact: WANG Xiao-lin

摘要/Abstract

摘要： 词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上，根据义原之间的距离和义原本身的层次深度，进行词语相似度的计算。基于以上研究，提出了一种新的改进的词语相似度算法，首先根据义项中各类义原的个数不同，提出了一种新的变系数义项相似度计算方法；其次从词性的角度，认为词语义项中的不同词性对词语相似度的贡献度不同，剔除不同词性义项之间的组合。实验结果证明，改进的算法结果在原有基础上得到较好的提升，大幅度降低了相似度计算的复杂度，提高了运算效率。

关键词: 词语相似度, 知网, 义原, 义项, 词性

Abstract: The word similarity computation is widely used in text classification, question-answer system, machine-translation and text clustering. Research of this computation is generally based on HowNet, according to the distance and the depth of sememes. Based on above, an improved method of word similarity computation was proposed as follows. Firstly, a new variable coefficient of homonym similarity computing was proposed according to the count of homonym. Secondly, it took part of speech into account and argued that the part of speech of homonym is different in contributions to word similarity and removed the combinations of homonyms with different part of speech. The experimental results show that the result obtained through this newly-improved computation method is better with less complex calculation and higher calculation efficiency.

Key words: word similarity, HowNet, sememe, homonym, part of speech

中图分类号:

TP391

王小林王义. 改进的基于知网的词语相似度算法[J]. 计算机应用, 2011, 31(11): 3075-3077.

WANG Xiao-lin WANG Yi. Improved word similarity algorithm based on HowNet[J]. Journal of Computer Applications, 2011, 31(11): 3075-3077.

[1]	柯添赐, 刘建华, 孙水华, 郑智雄, 蔡子杰. 融合强关联依赖和简洁语法的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1786-1795.
[2]	黄子麒, 胡建鹏. 实体类别增强的汽车领域嵌套命名实体识别[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 377-384.
[3]	王伟, 赵尔平, 崔志远, 孙浩. 基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法[J]. 计算机应用, 2021, 41(8): 2193-2198.
[4]	张洋, 江铭虎. 基于注意力机制的文本作者识别[J]. 计算机应用, 2021, 41(7): 1897-1901.
[5]	陈维兴, 刘清涛, 孙习习, 陈斌. 机坪感知网络的快速收敛平均一致性时间同步算法[J]. 计算机应用, 2020, 40(11): 3407-3412.
[6]	马东亚, 李兆玉, 叶宗刚. 认知MIMO网络中增强型干扰对齐算法[J]. 计算机应用, 2017, 37(9): 2479-2483.
[7]	张硕望, 欧阳纯萍, 阳小华, 刘永彬, 刘志明. 融合《知网》和搜索引擎的词汇语义相似度计算[J]. 计算机应用, 2017, 37(4): 1056-1060.
[8]	邱云飞, 刘世兴, 魏海超, 邵良杉. W-POS语言模型及其选择与匹配算法[J]. 计算机应用, 2015, 35(8): 2210-2214.
[9]	卢伟胜郭躬德陈黎飞. 基于词性标注序列特征提取的微博情感分类[J]. 计算机应用, 2014, 34(10): 2869-2873.
[10]	林沛胡建军. 基于环境感知的多路径路由算法[J]. 计算机应用, 2013, 33(10): 2750-2752.
[11]	朱征宇孙俊华. 改进的基于《知网》的词汇语义相似度计算[J]. 计算机应用, 2013, 33(08): 2276-2279.
[12]	刘丹丹彭成钱龙华周国栋. 词汇语义信息对中文实体关系抽取影响的比较[J]. 计算机应用, 2012, 32(08): 2238-2244.
[13]	徐靖李军辉朱巧明李培峰. 中文名词性谓词语义角色标注的特征研究[J]. 计算机应用, 2011, 31(06): 1671-1674.
[14]	应玉龙李淼乌达巴拉朱海. 基于条件随机场的蒙古语词性标注方法[J]. 计算机应用, 2010, 30(8): 2038-2041.
[15]	王盛樊兴华陈现麟. 利用上下位关系的中文短文本分类[J]. 计算机应用, 2010, 30(3): 603-606.

改进的基于知网的词语相似度算法

Improved word similarity algorithm based on HowNet

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics