结合语义的特征选择方法

计算机应用 ›› 2010, Vol. 30 ›› Issue (10): 2621-2623.

结合语义的特征选择方法

熊忠阳¹,付玲玲²,张玉芳¹,蒋健¹

1. 重庆大学
2. 重庆大学计算机学院

收稿日期:2010-04-06 修回日期:2010-05-24 发布日期:2010-09-21 出版日期:2010-10-01
通讯作者: 付玲玲
基金资助:
中国博士后科学基金资助项目;重庆市科委基金资助项目

Improved feature selection approach combined with semantic

Received:2010-04-06 Revised:2010-05-24 Online:2010-09-21 Published:2010-10-01
Contact: Fulynn

摘要/Abstract

摘要： 传统的基于词频统计的特征选择方法忽略了特征项本身的语义信息，特征项之间存在冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。为此，利用《知网》(HowNet)的中英双语知识词典构建“概念—领域”表，对每个词语查询该表，如果在表中，则把该词语映射到“领域”;否则保留原词。这样不仅可以将较低层概念泛化到较高层概念，还能在一定程度上消除特征项之间的冗余，而且从语义上加强它对所在“领域”的分类贡献度。分别应用信息增益和χ2统计利用该方法进行文本分类实验，结果表明该方法可以有效地提高分类准确率。

关键词: 文本分类, 特征选择, 语义, 知网

Abstract: The traditional selection methods for text categorization are based on the statistical information of word frequency, which ignores the semantic effect of the words and cannot take more useful features because of the redundancy. A table named "conception-domain" was built based on the semantic dictionary HowNet, which included the word itself and its domain value. If a word from the text was existent in the table, it would be replaced by its domain value with more general meaning. By this way, more semantic information was added to the selected features and the redundancy between features of items could be eliminated to some extent. The experiments were carried out by improved information gain and χ2 respectively. And the results show that this method has effectively improved the precision of the text categorization.

Key words: text categorization, feature selection, semantic, HowNet

中图分类号:

TP391

熊忠阳付玲玲张玉芳蒋健. 结合语义的特征选择方法[J]. 计算机应用, 2010, 30(10): 2621-2623.

[1]	谢德峰, 吉建民. 融入句法感知表示进行句法增强的语义解析[J]. 计算机应用, 2021, 41(9): 2489-2495.
[2]	湛航, 何朗, 黄樟灿, 李华峰, 张蔷, 谈庆. 改进的基于层次距离的基因表达式编程特征选择分类算法[J]. 计算机应用, 2021, 41(9): 2658-2667.
[3]	刘芳名, 张鸿. 基于多级语义的判别式跨模态哈希检索算法[J]. 计算机应用, 2021, 41(8): 2187-2192.
[4]	祝承, 赵晓琦, 赵丽萍, 焦玉宏, 朱亚飞, 陈建英, 周伟, 谭颖. 基于谱聚类半监督特征选择的功能磁共振成像数据分类[J]. 计算机应用, 2021, 41(8): 2288-2293.
[5]	李蒙蒙, 秦伟, 刘艺, 刁兴春. 结合头脑风暴优化的混合蚁群优化算法[J]. 计算机应用, 2021, 41(8): 2412-2417.
[6]	康军, 黄山, 段宗涛, 李宜修. 时空轨迹序列模式挖掘方法综述[J]. 计算机应用, 2021, 41(8): 2379-2385.
[7]	周险兵, 樊小超, 任鸽, 杨勇. 基于多层次语义特征的英文作文自动评分方法[J]. 计算机应用, 2021, 41(8): 2205-2211.
[8]	张洋, 江铭虎. 基于注意力机制的文本作者识别[J]. 计算机应用, 2021, 41(7): 1897-1901.
[9]	吴丽丹, 薛雨阳, 童同, 杜民, 高钦泉. 基于前景语义信息的图像着色算法[J]. 计算机应用, 2021, 41(7): 2048-2053.
[10]	冯兴杰, 张天泽. 基于分组卷积进行特征融合的全景分割算法[J]. 计算机应用, 2021, 41(7): 2054-2061.
[11]	赵小虎, 李晓. 基于多特征提取的图像语义描述算法[J]. 计算机应用, 2021, 41(6): 1640-1646.
[12]	林筠超, 万源. 基于图结构优化的自适应多度量非监督特征选择方法[J]. 计算机应用, 2021, 41(5): 1282-1289.
[13]	胡嵽, 冯子亮. 基于深度学习的轻量级道路图像语义分割算法[J]. 计算机应用, 2021, 41(5): 1326-1331.
[14]	贾鹤鸣, 姜子超, 李瑶, 孙康健. 基于改进斑点鬣狗优化算法的同步优化特征选择[J]. 计算机应用, 2021, 41(5): 1290-1298.
[15]	马建红, 曹文斌, 刘元刚, 夏爽. 基于功效特征的专利聚类方法[J]. 计算机应用, 2021, 41(5): 1361-1366.