一种基于CHI值特征选取的粗糙集文本分类规则抽取方法

doi:10.3724/SP.J.2005.1026

计算机应用 ›› 2005, Vol. 25 ›› Issue (05): 1026-1028.DOI: 10.3724/SP.J.2005.1026

一种基于CHI值特征选取的粗糙集文本分类规则抽取方法

王明春^1,2，王正欧¹，张楷²，郝玺龙³

1.天津大学系统工程研究所； 2.天津工程师范学院数理系； 3.天津海量软件公司

出版日期:2005-05-01 发布日期:2005-05-25
基金资助:
国家自然科学基金资助项目(60275020)

Rough set text classification rule extraction based on CHI value

WANG Ming-chun^1,2, WANG Zheng-ou¹,ZHANG Kai²,HAO Xi-long³

1. Institute of Systems Engineering, Tianjin University, Tianjin 300072, China; 2. Department of Mathematics and Physics, Tianjin University of Education and Technology, Tianjin 300222,China; 3. Tianjin Hylanda Software Corporation, Tianjin 300384,China

Online:2005-05-01 Published:2005-05-25

摘要/Abstract

摘要： 结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。

关键词: CHI值, 特征选取, 粗糙集, 文本分类规则

Abstract: The definition of proximate rule was proposed based on the characteristic of text classification rule extraction. Based on the CHI values, the features of text set were selected firstly and feature significance information was provided to the further feature selection. Then rough set was used to select further the attributes on the discrete decision table. Finally precise rules or proximate rules were extracted using rough set theory. The method combined CHI value feature selection and rough set theory fully so as to avoid both feature reduction on a large scale decision table and the discretization of the decision table. The method improved the effectiveness and the practicability of extracting text rule greatly. Experiment results demonstrate the effectiveness of the method.

Key words: CHI value, feature selection, rough set, text classification rule

中图分类号:

TP18

王明春，王正欧，张楷，郝玺龙. 一种基于CHI值特征选取的粗糙集文本分类规则抽取方法[J]. 计算机应用, 2005, 25(05): 1026-1028.

WANG Ming-chun, WANG Zheng-ou,ZHANG Kai,HAO Xi-long. Rough set text classification rule extraction based on CHI value[J]. Journal of Computer Applications, 2005, 25(05): 1026-1028.

[1]	王小荣, 张玉召, 张振江. 基于双论域粗糙集的快捷货物运输方案选择[J]. 计算机应用, 2021, 41(5): 1500-1505.
[2]	彭莉, 张海清, 李代伟, 唐聃, 于曦, 何磊. 基于粗糙集理论的不完备数据分析方法的混合信息系统填补算法[J]. 计算机应用, 2021, 41(3): 677-685.
[3]	王磊. 改进粗糙集属性约简结合K-means聚类的网络入侵检测方法[J]. 计算机应用, 2020, 40(7): 1996-2002.
[4]	张伍, 陈红梅. 基于多核模糊粗糙集与蝗虫优化算法的高光谱波段选择[J]. 计算机应用, 2020, 40(5): 1425-1430.
[5]	章夏杰, 朱敬华, 陈杨. Spark下的分布式粗糙集属性约简算法[J]. 计算机应用, 2020, 40(2): 518-523.
[6]	欧彬利, 钟夏汝, 代建华, 杨田. 基于变精度覆盖粗糙集的入侵检测方法[J]. 计算机应用, 2020, 40(12): 3465-3470.
[7]	张伍, 陈红梅. 基于核模糊粗糙集的高光谱波段选择算法[J]. 计算机应用, 2020, 40(1): 258-263.
[8]	鲍迪, 张楠, 童向荣, 岳晓冬. 区间值决策表的正域增量式属性约简算法[J]. 计算机应用, 2019, 39(8): 2288-2296.
[9]	徐怡, 肖鹏. 基于容差关系的多粒度粗糙集中近似集动态更新方法[J]. 计算机应用, 2019, 39(5): 1247-1251.
[10]	孔贺庆, 张楠, 岳晓冬, 童向荣, 于天佑. 基于多特定决策类的不完备决策系统正域约简[J]. 计算机应用, 2019, 39(5): 1252-1260.
[11]	陈曼如, 张楠, 童向荣, 东野升龙, 杨文静. 基于多尺度属性粒策略的快速正域约简算法[J]. 计算机应用, 2019, 39(12): 3426-3433.
[12]	郑文彬, 李进金, 于佩秋, 林艺东. 变精度多粒度粗糙集近似集更新的矩阵算法[J]. 计算机应用, 2019, 39(11): 3140-3145.
[13]	谭永奇, 樊建聪, 任延德, 周晓明. 改进的属性约简算法及其在肝癌微血管侵犯预测中的应用[J]. 计算机应用, 2019, 39(11): 3221-3226.
[14]	李旭, 荣梓景, 阮晓曦. 关系决策系统中相对不可区分和区分关系的约简[J]. 计算机应用, 2019, 39(10): 2852-2858.
[15]	袁钟, 冯山. 基于邻域值差异度量的离群点检测算法[J]. 计算机应用, 2018, 38(7): 1905-1909.

一种基于CHI值特征选取的粗糙集文本分类规则抽取方法

Rough set text classification rule extraction based on CHI value

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics