计算机应用 ›› 2014, Vol. 34 ›› Issue (9): 2608-2611.
朱接文,肖军
收稿日期:
2014-03-07
修回日期:
2014-05-13
发布日期:
2014-09-30
出版日期:
2014-09-01
通讯作者:
朱接文
作者简介:
ZHU Jiewen,XIAO Jun
Received:
2014-03-07
Revised:
2014-05-13
Online:
2014-09-30
Published:
2014-09-01
Contact:
ZHU Jiewen
摘要:
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。
中图分类号:
朱接文 肖军. 互信息与模糊C均值聚类集成的特征优选方法[J]. 计算机应用, 2014, 34(9): 2608-2611.
ZHU Jiewen XIAO Jun. Feature selection method based on integration of mutual information and fuzzy C-means clustering[J]. Journal of Computer Applications, 2014, 34(9): 2608-2611.
[1]WU S, ZHANG W, HUANG H, et al.FD-CABOSFV interval variable high dimensional data clustering [J]. China Journal of Information Systems, 2011, 5(2): 77-87. (武森,张文丽,黄慧敏,等. FD-CABOSFV区间变量高维数据聚类[J].信息系统学报, 2011, 5(2):77-87)
[2]ZHANG X, SUN Z, XU G, et al.A feature selection algorithm combining within-class variance with correlation measure [J]. Journal of Harbin Institute of Technology, 2011, 43(2): 133-136. (张晓光, 孙正, 徐桂云,等. 一种类内方差与相关度结合的特征选择算法[J]. 哈尔滨工业大学学报, 2011, 43(2): 133~136.)
[3]RATA G A, VEGA J, MURARI A, et al.Improved feature selection based on genetic algorithm for real time disruption prediction on JET [J]. Fusion Engineering and Design, 2012, 87(9):1670-1678.
[4]ZHANG Y, YAN Y. A feature selection method based on adaptive genetic strategy [J]. Joural of Changchun University of Techonology, 2010, 31(2): 126-130. (张云鹏,闫一功. 一种基于自适应遗传策略的特征选择算法[J].长春工业大学学报, 2010,31(2):126-130.)
[5]YAO X, WANG X, ZHANG Y, et al.Ensemble feature selection algorithm based on Markov blanket and mutual information [J]. Journal of Systems Engineering and Electronics, 2012, 34(5): 1046-1050. (姚旭, 王晓丹, 张玉玺,等.基于Markov blanket和互信息的集成特征选择算法[J].系统工程与电子技术, 2012, 34(5): 1046-1050.)
[6]SYLVAIN V, TEODOR T, ABDESSAMAD K. Fault detection and identification with a new feature selection based on mutual information [J]. Journal of Press Control, 2008, 18(5): 479-490.
[7]GUO B F, MARK S N. Gait feature subset selection by mutual information[J]. IEEE Transactions on systems, Man and Cybernetics — Part A: System and Humans, 2009, 39(1): 36-46.
[8]HSU H H, HSIEH C W, LU M. Hybrid feature selection by combining fliters and wrappers [J]. Expert Systems with Applications, 2011, 38(7): 8144-8150.
[9]QIU G, WANG N, WANG W. Two-stage feature selection algorithm based on mutual information and genetic algorithm [J]. Application Research of Computers, 2012, 29(8): 2903-2905. (裘国永, 王娜, 汪万紫. 基于互信息和遗传算法的两阶段特征选择方法[J]. 计算机应用研究, 2012, 29(8): 2903-2905.)
[10]ESTEVEZ P A, MICHEL T, PEREZ C A, et al.Normalized mutual information feature selection [J]. IEEE Transactions on Neural Networks, 2009, 20(2): 189-201.
[11]XIAO M, LIU Y, ZHOU X. A property optimization method in support of approximately duplicated records detecting [C]// Proceedings of the 2009 IEEE International Conference on Intelligent Computing and Intelligent Systems. Piscataway: IEEE, 2009, 3: 118-122.
[12]BLAKE C, MERZ C. UCI repository of machine learning database [EB/OL]. [2013-03-15]. http://www.ics.uci.edu/~mlearn/MLR epository.html. |
[1] | 张佳慧 李晓明 张嘉祥. 强化形态感知的路面缺陷检测算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 杨建锋 陈斌 李雨轩. 基于点云重构的自监督点云异常检测方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 薛振华 李强 黄超. 视觉大模型驱动的像素级图像异常检测模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 蒋畅江 向杰 何旭颖. 面向机械臂抓取的双目视觉目标定位算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 边小勇 胡其仁 袁培洋. 多注意力对比学习的红外小目标检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 李钟华 钟庚辛 范萍 朱恒亮. 通过边界挖掘和背景引导的伪装目标检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 吴松霖 张广朝 姚远 彭博. 基于判别区域引导的多视图困难气道识别[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 李强 白少雄 熊源 袁薇. 基于视觉大模型隐私保护的监控图像定位[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 薛雅丽 徐忠敏 刘世豪. 基于多级小波残差网络的重力数据去噪方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 况世雄 姚俊波 陆佳炜 王琪冰 肖刚. 基于动态图卷积网络的电梯乘客异常行为数据增强方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 康斌 陈斌 王俊杰 李昱林 赵军智 咸伟志. 基于多粒度共享语义中心关联的文本到人物检索方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 张庆 杨凡 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 王昊 王金伟 程鑫 张家伟 吴昊 罗向阳 马宾. 彩色图像JPEG重压缩取证综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 王磊 胡节 彭博. 用于半监督火灾检测的分布自适应和动态课程伪标签框架[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 刘晋文 王磊 马博 董瑞 杨雅婷 艾合塔木江·艾合麦提 王欣乐. 基于弱监督模态语义增强的多模态有害信息检测方法 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||