高维数据挖掘中特征选择的稳健方法

计算机应用 ›› 2013, Vol. 33 ›› Issue (08): 2194-2197.

高维数据挖掘中特征选择的稳健方法

李泽安¹,²,陈建平¹,²,章雅娟¹,²,赵为华³

1. 南通大学计算机科学与技术学院，江苏南通226019
2. 南通大学计算机科学与技术学院，江苏南通226019
3. 南通大学理学院，江苏南通 226019

收稿日期:2013-03-11 修回日期:2013-05-06 出版日期:2013-08-01 发布日期:2013-09-11
通讯作者: 李泽安
作者简介:李泽安(1977-)，女,江苏南通人，讲师,硕士，CCF会员〖BP(〗【(E200027409M)〖BP)〗,主要研究方向:数据挖掘;
陈建平(1960-)，男,江苏南通人，教授，主要研究方向:数据分析;
章雅娟(1977-)，女,甘肃白银人，讲师，硕士,主要研究方向:数据挖掘;
赵为华(1978-), 男,江苏海门人，讲师，博士,主要研究方向:统计学。
基金资助:
南通大学杏林学院自然科学基金资助项目;南通大学自然科学基金资助项目

Robust feature selection method in high-dimensional data mining

LI Zhean¹,CHEN Jianping¹,ZHANG Yajuan¹,ZHAO Weihua²

1. College of Computer Science and Technology, Nantong University, Nantong Jiangsu 226019, China
2. Colloge of Science, Nantong University, Nantong Jiangsu 226019, China

Received:2013-03-11 Revised:2013-05-06 Online:2013-09-11 Published:2013-08-01
Contact: LI Zhean

摘要/Abstract

摘要： 针对高维数据的特点，即数据中变量个数往往大于样本观测数目，并且数据往往具有异质性特点，基于众数回归分析和变量选择降维技术，提出了一种稳健有效的特征选择方法，利用局部二次逼近算法(LQA)和最大期望(EM)算法，给出估计算法和最优调节参数的选取方法。通过实验的模拟数据分析表明，所提出的特征提取选择方法整体优于基于最小二乘和中位数的正则化估计方法，特别当误差是非正态分布时，与已有方法相比具有较高的预测能力和稳健性。

关键词: 高维数据, 特征选择, 众数回归, 自适应LASSO, 最大期望算法

Abstract: According to the feature of high-dimensional data, the number of variables is usually larger than the sample size and the data are often heterogeneous, a robust and effective feature selection method was proposed by using the dimensional reduction technique of variable selection and the modal regression based estimation method. The estimation algorithm was given by using Local Quadratic Algorithm (LQA) and Expectation-Maximum (EM) algorithm, and the selection method of the parameter adjustment was also discussed. Data analysis of the simulation shows that the proposed method is overall better than the least square and median regression based regularized method. Compared with the existing methods, the proposed method has higher prediction ability and stronger robustness especially for the non-normal error distribution.

Key words: high-dimensional data, feature selection, modal regression, adaptive Least Absolute Shrinkage and Selection Operator (LASSO), Expectation-Maximum (EM) algorithm

中图分类号:

TP311

李泽安陈建平章雅娟赵为华. 高维数据挖掘中特征选择的稳健方法[J]. 计算机应用, 2013, 33(08): 2194-2197.

LI Zhean CHEN Jianping ZHANG Yajuan ZHAO Weihua. Robust feature selection method in high-dimensional data mining[J]. Journal of Computer Applications, 2013, 33(08): 2194-2197.

参考文献

［1］GIUDICI P.实用数据挖掘［M］.袁方，王煜，王丽娟，等译.北京：电子工业出版社，2004：120-140.

［2］HAN J，KAMBER M.数据挖掘概念与技术［M］.范明，译.北京：机械工业出版社, 2001:98-128.

［3］HASTIE T，TIBSHIRANT R，FRIEDMAN J.统计学习基础：数据挖掘、推理与预测［M］.范明，译. 北京：电子工业出版社，2004：15-70.

［4］李泽安，陈建平，赵为华.高维数据挖掘中基于中位数回归的特征提取新方法［J］.计算机应用研究， 2013，30(2)：374-376.

［5］LEE M. Mode regression ［J］. Journal of Econometrics, 1989, 42(3): 337-349.

［6］SCOTT D.Multivariate density estimation: theory, practice and visualization ［M］. New York: Wiley, 1992.

［7］YAO W, LINDSAY B， LI R. Local modal regression ［J］. Journal of Nonparametric Statistics, 2012, 24(3): 647-663.

［8］TIBSHIIRANI R. Regression shrinkage and selection via the LASSO ［J］. Journal of the Royal Statistical Society： Series B，1996，58(1): 267-288.

［9］EFRON B， HASTIE T， JOHNSTONE I, et al. Least angle regression ［J］. The Annals of Statistics, 2004, 32(2): 407-489.

［10］ZOU H. The adaptive LASSO and its oracle properties［J］. Journal of the American Statistical Association，2006，101(476): 1418-1429.

［11］FAN J， LI R. Variable selection via nonconcave penalized likelihood and its oracle properties ［J］. Journal of the American Statistical Association, 2001, 96(456): 1348-1360.

［12］LI J，RAY S，LINDSAY B. A nonparametric statistical approach to clustering via mode identification ［J］. Journal of Machine Learning Research, 2007, 8(8): 1687-1723.

［13］潘锋,王建东,牛奔.基于谱分析的无监督特征选择算法［J］.计算机应用,2011，31(8):2109-2114.

［14］李泽安.高维数据挖掘中基于正则化估计的特征提取算法［J］.合肥工业大学学报:自然科学版,2012, 35(12): 1655-1658.

［15］李泽安, 葛建芳，章雅娟.Beta回归模型在数据挖掘预测中的应用［J］.南通大学学报:自然科学版, 2009,8(3):83-85.

[1]	陈恒恒, 倪志伟, 朱旭辉, 金媛媛, 陈千. 基于聚类分析的差分隐私高维数据发布方法[J]. 计算机应用, 2021, 41(9): 2578-2585.
[2]	湛航, 何朗, 黄樟灿, 李华峰, 张蔷, 谈庆. 改进的基于层次距离的基因表达式编程特征选择分类算法[J]. 计算机应用, 2021, 41(9): 2658-2667.
[3]	祝承, 赵晓琦, 赵丽萍, 焦玉宏, 朱亚飞, 陈建英, 周伟, 谭颖. 基于谱聚类半监督特征选择的功能磁共振成像数据分类[J]. 计算机应用, 2021, 41(8): 2288-2293.
[4]	李蒙蒙, 秦伟, 刘艺, 刁兴春. 结合头脑风暴优化的混合蚁群优化算法[J]. 计算机应用, 2021, 41(8): 2412-2417.
[5]	贾鹤鸣, 姜子超, 李瑶, 孙康健. 基于改进斑点鬣狗优化算法的同步优化特征选择[J]. 计算机应用, 2021, 41(5): 1290-1298.
[6]	王心, 朱浩华, 刘光灿. 卷积鲁棒主成分分析[J]. 计算机应用, 2021, 41(5): 1314-1318.
[7]	林筠超, 万源. 基于图结构优化的自适应多度量非监督特征选择方法[J]. 计算机应用, 2021, 41(5): 1282-1289.
[8]	张志浩, 林耀进, 卢舜, 郭晨, 王晨曦. 缺失标记下基于类属属性的多标记特征选择[J]. 计算机应用, 2021, 41(10): 2849-2857.
[9]	王丽娟, 陈少敏, 尹明, 许跃颖, 郝志峰, 蔡瑞初, 温雯. 基于近邻图改进的块对角子空间聚类算法[J]. 计算机应用, 2021, 41(1): 36-42.
[10]	黄学雨, 徐浩特, 陶剑文. 具有特征选择的多源自适应分类框架[J]. 计算机应用, 2020, 40(9): 2499-2506.
[11]	顾桐, 许国良, 李万林, 李家浩, 王志愿, 雒江涛. 基于集成LightGBM和贝叶斯优化策略的房价智能评估模型[J]. 计算机应用, 2020, 40(9): 2762-2767.
[12]	刘丹, 姚立霜, 王云锋, 裴作飞. 面向类不平衡流量数据的分类模型[J]. 计算机应用, 2020, 40(8): 2327-2333.
[13]	肖跃雷, 张云娇. 基于特征选择和超参数优化的恐怖袭击组织预测方法[J]. 计算机应用, 2020, 40(8): 2262-2267.
[14]	汪志远, 降爱莲, 奥斯曼·穆罕默德. 基于正则互表示的无监督特征选择方法[J]. 计算机应用, 2020, 40(7): 1896-1900.
[15]	曹堉, 王成, 王鑫, 高悦尔. 基于时空节点选择和深度学习的城市道路短时交通流预测[J]. 计算机应用, 2020, 40(5): 1488-1493.