计算机应用 ›› 2011, Vol. 31 ›› Issue (08): 2108-2110.DOI: 10.3724/SP.J.1087.2011.02108

• 人工智能 • 上一篇    下一篇

基于谱分析的无监督特征选择算法

潘锋1,2,王建东1,牛奔2   

  1. 1. 南京航空航天大学 计算机科学与技术学院,南京210016
    2. 深圳大学 管理学院,广东 深圳518060
  • 收稿日期:2011-02-15 修回日期:2011-04-13 发布日期:2011-08-01 出版日期:2011-08-01
  • 通讯作者: 潘锋
  • 作者简介:潘锋(1977-),男,河南正阳人,讲师,博士研究生,主要研究方向:数据挖掘、机器学习;王建东(1945-),男,江苏南京人,教授,博士生导师,主要研究方向:数据挖掘、机器学习、知识工程;牛奔(1980-),男,安徽全椒人,副教授,博士,主要研究方向:智能系统、人工生命。
  • 基金资助:

    国家自然科学基金资助项目(60803092);广东省自然科学基金资助项目(9151170003000017)

Unsupervised feature selection approach based on spectral analysis

Feng PAN1,2,Jiang-dong WANG1,Ben NIU2   

  1. 1. College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 210016, China
    2. College of Management, Shenzhen University, Shenzhen Guangdong 518060, China
  • Received:2011-02-15 Revised:2011-04-13 Online:2011-08-01 Published:2011-08-01
  • Contact: Feng PAN

摘要: 为提高无监督状态下特征选择的准确度,基于图谱理论证明了标准化Laplacian矩阵前K个最小特征值分布表现了簇结构的可识别性,使用谱分析方法指导无监督特征选择,提出了特征重要度排序算法。对大容量数据集特征选择,应用Nystrm方法降低时间复杂度。实验结果表明,使用该算法与使用主流无监督特征选择方法及全部特征相比能得到更高的聚类性能评分。

关键词: 数据挖掘, 聚类算法, 无监督学习, 谱分析, 特征选择

Abstract: To improve the performance of feature selection under the unsupervised scenario, the relationship between the distribution of the first K minimal eigenvalues for a normalized graph Laplacian matrix and the structure of the clusters was identified, and a new feature selection algorithm based on the spectral analysis was proposed. The feature selection algorithm might be time-consuming; hence the Nystrm method was applied to reduce the computational cost of the eigen-decomposition. The experiments on synthetic and real-world data sets show the efficiency of the proposed approach.

Key words: data mining, cluster algorithm, unsupervised learning, spectral analysis, feature selection

中图分类号: