计算机应用 ›› 2013, Vol. 33 ›› Issue (02): 550-553.DOI: 10.3724/SP.J.1087.2013.00550

• 数据库技术 • 上一篇    下一篇

结合X-means聚类的自适应随机子空间组合分类算法

曹鹏1,2,李博1,2,栗伟1,2,赵大哲1,2   

  1. 1. 东北大学 信息科学与工程学院,沈阳 110004
    2. 医学影像计算教育部重点实验室(东北大学),沈阳 110179
  • 收稿日期:2012-09-03 修回日期:2012-10-08 出版日期:2013-02-01 发布日期:2013-02-25
  • 通讯作者: 曹鹏
  • 作者简介:曹鹏(1982-),男,辽宁沈阳人,博士研究生,主要研究方向:机器学习、影像挖掘;
    李博(1985-),男,辽宁沈阳人,博士研究生,主要研究方向:影像检索与挖掘;
    栗伟(1980-),男,辽宁沈阳人,博士研究生,主要研究方向:文本挖掘;
    赵大哲(1960-),女,辽宁沈阳人,教授,主要研究方向:软件工程、数据挖掘、医学影像处理。
  • 基金资助:
    国家自然科学基金资助项目;中央高校基本科研业务费专项资金资助项目

Adaptive random subspace ensemble classification aided by X-means clustering

CAO Peng1,2,LI Bo1,2,LI Wei1,2,ZHAO Dazhe1,2   

  1. 1. College of Information Science and Engineering, Northeastern University, Shenyang Liaoning 110004, China
    2. Key Laboratory of Medical Image Computing, Ministry of Education (Northeastern University), Shenyang Liaoning 110179, China
  • Received:2012-09-03 Revised:2012-10-08 Online:2013-02-01 Published:2013-02-25
  • Contact: CAO Peng

摘要: 针对大规模数据的分类准确率低且效率下降的问题,提出一种结合X-means聚类的自适应随机子空间组合分类算法。首先使用X-means聚类方法,保持原有数据结构的同时,把复杂的数据空间自动分解为多个样本子空间进行分治学习;而自适应随机子空间组合分类器,提升了基分类器的差异性并自动确定基分类器数量,提升了组合分类器的鲁棒性及分类准确性。该算法在人工和UCI数据集上进行了测试,并与传统单分类和组合分类算法进行了比较。实验结果表明,对于大规模数据集,该方法具有更好的分类精度和健壮性,并提升了整体算法的效率。

关键词: 大规模数据集, X-means聚类, 组合分类, 随机子空间, 支持向量机

Abstract: To solve low accuracy and efficiency issues on the large-scale data classification, an adaptive random subspace ensemble classification algorithm aided by the X-means clustering was proposed. X-means clustering was adopted to separate the original data space into multiple clusters automatically, maintaining the original data structure; moreover adaptive random subspace ensemble classifier enhanced diversity of the base components and determined the size of base classifiers automatically, so as to improve the robustness and accuracy. The experimental results show that the proposed method improves the traditional single and ensemble classifiers with respect to accuracy and robustness on the large scale datasets with high dimension. Furthermore, it improves the overall efficiency of the algorithm.

Key words: large datasets, X-means clustering, ensemble classification, random subspace, Support Vector Machine (SVM

中图分类号: