计算机应用 ›› 2013, Vol. 33 ›› Issue (07): 1969-1972.DOI: 10.11772/j.issn.1001-9081.2013.07.1969

• 人工智能 • 上一篇    下一篇

基于随机取样的选择性K-means聚类融合算法

王丽娟1,郝志峰1,2,蔡瑞初2,温雯2   

  1. 1. 华南理工大学 计算机科学与工程学院, 广州 51006
    2. 广东工业大学 计算机学院, 广州 510006
  • 收稿日期:2013-03-28 修回日期:2013-05-10 出版日期:2013-07-01 发布日期:2013-07-06
  • 通讯作者: 王丽娟
  • 作者简介:王丽娟(1978-),女,河北邢台人,博士,讲师,主要研究方向:机器学习、数据挖掘;郝志峰(1968-),男,江苏苏州人,教授,博士,主要研究方向:机器学习、进化计算;蔡瑞初(1983-),男,浙江温州人,副教授,博士,主要研究方向:机器学习、生物信息学;温雯(1981-),女,江西赣州人,副教授,博士,主要研究方向:机器学习、图像识别。
  • 基金资助:

    国家自然科学基金资助项目(61070033,61100148, 61202269);广东省自然科学基金资助项目(S20110400 04804);广东省科技计划项目 (2010B050400011);软件新技术国家重点实验室开放课题 (KFKT2011B19);广东高校优秀青年创新人才培育项目 (LYM11060);广州市科技计划项目 (12C42111607,201200000031);番禺区科技计划项目 (2012-Z-03-67)

Selective K-means clustering ensemble based on random sampling

WANG Lijuan1,HAO Zhifeng1,2,CAI Ruichu2,WEN Wen2   

  1. 1. School of Computer Science and Engineering, South China University of Technology, Guangzhou Guangdong 510006, China
    2. Faculty of Computer, Guangdong University of Technology, Guangzhou Guangdong 510006, China
  • Received:2013-03-28 Revised:2013-05-10 Online:2013-07-06 Published:2013-07-01
  • Contact: WANG Lijuan

摘要: 由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。

关键词: 聚类融合, 选择性聚类融合, 随机取样, 聚类决策评价, K-means

Abstract: Without any prior information about data distribution, parameter and the labels of data, not all base clustering results can truly benefit for the combination decision of clustering ensemble. In addition, if each base clustering plays the same role, the performance of clustering ensemble may be weakened. This paper proposed a selective K-means clustering ensemble based on random sampling, called RS-KMCE. In RS-MKCE, random sampling can avoid local minimum in the process of selecting base clustering subset for ensemble. And the defined evaluation index according to diversity and accuracy can lead to a better base clustering subset for improving the performance of clustering ensemble. The experiment results on two synthetic datasets and four UCI datasets show that performance of the proposed RS-KMCE is better than K-means, K-means clustering ensemble, and selective K-means clustering ensemble based on bagging.

Key words: clustering ensemble, selective clustering ensemble, random sampling, evaluation index of clustering, K-means

中图分类号: