计算机应用 ›› 2011, Vol. 31 ›› Issue (05): 1359-1362.DOI: 10.3724/SP.J.1087.2011.01359

• 数据库技术 • 上一篇    下一篇

基于佳点集与Leader方法的改进K-means聚类算法

张燕平,张娟,何成刚,褚维翠,张利娜   

  1. 安徽大学 计算机科学与技术学院,合肥 230039
  • 收稿日期:2010-09-02 修回日期:2010-10-23 发布日期:2011-05-01 出版日期:2011-05-01
  • 通讯作者: 张娟
  • 作者简介:张燕平(1962-),女,安徽巢湖人,教授,博士生导师,主要研究方向:机器学习、人工智能、复杂网络、神经网络;张娟(1985-),女,安徽合肥人,硕士研究生,主要研究方向:机器学习、神经网络;何成刚(1984-),男,河南信阳人,硕士研究生,主要研究方向:机器学习;褚维翠(1986-),女,安徽合肥人,硕士研究生,主要研究方向:信息检索;张利娜(1984-),女,安徽淮北人,硕士研究生,主要研究方向:机器学习、神经网络。
  • 基金资助:

    国家自然科学基金资助项目(60675031);国家973计划项目(2007BC311003)。

Modified K-means clustering algorithm based on good point set and Leader method

ZHANG Yan-ping, ZHANG Juan, HE Cheng-gang, CHU Wei-cui, ZHANG Li-na   

  1. School of Computer Science and Technology, Anhui University, Hefei Anhui 230039, China
  • Received:2010-09-02 Revised:2010-10-23 Online:2011-05-01 Published:2011-05-01

摘要: 针对传统K-means算法对初始点敏感的问题,采用数论中的佳点集理论结合Leader方法对K-means聚类算法加以改进,启发式地生成样本初始中心。根据两者不同的结合方式,所提算法分别称为KLG和KGL。佳点集理论能够产生比随机选取点更好的点,Leader方法则能反映数据对象本身的分布特性。结合佳点集理论和Leader方法各自的优点,能获得优化的初始中心。在UCI数据集上的实验表明,KLG算法和KGL算法所得到的结果均好于传统的和其他一些初始化的K-means算法。

关键词: K-means算法, 佳点集, Leader方法

Abstract: Traditional K-means algorithm is sensitive to the initial start center. To solve this problem, a method was proposed to optimize the initial center points through adopting the theory of good point set and Leader method. According to the different combination ways, the new algorithms were called KLG and KGL respectively. Better points could be obtained by the theory of good point set rather than random selection. The Leader method could reflect the distribution characteristics of the data object. The experimental results conducted on the UCI database show that the KLG and KGL algorithms significantly outperform the traditional and other initialization K-means algorithms.

Key words: K-means algorithm, good point set, Leader method