K-means初始聚类中心的选择算法

doi:10.3724/SP.J.1087.2012.02186

计算机应用 ›› 2012, Vol. 32 ›› Issue (08): 2186-2192.DOI: 10.3724/SP.J.1087.2012.02186

K-means初始聚类中心的选择算法

郑丹¹,²,王潜平²

1. 江苏师范大学人事处，江苏徐州 221116
2. 中国矿业大学计算机科学与技术学院，江苏徐州 221116

收稿日期:2012-02-03 修回日期:2012-02-26 发布日期:2012-08-28 出版日期:2012-08-01
通讯作者: 郑丹
作者简介:郑丹(1980-)，男，江苏徐州人，实验师，硕士，主要研究方向：数据挖掘;
王潜平(1964-)，男，安徽安庆人，教授，博士生导师，博士，主要研究方向：无线传感器网络、数据挖掘。
基金资助:
国家科技支撑计划项目(2008BAH37B05095)

Selection algorithm for K-means initial clustering center

ZHENG Dan¹,²,WANG Qian-ping²

1. Department of Personnel, Jiangsu Normal University, Xuzhou Jiangsu 221116, China
2. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou Jiangsu 221116,China

Received:2012-02-03 Revised:2012-02-26 Online:2012-08-28 Published:2012-08-01
Contact: ZHENG Dan

摘要/Abstract

摘要： K-means算法随机选取初始聚类中心，容易造成聚类准确率低且聚类结果不稳定。针对这一问题，提出一种初始聚类中心的选择算法。通过k-dist的差值(DK)图分析，确定数据点在k-dist图上的位置，选择主要密度水平曲线上k-dist值最小的点作为初始聚类中心。实验证明，改进算法选择的初始聚类中心唯一，聚类结果稳定，聚类准确率高，迭代次数少。

关键词: 聚类, K-means算法, k-dist图, k-dist的差值图, 密度

Abstract: The initial clustering centers of K-means algorithm are randomly selected, which may result in low accuracy and unstable clustering. To solve these problems, a K-means initial clustering center selection algorithm was proposed. The locations of data points were determined by analyzing Difference of K-dist (DK) graph. One point with the least k-dist value on the main density curves was selected as an initial clustering center. The experimental results demonstrate that the improved algorithm can select unique initial clustering center, gain stable clustering result, get higher accuracy and reduce times of iteration.

Key words: clustering, K-means algorithm, k-dist graph, Difference of K-dist (DK) graph, density

中图分类号:

TP311.13

郑丹王潜平. K-means初始聚类中心的选择算法[J]. 计算机应用, 2012, 32(08): 2186-2192.

ZHENG Dan WANG Qian-ping. Selection algorithm for K-means initial clustering center[J]. Journal of Computer Applications, 2012, 32(08): 2186-2192.

参考文献

[1]HAN J, KAMBER M.数据挖掘概念与技术[M].范明,孟晓峰,译.北京: 机械工业出版社,2001: 223-225. [2]吴夙慧,成颖,郑彦宁,等.K-means算法研究综述[J].知识组织与知识管理,2011,27(5): 28-35. [3]刘一鸣,张化祥.可变阈值的K-Means初始中心选择方法[J].计算机工程与应用,2011,47(32): 56-58. [4]熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11): 4188-4190. [5]仝雪姣,孟凡荣,王志晓.对K-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8): 2721-2788. [6]姚跃华,史秀岭.一种优化初始中心的K-means粗糙聚类算法[J].计算机工程与应用,2010,46(34): 126-128. [7]周海岩,白晓林.基于图的K-均值聚类法中初始聚类中心选择[J].计算机测量与控制,2010,18(9): 2167-2169. [8]黄敏,何中市,邢欣来,等.一种新的K-means聚类中心选取算法[J].计算机工程与应用,2011,47(35): 132-134. [9]王赛芳,戴芳,王万斌,等.基于初始聚类中心优化的K-均值算法[J].计算机工程与科学,2010,32(10): 105-116. [10]汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能， 2009,22(2): 299-304. [11]钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报，2007,33(4): 342-346. [12]王玲,薄列峰,焦李成. 密度敏感的谱聚类[J].电子学报，2007,35(8): 1577-1581. [13]张琳,陈燕,汲业,等.一种基于密度的K-means 算法研究[J].计算机应用研究， 2011,28(11): 4071-4085. [14]周董,刘鹏. VDBSCAN:变密度聚类算法[J].计算机工程与应用,2009,45(11): 137-153. [15]ESTER M, KRIEGEL H-P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]// KDD-96: Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. Menlo Park: AAAI Press, 1996: 226-231.

K-means初始聚类中心的选择算法

Selection algorithm for K-means initial clustering center

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

[1]	陈恒恒, 倪志伟, 朱旭辉, 金媛媛, 陈千. 基于聚类分析的差分隐私高维数据发布方法[J]. 计算机应用, 2021, 41(9): 2578-2585.
[2]	祝承, 赵晓琦, 赵丽萍, 焦玉宏, 朱亚飞, 陈建英, 周伟, 谭颖. 基于谱聚类半监督特征选择的功能磁共振成像数据分类[J]. 计算机应用, 2021, 41(8): 2288-2293.
[3]	曾祥银, 郑伯川, 刘丹. 基于深度卷积神经网络和聚类的左右轨道线检测[J]. 计算机应用, 2021, 41(8): 2324-2329.
[4]	戴嫣然, 戴国庆, 袁玉波. 基于肤色学习的多人脸前景抽取方法[J]. 计算机应用, 2021, 41(6): 1659-1666.
[5]	马建红, 曹文斌, 刘元刚, 夏爽. 基于功效特征的专利聚类方法[J]. 计算机应用, 2021, 41(5): 1361-1366.
[6]	李国荣, 冶继民, 甄远婷. 基于新的鲁棒相似性度量的时间序列聚类[J]. 计算机应用, 2021, 41(5): 1343-1347.
[7]	王治和, 常筱卿, 杜辉. 基于万有引力的自适应近邻传播聚类算法[J]. 计算机应用, 2021, 41(5): 1337-1342.
[8]	龙超奇, 蒋瑜, 谢雨. 基于峰值网格改进的小波聚类算法[J]. 计算机应用, 2021, 41(4): 1122-1127.
[9]	李杏峰, 黄玉清, 任珍文, 李毅红. 基于自适应邻域的鲁棒多视图聚类算法[J]. 计算机应用, 2021, 41(4): 1093-1099.
[10]	郭佳, 韩李涛, 孙宪龙, 周丽娟. 自动确定聚类中心的比较密度峰值聚类算法[J]. 计算机应用, 2021, 41(3): 738-744.
[11]	吕佳, 鲜焱. 结合改进密度峰值聚类和共享子空间的协同训练算法[J]. 计算机应用, 2021, 41(3): 686-693.
[12]	邹志文, 秦程. 基于k-means++的动态构建空间主题R树方法[J]. 计算机应用, 2021, 41(3): 733-737.
[13]	付倩慧, 李庆奎, 傅景楠, 王羽. 基于空间维度循环感知网络的密集人群计数模型[J]. 计算机应用, 2021, 41(2): 544-549.
[14]	张恩, 李会敏, 常键. 可验证的隐私保护k-means聚类方案[J]. 计算机应用, 2021, 41(2): 413-421.
[15]	袁芊芊, 邓洪敏, 王晓航. 基于超像素快速模糊C均值聚类与支持向量机的柑橘病虫害区域分割[J]. 计算机应用, 2021, 41(2): 563-570.