计算机应用 ›› 2015, Vol. 35 ›› Issue (11): 3243-3246.DOI: 10.11772/j.issn.1001-9081.2015.11.3243

• 人工智能 • 上一篇    下一篇

基于遗传算法与密度及距离计算的聚类方法

王泽, 张宏军, 张睿, 贺邓超   

  1. 解放军理工大学 指挥信息系统学院, 南京 210007
  • 收稿日期:2015-06-15 修回日期:2015-08-10 发布日期:2015-11-13
  • 通讯作者: 王泽(1991-),男,湖南长沙人,硕士研究生,主要研究方向:模式识别、数据挖掘.
  • 作者简介:张宏军(1963-),男,江苏泰州人,教授,博士生导师,博士,主要研究方向:数据挖掘、知识工程; 张睿(1977-),男,山东文登人,副教授,博士,主要研究方向:数据挖掘、军事建模; 贺邓超(1989-),男,江苏南京人,博士研究生,主要研究方向:机器学习、数据挖掘.
  • 基金资助:
    国家社会科学基金资助项目(13QJ004-098);江苏省自然科学基金资助项目(BK20150720).

Clustering by density and distance analysis based on genetic algorithm

WANG Ze, ZHANG Hongjun, ZHANG Rui, HE Dengchao   

  1. Institute of Command and Information System, PLA University of Science and Technology, Nanjing Jiangsu 210007, China
  • Received:2015-06-15 Revised:2015-08-10 Published:2015-11-13

摘要: 为解决聚类中心选择困难和数据点密度计算泛化能力弱的问题,提出一种基于遗传算法与密度及距离计算的聚类方法.该算法通过指数方法计算数据点密度,降低参数对算法性能的影响;用遗传算法搜索最优密度和距离阈值,同时引入惩罚因子,克服算法搜索域偏移从而提高收敛速度,寻找最优聚类中心,并用归属方法完成聚类.通过4组人工数据集和4组UCI数据集实验证明,该方法在RI指数、聚类精度、聚类纯度、召回率等4个聚类评价指标上都达到与K-means算法、快速搜索聚类算法和Max_Min_SD算法相当或更好的效果,算法是有效的.

关键词: 遗传算法, 聚类, 密度, 距离

Abstract: In order to solve the difficulty of selecting cluster centers and weakness of density analysis generalization, a novel clustering method was proposed. The method completed clustering by density and distance analysis based on genetic algorithm, which computed density with exponential method to reduce the impact of parameters and adopted genetic algorithm to search optimum threshold values. It introduced a penalty factor to overcome the excursion of search region for accelerating convergence. Numerical experiments on both artificial and UCI data sets show that compared with K-means, fast search clustering and Max_Min_SD, the proposed algorithm can achieve better or comparable performance on Rand index, accuracy, precision and recall.

Key words: genetic algorithm, clustering, density, distance

中图分类号: