计算机应用 ›› 2012, Vol. 32 ›› Issue (08): 2182-2185.DOI: 10.3724/SP.J.1087.2012.02182

• 数据库技术 • 上一篇    下一篇

基于限定区域数据取样的密度聚类算法

周红芳,赵雪涵,周扬   

  1. 西安理工大学 计算机科学与工程学院,西安 710048
  • 收稿日期:2012-02-06 修回日期:2012-03-27 发布日期:2012-08-28 出版日期:2012-08-01
  • 通讯作者: 赵雪涵
  • 作者简介:周红芳(1976-),女,陕西大荔人,副教授,博士,主要研究方向:数据仓库、数据挖掘、知识发现、粗糙集;
    赵雪涵(1989-),女,山西侯马人,硕士研究生,主要研究方向:数据挖掘、知识发现;
    周扬(1987-),男,河南南阳人,硕士研究生,主要研究方向:数据挖掘、知识发现。
  • 基金资助:
    国家自然科学基金资助项目(61174175);陕西省自然科学基础研究计划项目(SJ08-ZT14);陕西省教育厅科学研究计划项目(12JK0739)

Density-based clustering algorithm combined with limited regional sampling

ZHOU Hong-fang,ZHAO Xue-han,ZHOU Yang   

  1. Density-based clustering algorithm combined with limited regional sampling
  • Received:2012-02-06 Revised:2012-03-27 Online:2012-08-28 Published:2012-08-01
  • Contact: ZHAO Xue-han

摘要: 传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2Eps)内进行数据抽样。实验结果表明,限定区域内选取代表点进行簇的扩充降低了大簇分裂的概率,提高了算法效率与聚类精度。

关键词: 密度聚类, 数据抽样, 核心点, 邻域, 代表点

Abstract: Concerning the inefficient time performance and lower clustering accuracy revealed by the traditional density-based algorithms of DBSCAN and DBRS, this paper proposed an improved density-based clustering algorithm called DBLRS, which is combined with limited regional sampling technique. The algorithm used the parameter Eps to search for the neighborhood and expanded points of a core point without increasing time and space complexity, and implemented data sampling in a limited area (Eps,2Eps). The experimental results confirm that DBLRS can reduce the probability of large clusters' splitting and improve the algorithmic efficiency and clustering accuracy by selecting representative points to expand a cluster.

Key words: density-based clustering, data sampling, core point, neighborhood, representative point

中图分类号: