基于密度和最近邻的Kk-means文本聚类算法

计算机应用 ›› 2010, Vol. 30 ›› Issue (07): 1933-1935.

基于密度和最近邻的Kk-means文本聚类算法

张文明¹,吴江¹,袁小蛟²

1. 西北大学信息科学与技术学院
2.

收稿日期:2010-01-20 修回日期:2010-03-08 发布日期:2010-07-01 出版日期:2010-07-01
通讯作者: 张文明
基金资助:
西北大学科研启动基金;西北大学研究生自主创新基金项目

K-means text clustering algorithm based on density and nearest neighbor

Received:2010-01-20 Revised:2010-03-08 Online:2010-07-01 Published:2010-07-01

摘要/Abstract

摘要： 初始中心点的选择对于传统的K-means算法聚类效果影响较大，容易使聚类陷入局部最优解。针对这个问题，引入密度和最近邻思想，提出了生成初始聚类中心的算法，将所选聚类中心用于K-means算法，得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明，该算法可以生成聚类质量较高并且稳定性较好的结果。

关键词: 文本聚类, 密度, 最近邻, F度量

Abstract: The initial focal point has a great influence on the clustering effects of traditional K-means algorithm, which makes cluster into a local optimal solution. In view of the existing problem，The algorithm that generates the initial cluster centers is proposed ,through introducing the density and nearest-neighbor idea, and these selected centers are used in K-means algorithm, getting the better text clustering algorithm called DN-K-means. The experiments results confirmed that the algorithm can produce clustering result with high and steady clustering quality.

Key words: text clustering, density, nearest neighbor, F-measure

张文明吴江袁小蛟. 基于密度和最近邻的Kk-means文本聚类算法[J]. 计算机应用, 2010, 30(07): 1933-1935.

[1]	赵志强, 马培红, 黑新宏. 基于双重注意力机制的人群计数方法[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2886-2892.
[2]	李伟, 张晓蓉, 陈鹏, 李清, 张长青. 基于正态逆伽马分布的多尺度融合人群计数算法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2243-2249.
[3]	蒋小霞, 黄瑞章, 白瑞娜, 任丽娜, 陈艳平. 基于事件表示和对比学习的深度事件聚类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1734-1742.
[4]	徐童童, 解滨, 张春昊, 张喜梅. 融合转移概率矩阵的多阶最近邻图聚类算法[J]. 《计算机应用》唯一官方网站, 2024, 44(5): 1527-1538.
[5]	高文烁, 陈晓云. 基于节点结构的点云分类网络[J]. 《计算机应用》唯一官方网站, 2024, 44(5): 1471-1478.
[6]	丁雨, 张瀚霖, 罗荣, 孟华. 基于信念子簇切割的模糊聚类算法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1128-1138.
[7]	杨成昊, 胡节, 王红军, 彭博. 基于注意力机制的不完备多视图聚类算法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3784-3789.
[8]	崔昊阳, 张晖, 周雷, 杨春明, 李波, 赵旭剑. 有序规范实数对多相似度K最近邻分类算法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2673-2678.
[9]	马胜位, 黄瑞章, 任丽娜, 林川. 基于多层语义融合的结构化深度文本聚类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2364-2369.
[10]	陈方疏, 张为, 胡小明, 张宇飞, 孟宪凯, 石林祥. 加权路网空间中动态聚集最近邻居查询算法[J]. 《计算机应用》唯一官方网站, 2023, 43(7): 2026-2033.
[11]	张海永, 方贤进, 张恩皖, 李宝玉, 彭超, 穆健翔. 基于测量报告信号聚类的指纹定位方法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3947-3954.
[12]	赵学健, 李豪, 唐浩天. 基于用户兴趣概念格约简的推荐评分预测算法[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3340-3345.
[13]	陈延伟, 赵兴旺. 基于边界点检测的变密度聚类算法[J]. 《计算机应用》唯一官方网站, 2022, 42(8): 2450-2460.
[14]	章曼, 张正军, 冯俊淇, 严涛. 基于自适应可达距离的密度峰值聚类算法[J]. 《计算机应用》唯一官方网站, 2022, 42(6): 1914-1921.
[15]	杜洁, 马燕, 黄慧. 基于局部引力和距离的聚类算法[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1472-1479.