计算机应用 ›› 2005, Vol. 25 ›› Issue (09): 2037-2040.DOI: 10.3724/SP.J.1087.2005.02037
赵万磊1,2,王永吉2,张学杰1,李娟2
ZHAO Wan-lei1,2,WANG Yong-ji2,ZHANG Xue-jie1,LI Juan2
摘要: 文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。
中图分类号: