一种优化初始中心点的K平均文本聚类算法
赵万磊1,2 ,王永吉2 ,张学杰1 ,李娟2
1.云南大学信息学院; 2.中国科学院软件研究所
Variant of K-means algorithm for document clustering: optimization initial centers
ZHAO Wan-lei1,2 ,WANG Yong-ji2, ZHANG Xue-jie1 ,LI Juan2
1.Institute of Information,Yunnan University,Kunming 650091,China;2.Institute of Software,Chinese Academy of Sciences,Beijing 100080,China
摘要 文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。
关键词 :
优化 ,
文本聚类 ,
K平均
Abstract :Document clustering had been employed in information filtering,web page classification and so on.K-means is one of the widely used clustering techniques because of its simplicity and high scalability.Owing to its random selection of initial centers,unstable results were often got when using traditional K-means and its variants.Here a technique of optimization initial centers of clustering was proposed.Combined with incremental iteration,it can produce clustering results with high purity,low entropy as well as good stableness.
Key words :
optimize
document clustering
K-means
基金资助: 国家863计划资助项目(2001AA1131802002AA116080)
[1]
刘金霞, 陈莲娜, 刘延伟, 王遵义, 彭光超. 基于视频业务质量优化的认知无线电传输信道选择 [J]. 计算机应用, 2015, 35(6): 1527-1530.
[2]
蒲保兴, 朱鸿鹏, 赵乘麟. 多源多宿组播网络编码的可达信息率区域 [J]. 计算机应用, 2015, 35(6): 1546-1551.
[3]
许浩锋, 凌青. 分布式在线交替方向乘子法 [J]. 计算机应用, 2015, 35(6): 1595-1599.
[4]
袁亚男, 王鹏, 刘峰. 多尺度量子谐振子算法性能分析 [J]. 计算机应用, 2015, 35(6): 1600-1604.
[5]
修宇, 王骏, 王忠群, 刘三民. 基于多图的交替优化图直推方法 [J]. 计算机应用, 2015, 35(6): 1611-1616.
[6]
李国亮, 魏振华, 徐蕾. 基于改进搜索策略的狼群算法 [J]. 计算机应用, 2015, 35(6): 1633-1636.
[7]
沈辉, 袁晓彤, 刘青山. 基于预测稀疏编码的快速单幅图像超分辨率重建 [J]. 计算机应用, 2015, 35(6): 1749-1752.
[8]
吕莉, 赵嘉, 孙辉. 具有反向学习和自适应逃逸功能的粒子群优化算法 [J]. 计算机应用, 2015, 35(5): 1336-1341.
[9]
徐华, 张庭. 改进离散粒子群算法求解柔性流水车间调度问题 [J]. 计算机应用, 2015, 35(5): 1342-1347.
[10]
张前图, 房立清, 赵玉龙. 具有Levy飞行特征的双子群果蝇优化算法 [J]. 计算机应用, 2015, 35(5): 1348-1352.
[11]
蒲保兴, 赵乘麟. 基于网络编码的组播率与编码节点数的平衡 [J]. 计算机应用, 2015, 35(4): 929-933.
[12]
林国汉, 章兢, 刘朝华. 自适应任务分配的粒子群优化算法 [J]. 计算机应用, 2015, 35(4): 1040-1044.
[13]
黄会群. 灰色关联分析和粒子群优化算法相融合的合作伙伴选择 [J]. 计算机应用, 2015, 35(4): 1045-1048.
[14]
李国亮, 魏振华, 徐蕾. 分阶段搜索的改进人工蜂群算法 [J]. 计算机应用, 2015, 35(4): 1057-1061.
[15]
贾遂民, 魏萌, 胡明生. 混沌拟态物理优化的认知频谱差异分配 [J]. 计算机应用, 2015, 35(4): 1067-1070.