改进的概率潜在语义分析下的文本聚类算法

doi:10.3724/SP.J.1087.2011.00674

计算机应用 ›› 2011, Vol. 31 ›› Issue (03): 674-676.DOI: 10.3724/SP.J.1087.2011.00674

改进的概率潜在语义分析下的文本聚类算法

张玉芳,朱俊,熊忠阳

重庆大学计算机学院

收稿日期:2010-09-06 修回日期:2010-10-27 发布日期:2011-03-03 出版日期:2011-03-01
通讯作者: 朱俊
作者简介:张玉芳(1965-),女，上海人，副教授,博士,主要研究方向：数据挖掘、网络入侵检测；朱俊(1984-),男,安徽太和人，硕士研究生,主要研究方向：数据挖掘；熊忠阳(1962-),男,重庆人，教授,博士,主要研究方向：网格与并行处理、数据挖掘、互联网应用。
基金资助:
中国博士后科学基金资助项目（20070420711）;重庆市科委基金资助项目(2008BB2191)

Improved text clustering algorithm of probabilistic latent with semantic analysis

ZHANG Yu-fang,ZHU Jun,XIONG Zhong-yang

College of Computer Science, Chongqing University, Chongqing 400044, China

Received:2010-09-06 Revised:2010-10-27 Online:2011-03-03 Published:2011-03-01
Contact: ZHU Jun

摘要/Abstract

摘要： 概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练，由于算法参数的随机初始化，致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化，用以初始化概率潜在语义分析模型的参数，得到的改进算法有效解决了参数随机初始化问题。经实验验证，所提出的方法对文本聚类的归一化互信息(NMI)和准确度都有明显提高。

关键词: 文本聚类, 概率潜在语义分析, 参数初始化, 潜在语义分析

Abstract: Trained by the Expectation Maximization (EM) algorithm, whose model parameters are randomly initialized, the performance of Probabilistic Latent Semantic Analysis (PLSA) model is quite dependent on the initialization of the model, and the result of iteration is not a global maximum, but a local one. The authors derived probabilities from Latent Semantic Analysis (LSA), and then used it to initialize the parameters of PLSA model in documents clustering. The improved PLSA could effectively solve the puzzle of random initializing of EM. It is shown that the improved algorithm has a distinct improvement in Normalized Mutual Information (NMI) and accuracy.

Key words: document clustering, Probabilistic Latent Semantic Analysis (PLSA), model parameters initialization, Latent Semantic Analysis (LSA)

中图分类号:

TP391.1

张玉芳朱俊熊忠阳. 改进的概率潜在语义分析下的文本聚类算法[J]. 计算机应用, 2011, 31(03): 674-676.

ZHANG Yu-fang ZHU Jun XIONG Zhong-yang. Improved text clustering algorithm of probabilistic latent with semantic analysis[J]. Journal of Computer Applications, 2011, 31(03): 674-676.

[1]	曹大为, 贺超波, 陈启买, 刘海. 基于加权核非负矩阵分解的短文本聚类算法[J]. 计算机应用, 2018, 38(8): 2180-2184.
[2]	王日宏, 崔兴梅. 融合集群度与距离均衡优化的K-均值聚类算法[J]. 计算机应用, 2018, 38(1): 104-109.
[3]	唐黎哲, 冯大为, 李东升, 李荣春, 刘锋. 以LDA为例的大规模分布式机器学习系统分析[J]. 计算机应用, 2017, 37(3): 628-634.
[4]	白晓红, 温静, 赵雪, 陈金广. 基于加速鲁棒特征和多示例学习的目标跟踪算法[J]. 计算机应用, 2016, 36(11): 2974-2978.
[5]	林江豪, 周咏梅, 阳爱民, 陈昱宏, 陈晓帆. 基于概率潜在语义分析的群体情绪演进分析[J]. 计算机应用, 2015, 35(10): 2747-2751.
[6]	王春龙张敬旭. 基于LDA的改进K-means算法在文本聚类中的应用[J]. 计算机应用, 2014, 34(1): 249-254.
[7]	冯汝伟谢强丁秋林. 基于文本聚类与分布式Lucene的知识检索[J]. 计算机应用, 2013, 33(01): 186-188.
[8]	侯海霞原民民刘春霞. 面向大文本数据集的间接谱聚类[J]. 计算机应用, 2012, 32(12): 3274-3277.
[9]	王治和王凌云党辉潘丽娜. 基于混合概率潜在语义分析模型的Web聚类[J]. 计算机应用, 2012, 32(11): 3018-3022.
[10]	李劲张华吴浩雄向军. 基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 计算机应用, 2012, 32(08): 2346-2349.
[11]	张文明吴江袁小蛟. 基于密度和最近邻的Kk-means文本聚类算法[J]. 计算机应用, 2010, 30(07): 1933-1935.
[12]	况夯罗军. 基于遗传FCM算法的文本聚类[J]. 计算机应用, 2009, 29(2): 558-560.
[13]	李江华杨书新刘利峰. 基于概念格的文本聚类[J]. 计算机应用, 2008, 28(9): 2328-2330.
[14]	曾璞吴玲达文军. 基于分块潜在语义的场景分类方法[J]. 计算机应用, 2008, 28(6): 1537-1539.
[15]	覃晓. 基于遗传算法和自组织特征映射网络的文本聚类方法[J]. 计算机应用, 2008, 28(3): 757-760.

改进的概率潜在语义分析下的文本聚类算法

Improved text clustering algorithm of probabilistic latent with semantic analysis

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics