计算机应用 ›› 2011, Vol. 31 ›› Issue (03): 674-676.DOI: 10.3724/SP.J.1087.2011.00674

• 数据库技术 • 上一篇    下一篇

改进的概率潜在语义分析下的文本聚类算法

张玉芳,朱俊,熊忠阳   

  1. 重庆大学 计算机学院
  • 收稿日期:2010-09-06 修回日期:2010-10-27 发布日期:2011-03-03 出版日期:2011-03-01
  • 通讯作者: 朱俊
  • 作者简介:张玉芳(1965-),女,上海人,副教授,博士,主要研究方向:数据挖掘、网络入侵检测;朱俊(1984-),男,安徽太和人,硕士研究生,主要研究方向:数据挖掘;熊忠阳(1962-),男,重庆人,教授,博士,主要研究方向:网格与并行处理、数据挖掘、互联网应用。
  • 基金资助:
    中国博士后科学基金资助项目(20070420711);重庆市科委基金资助项目(2008BB2191)

Improved text clustering algorithm of probabilistic latent with semantic analysis

ZHANG Yu-fang,ZHU Jun,XIONG Zhong-yang   

  1. College of Computer Science, Chongqing University, Chongqing 400044, China
  • Received:2010-09-06 Revised:2010-10-27 Online:2011-03-03 Published:2011-03-01
  • Contact: ZHU Jun

摘要: 概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NMI)和准确度都有明显提高。

关键词: 文本聚类, 概率潜在语义分析, 参数初始化, 潜在语义分析

Abstract: Trained by the Expectation Maximization (EM) algorithm, whose model parameters are randomly initialized, the performance of Probabilistic Latent Semantic Analysis (PLSA) model is quite dependent on the initialization of the model, and the result of iteration is not a global maximum, but a local one. The authors derived probabilities from Latent Semantic Analysis (LSA), and then used it to initialize the parameters of PLSA model in documents clustering. The improved PLSA could effectively solve the puzzle of random initializing of EM. It is shown that the improved algorithm has a distinct improvement in Normalized Mutual Information (NMI) and accuracy.

Key words: document clustering, Probabilistic Latent Semantic Analysis (PLSA), model parameters initialization, Latent Semantic Analysis (LSA)

中图分类号: