计算机应用 2012, 32(11) 3018-3022 DOI:     ISSN: 1001-9081 CN: 51-1307/TP

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
人工智能
扩展功能
本文信息
Supporting info
PDF(743KB)
[HTML全文]
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
文章反馈
浏览反馈信息
本文关键词相关文章
Web聚类
概率潜在语义分析
潜在主题
kmedoids算法
本文作者相关文章
王治和
王凌云
党辉
潘丽娜
PubMed
Article by Yu,Y.H
Article by Yu,L.Y
Article by Dang,h
Article by Pan,L.N
基于混合概率潜在语义分析模型的Web聚类
王治和1,王凌云2,党辉1,潘丽娜1
1. 西北师范大学 计算机科学与工程学院,兰州 730070
2. 兰州银行 科技部,兰州 730030
摘要: 在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(HPLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的HPLSA模型和页面聚类的HPLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的kmedoids 算法。设计并构建了HPLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。
关键词 Web聚类   概率潜在语义分析   潜在主题   kmedoids算法  
Web clustering based on hybrid probabilistic latent semantic analysis model
WANG Zhi-he1,WANG Ling-yun2,DANG Hui1,PAN Li-na1
1. College of Computer Science and Engineering,Northwest Normal University,Lanzhou Gansu 730070, China
2. Department of Science and Technology, Lanzhou Bank, Lanzhou Gansu 730030, China
Abstract: In Ecommerce, in order to know more about the inherent characteristics of user access and make better marketing strategies, a Web clustering algorithm based on Hybrid Probabilistic Latent Semantic Analysis (HPLSA) model was proposed in this paper. The Probabilistic Latent Semantic Analysis (PLSA) models were established respectively on user browsing data, page information and enhanced user transaction data by using PLSA technology. Using loglikelihood function, three PLSA models were merged to get the user clustering HPLSA model and the page clustering HPLSA model. Similarity calculation was based on the conditional probability among latent themes and user, page as well as site in the clustering analysis. The kmedoids algorithm based on distance was adopted in this clustering algorithm. The HPLSA model was designed and constructed in this article, and the Web clustering algorithm was verified on this HPLSA model. Then it is proved that the algorithm is effective.
Keywords: Web clustering   Probabilistic Latent Semantic Analysis (PLSA)   latent theme   kmedoids algorithm  
收稿日期 2012-05-11 修回日期 2012-06-28 网络版发布日期 2012-11-12 
DOI:
基金项目:

通讯作者: 王治和
作者简介: 王治和(1965-),男,甘肃武威人,教授,主要研究方向:数据挖掘;王凌云(1986-),男,甘肃定西人,硕士研究生,主要研究方向:数据挖掘;党辉(1988-),女,甘肃永靖人,硕士,主要研究方向:数据挖掘;潘丽娜(1984-),女,甘肃平凉人,硕士,主要研究方向:数据挖掘。
作者Email: wangzh@nwnu.edu.cn

参考文献:
[1] 赵伟,何王廉,陈霞,等.Web日志挖掘中的数据预处理技术研究[J].joca,2003,23(5):62-67. [2] 詹宇斌.Web日志挖掘相关算法研究[D].长沙:国防科学技术大学,2006. [3] 石新景,汤小春,闫磊.基于盖然论潜在语义分析的Web使用挖掘[J].微电子学与计算机,2008,28(6):225-229. [4] 张波,巫莉莉,周敏.基于Web使用挖掘的用户行为分析[J].计算机科学,2006,33(8):213-215. [5] 俞辉, 景海峰.基于概率潜在语义分析的Web用户聚类[J]. 计算机工程与应用,2008,44(23):160-162. [6] DEMPSTER A, LAIRD N, RUBIN D. Maximum likelihood from incomplete data via the EM algorithm[J].Journal of Royal Statistical Society,1977, 39(1):1-38. [7] 曹玲玲.贝叶斯分类方法的对比研究与改进算法[D].西安:西北大学,2011. [8] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine Learning Journal,2001,42(1):177-196. [9] 俞辉.基于PLSA 模型的Web 用户聚类算法研究[J].计算机工程与科学,2008,30(7):30-34. [10] XU GUANDONG, ZHANG YANCHUN, ZHOU XIAOFANG.Using probabilistic latent semantic analysis for Web page grouping[C]// RIDESDMA05:15th International Workshop on Research Issues in Data Engineering: Stream Data Mining and Applications. Washington, DC: IEEE Computer Society,2005: 29-36. [11] CADEZ I, HECKERMAN D, MEEK C,et al. Modelbased clustering and visualization of navigation patterns on a Web site[J]. Data Mining and Knowledge Discovery, 2003,7(4):399-424. [12] 盖杰,王怡,武港山.潜在语义分析理论及其应用[J].计算机应用研究,2004,21(3):9-13.
本刊中的类似文章
1.张玉芳 朱俊 熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J]. 计算机应用, 2011,31(03): 674-676
2.曾璞 吴玲达 文军.基于分块潜在语义的场景分类方法[J]. 计算机应用, 2008,28(6): 1537-1539

Copyright by 计算机应用