计算机应用 ›› 2014, Vol. 34 ›› Issue (11): 3144-3146.DOI: 10.11772/j.issn.1001-9081.2014.11.3144

• 2014年全国开放式分布与并行计算学术年会(DPCS 2014)论文 • 上一篇    下一篇

基于主题的Web文本聚类方法

张万山,肖瑶,梁俊杰,余敦辉   

  1. 湖北大学 计算机与信息工程学院,武汉 430062
  • 收稿日期:2014-07-29 修回日期:2014-08-08 出版日期:2014-11-01 发布日期:2014-12-01
  • 通讯作者: 梁俊杰
  • 作者简介:张万山(1973-),男,湖北武汉人,硕士,主要研究方向:Web信息挖掘;肖瑶(1987-),女,湖北武汉人,硕士,主要研究方向:Web信息挖掘;梁俊杰(1974-),女,湖北武汉人,副教授,博士,主要研究方向:数据分析、云计算;余敦辉(1974-), 男,湖北武汉人,副教授,博士,主要研究方向:服务计算、大数据。
  • 基金资助:

    国家自然科学基金资助项目;湖北省自然科学基金项目;武汉市科技攻关技术项目

Web text clustering method based on topic

ZHANG Wanshan,Xiaoyao ,LIANG Junjie,YU Dunhui   

  1. School of Computer and Information Engineering, Hubei University, Wuhan Hubei 430062, China
  • Received:2014-07-29 Revised:2014-08-08 Online:2014-11-01 Published:2014-12-01
  • Contact: LIANG Junjie

摘要:

针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。

Abstract:

Concerning that the traditional Web text clustering algorithm without considering the Web text topic information leads to a low accuracy rate of multi-topic Web text clustering, a new algorithm was proposed for Web text clustering based on the topic theme. In the method, multi-topic Web text was clustered by three steps: topic extraction, feature extraction and text clustering. Compared to the traditional Web text clustering algorithm, the proposed method fully considered the Web text topic information. The experimental results show that the accuracy rate of the proposed algorithm for multi-topic Web text clustering is higher than the text clustering method based on K-means or HowNet.

中图分类号: