计算机应用 ›› 2014, Vol. 34 ›› Issue (12): 3497-3501.

• 数据技术 • 上一篇    下一篇

融合词语关联关系的自适应微博热点话题追踪算法

孙曰昕1,马慧芳1,师亚凯1,崔彤2   

  1. 1. 西北师范大学 计算机科学与工程学院,兰州 730070
    2. 浙江大学 控制科学与工程系,杭州 310013
  • 收稿日期:2014-07-07 修回日期:2014-09-15 出版日期:2014-12-01 发布日期:2014-12-31
  • 通讯作者: 马慧芳
  • 作者简介:孙曰昕(1989-),男,山东淄博人,硕士,主要研究方向:互联网数据挖掘;马慧芳(1981-),女,甘肃兰州人,副教授,博士,CCF会员,主要研究方向:人工智能、数据挖掘、机器学习;师亚凯(1988-),男,河南平顶山人,硕士研究生,主要研究方向:互联网数据挖掘;崔彤(1993-),女,浙江杭州人,主要研究方向:人工智能、信息处理。
  • 基金资助:

    国家自然科学基金资助项目;甘肃省青年科技基金资助项目;甘肃省自然科学研究基金资助项目;甘肃省教育厅项目

Self-adaptive microblog hot topic tracking method using term correlation

SUN Yuexin1,MA Huifang1,SHI Yakai1,CUI Tong2   

  1. 1. College of Computer Science and Engineering, Northwest Normal University, Lanzhou Gansu 730070, China;
    2. Department of Control Science and Engineering, Zhejiang University, Hangzhou Zhejiang 310013, China
  • Received:2014-07-07 Revised:2014-09-15 Online:2014-12-01 Published:2014-12-31
  • Contact: MA Huifang

摘要:

针对传统文本表示模型忽略词项关系的弊端和话题追踪过程中产生的话题漂移问题,提出了结合词语关系的自适应话题追踪算法。通过挖掘词语间的互信息和关联词信息,继而更新传统文本表示模型,通过相似度计算来判断是否为热点话题的后续话题,最后通过更新热点微博话题向量来避免话题漂移问题。实验证明了所提算法针对微博热点话题追踪是有效的。

Abstract:

Aiming at the deficiency of traditional text representation model, which usually ignores term correlation, and topic drifting problem during topic tracking, this paper propose an approach called self-adaptive microblog hot topic tracking method using terms correlation. Mutual information between terms in the same and different microblogs are investigated. Then the conventional text representation model is updated. Similarity calculation is performed to decide whether it is the subsequent discussions of a certain hot topic. Finally, the vectors of microblogs are updated to avoid topic drifting. Experiments show the effectiveness of our method.

中图分类号: