计算机应用 ›› 2014, Vol. 34 ›› Issue (8): 2332-2335.DOI: 10.11772/j.issn.1001-9081.2014.08.2332
邱云飞1,郭弥纶1,邵良杉2
收稿日期:
2014-02-12
修回日期:
2014-04-24
发布日期:
2014-08-10
出版日期:
2014-08-01
通讯作者:
郭弥纶
作者简介:
基金资助:
国家自然科学基金资助项目;辽宁省创新团队项目;辽宁省高等学校杰出青年学者成长计划
QIU Yunfei1,GUO Milun1,SHAO Liangshan2
Received:
2014-02-12
Revised:
2014-04-24
Online:
2014-08-10
Published:
2014-08-01
Contact:
GUO Milun
摘要:
针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语的问题,提出了一种基于潜在狄利克雷分配(LDA)模型的主题树检测方法。首先,运用自然语言处理(NLP)中增大信息熵的方法将相关微博整理成一棵主题树,配合狄利克雷先验α与经验值β随主题数目动态变化的设计思想,结合该模型独特的双重概率统计模式,实现了对文本中每个词“贡献度”的统计,提前处理掉干扰信息,排除垃圾数据对话题检测的影响;然后,利用该“贡献度”作为空间向量模型(VSM)改进后的参数值计算文档间相似度来提取突发话题,达到提高突发话题检测精准度的目的。提出的基于LDA模型的主题树检测方法从F值比对与人工检测两个角度进行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和TF-IDF算法相比分别高出3%、7%,且更符合人的判断逻辑。
中图分类号:
邱云飞 郭弥纶 邵良杉. 基于主题树的微博突发话题检测[J]. 计算机应用, 2014, 34(8): 2332-2335.
QIU Yunfei GUO Milun SHAO Liangshan. Microblog bursty topic detection based on topic tree[J]. Journal of Computer Applications, 2014, 34(8): 2332-2335.
[1]MA B, HONG Y, LU J, et al. A thread-based two-stage clustering method of microblog topic detection [J]. Journal of Chinese Information Processing, 2012, 26(6): 121-128.(马彬,洪宇,陆剑江,等.基于线索树双层类聚的微博话题检测[J].中文信息学报,2012,26(6):121-128.) |
[1] | 张佳慧 李晓明 张嘉祥. 强化形态感知的路面缺陷检测算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 杨建锋 陈斌 李雨轩. 基于点云重构的自监督点云异常检测方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 薛振华 李强 黄超. 视觉大模型驱动的像素级图像异常检测模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 蒋畅江 向杰 何旭颖. 面向机械臂抓取的双目视觉目标定位算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 边小勇 胡其仁 袁培洋. 多注意力对比学习的红外小目标检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 李钟华 钟庚辛 范萍 朱恒亮. 通过边界挖掘和背景引导的伪装目标检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 吴松霖 张广朝 姚远 彭博. 基于判别区域引导的多视图困难气道识别[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 李强 白少雄 熊源 袁薇. 基于视觉大模型隐私保护的监控图像定位[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 薛雅丽 徐忠敏 刘世豪. 基于多级小波残差网络的重力数据去噪方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 况世雄 姚俊波 陆佳炜 王琪冰 肖刚. 基于动态图卷积网络的电梯乘客异常行为数据增强方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 康斌 陈斌 王俊杰 李昱林 赵军智 咸伟志. 基于多粒度共享语义中心关联的文本到人物检索方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 张庆 杨凡 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 王昊 王金伟 程鑫 张家伟 吴昊 罗向阳 马宾. 彩色图像JPEG重压缩取证综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 王磊 胡节 彭博. 用于半监督火灾检测的分布自适应和动态课程伪标签框架[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 刘晋文 王磊 马博 董瑞 杨雅婷 艾合塔木江·艾合麦提 王欣乐. 基于弱监督模态语义增强的多模态有害信息检测方法 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||