BIGDATA-133 基于梯度提升决策树的微博虚假消息检测

计算机应用

• 人工智能与仿真 • 下一篇

BIGDATA-133 基于梯度提升决策树的微博虚假消息检测

段大高¹,盖新新¹,韩忠明¹,刘冰心²

1. 北京工商大学计算机与信息工程学院，北京 100048；
2. 北京工商大学食品安全大数据技术北京市重点实验室，北京 100048；
3. University of Liverpool，Liverpool

收稿日期:2017-10-09 发布日期:2017-10-09 出版日期:2017-10-18
通讯作者: 盖新新
作者简介:段大高(1976—)，男，湖南邵阳市人，副教授，博士，CCF会员，主要研究方向：多媒体信息处理、现代网络通信、嵌入式系统、智能数据分析；盖新新(1990—)，女，河北邢台市人，硕士研究生，主要研究方向：数据挖掘；韩忠明(1972—)，男，山西人，副教授，博士，CCF会员，主要研究方向：海量数据分析与挖掘、互联网挖掘，生物信息学；刘冰心(1996—)，女，北京人，本科，主要研究方向：数据挖掘。
基金资助:
教育部人文社会科学研究基金项目(13YJC860006)；北京市自然科学基金资助项目(4172016)；北京市科技计划项目(Z161100001616004)。

BIGDATA-133- Micro-blog misinformation detection based on gradient boost decision tree

DUAN Dagao1,2 , GAI Xinxin1 , HAN Zhongming1,2*，LIU Bingxin3

1. School of Computer and information engineering, Beijing Technology and Business University, Beijing 100048, China;
2. Beijing Key Laboratory of Big Data Technology for Food Safety, Beijing 100048, China;
3. University of Liverpool, Liverpool

Received:2017-10-09 Online:2017-10-09 Published:2017-10-18
Contact: Xin-Xin GAI
About author:DUAN Dagao, born in 1976. Ph.D., associate professor. His research interests include data mining, multi-media information processing. GAI Xinxin, born in 1990. M. S. candidate. Her research interests include data mining. HAN Zhongming, born in 1972. Ph.D., associate professor. His research interests include data mining, web mining, natural language. LIU Bingxin, born in 1996. B. S. candidate. Her research interests include data mining.
Supported by:
This work is partially supported by the Humanities and Social Sciences of Ministry of Education Planning Fund (13YJC860006), the Beijing Municipal Natural Science Foundation(4172016), and the Beijing Science and Technology Project(Z161100001616004)

摘要/Abstract

摘要：

微博是信息共享的重要平台，同时，也成为虚假消息产生和推广的重要平台，虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息，提出了一种基于梯度提升决策树（GBDT）的虚假消息检测方法。首先，从评论的角度分析微博虚假消息和真实消息之间存在的差异，在此基础上提取评论中的文本内容、用户属性，信息传播和时间特性的分类特征；然后，基于分类特征，采用GBDT算法实现微博虚假消息识别模型；最后, 在两个真实的微博数据集上进行验证。实验结果表明，基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。

关键词: 微博, 社交网络, 虚假消息, 梯度提升决策树, 评论

Abstract:

Weibo has become an important platform for information sharing. Meanwhile, it is also one of the main ways for spreading of different misinformation. In order to detect the micro-blog misinformation quickly and effectively, a method based on Gradient boost decision tree ( GBDT ) was proposed. Firstly, classification features of content, user properties, information dissemination and time characteristic were extracted from the comments of micro-blog. Then an identification model based on GBDT algorithm was proposed to detect misinformation. Finally, two real Weibo dataset were used to verify the efficiency and effectiveness of the model. The experimental results show that the model can effectively improve the classification performance.

Key words: micro-blog, social network, misinformation, Gradient Boost Decision Tree, comment

中图分类号:

TP391.1

段大高盖新新韩忠明刘冰心. BIGDATA-133 基于梯度提升决策树的微博虚假消息检测[J]. 计算机应用.

[1]	郭磊, 贾真, 李天瑞. 面向方面级情感分析的交互式关系图注意力网络[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 696-701.
[2]	马源源, 解蕾蕾, 董南, 刘娜. 考虑用户能动性和流动性的舆情传播模型[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 619-627.
[3]	李源潮, 陶重犇, 王琛. 基于最大熵深度强化学习的双足机器人步态控制方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 445-451.
[4]	王星, 刘贵娟, 陈志豪. 高斯混合模型与文本图卷积网络结合的虚假评论识别算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 360-368.
[5]	李莉, 杨春艳, 朱江文, 胡荣磊. 区块链下社交网络用户抄袭识别方案[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 242-251.
[6]	彭诗杰, 陈红梅, 王丽珍, 肖清. 基于地理偏好排序的兴趣点混合推荐模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2448-2455.
[7]	孙男男, 朴春慧, 马新娜. 基于社交关系和时序信息的团购推荐方法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1719-1729.
[8]	方澄, 李贝, 韩萍, 吴琼. 基于语法依存图的中文微博细粒度情感分类[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1056-1061.
[9]	杨煜, 段威威. 基于谱聚类的社交网络动态社区发现算法[J]. 《计算机应用》唯一官方网站, 2023, 43(10): 3129-3135.
[10]	赵旭剑, 王崇伟, 王俊力. 融合社会影响力和时间分布的微博关键事件抽取方法[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2667-2673.
[11]	仇丽青, 曲福帅. 基于情感分析和影响力评估的突发事件情感图谱[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1330-1338.
[12]	杨杰, 张名扬, 芮晓彬, 王志晓. 融合节点覆盖范围和结构洞的影响力最大化算法[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1155-1161.
[13]	罗浩然, 杨青. 基于情感词典和堆叠残差的双向长短期记忆网络的情感分析[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1099-1107.
[14]	潘列, 曾诚, 张海丰, 温超东, 郝儒松, 何鹏. 结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1108-1115.
[15]	解伟凡, 郭岩, 匡广生, 余智华, 薛源海, 沈华伟. 基于演化模式的推特话题流行度预测方法[J]. 《计算机应用》唯一官方网站, 2022, 42(11): 3364-3370.

BIGDATA-133 基于梯度提升决策树的微博虚假消息检测

BIGDATA-133- Micro-blog misinformation detection based on gradient boost decision tree

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics