计算机应用 ›› 2011, Vol. 31 ›› Issue (09): 2551-2554.DOI: 10.3724/SP.J.1087.2011.02551

• 典型应用 • 上一篇    下一篇

云计算环境下朴素贝叶斯文本分类算法的实现

江小平1,李成华1,向文2,张新访2   

  1. 1. 中南民族大学 电子信息工程学院,武汉 430074
    2. 华中科技大学 计算机科学与技术学院,武汉 430074
  • 收稿日期:2011-03-24 修回日期:2011-05-21 发布日期:2011-09-01 出版日期:2011-09-01
  • 通讯作者: 李成华
  • 作者简介:江小平(1974-),男,湖北蕲春人,副教授,博士,主要研究方向:云计算、项目管理信息化;
    李成华(1972-),男,湖北仙桃人,副教授,博士,CCF会员,主要研究方向:云计算、项目管理信息化、信息安全;
    向文(1965-),男,江西景德镇人,教授,博士,主要研究方向:云计算、信息安全;
    张新访(1965-),男,广东五华人,教授,博士生导师,博士,主要研究方向:云计算、信息安全。
  • 基金资助:
    中央高校基本科研业务费专项资金资助项目(CZY11002);武汉市科技攻关项目(201110821229);工信部国家科技重大专项(2011ZX03002-001-01)

Naive Bayesian text classification algorithm in cloud computing environment

JIANG Xiao-ping1,LI Cheng-hua1,XIANG Wen2,ZHANG Xin-fang2   

  1. 1. College of Electronics and Information Engineering, South-central University for Nationalities, Wuhan Hubei 430074, China
    2. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan Hubei 430074, China
  • Received:2011-03-24 Revised:2011-05-21 Online:2011-09-01 Published:2011-09-01
  • Contact: LI Cheng-hua
  • Supported by:
    CZY11002;201110821229;2011ZX03002-001-01

摘要: 采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。

关键词: 云计算, 并行计算, MapReduce编程模型, 文本分类, 朴素贝叶斯算法

Abstract: The major procedures of text classification such as uniform text format expression, training, testing and classifying based on Naive Bayesian text classification algorithm were implemented using MapReduce programming mode. The experiments were given in Hadoop cloud computing environment. The experimental results indicate basically linear speedup with an increasing number of node computers. A recall rate of 86% was achieved when classifying Chinese Web pages.

Key words: cloud computing, parallel computing, MapReduce programming mode, text classification, Naive Bayes algorithm

中图分类号: