Journal of Computer Applications ›› 2014, Vol. 34 ›› Issue (11): 3131-3134.DOI: 10.11772/j.issn.1001-9081.2014.11.3131

Previous Articles     Next Articles

Data crawler for Sina Weibo based on Python

ZHOU Zhonghua1,ZHANG Huiran1,XIE Jiang1,2   

  1. 1. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China
    2. High Performance Computing Center, Shanghai University, Shanghai 200444, China
  • Received:2014-07-28 Revised:2014-08-04 Online:2014-11-01 Published:2014-12-01
  • Contact: ZHOU Zhonghua

基于Python的新浪微博数据爬虫

周中华1,张惠然1,谢江1,2   

  1. 1. 上海大学 计算机工程与科学学院,上海 200444
    2. 上海大学 高性能计算中心,上海 200444
  • 通讯作者: 周中华
  • 作者简介:周中华(1989-),男 江苏常州人,硕士研究生,CCF会员,主要研究方向:生物信息、高性能计算;张惠然(1981-),男 河南新乡人,讲师,博士,CCF会员,主要研究方向: 生物信息、高性能计算;谢江(1971-),女,湖北恩施人,副教授,博士,CCF会员,主要研究方向: 生物信息、高性能计算。
  • 基金资助:

    国家自然科学基金资助项目;高等学校博士学科点专项科研基金资助项目;上海市科委重点项目

Abstract:

Nowadays, most of researches about social network use data from foreign social network platforms. However the largest social network platform Sina Weibo in China has no data interfaces for investors. A Sina Weibo data crawler combined with parallelization technology was put forward. It got fans information and Weibo data content of different weibo users in real-time. It also supported key words matching and parallelization. The serial data crawler and its parallel version were compared, and an experiment about flu was conducted on some Weibo data. The results indicate that, with parallelization, this tool has liner speedup and all the fetching data are with timeliness and accuracy.

摘要:

目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。

CLC Number: