聚焦爬虫技术研究综述

doi:10.3724/SP.J.1087.2005.01965

计算机应用 ›› 2005, Vol. 25 ›› Issue (09): 1965-1969.DOI: 10.3724/SP.J.1087.2005.01965

• Web与数据库 • 下一篇

聚焦爬虫技术研究综述

周立柱，林玲

清华大学计算机科学与技术系

出版日期:2005-09-01 发布日期:2011-04-11
基金资助:
国家自然科学基金资助项目(60173008)

Survey on the research of focused crawling technique

ZHOU Li-zhu,LIN Ling

Department of Computer Science and Technology,Tsinghua University,Beijing 10084,China

Online:2005-09-01 Published:2011-04-11

摘要/Abstract

摘要： 因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。

关键词: 聚焦爬虫, 信息检索, 链接分析, 文本检索, 数据抽取, 协作抓取, 本体描述, 元搜索

Abstract: The survey of focused crawling starts with the motivation for this new research and an introduction on basic concepts of focused crawling.The key issues in focused crawling are reviewed,such as webpage analyzing algorithms and the searching strategy on the Web.How to crawl relevant data and information according to different requirements is discussed in detail and three representative architectures of focused crawler systems are analyzed.Some future works for focused crawling research are indicated,including crawling for data analysis and data mining,topic description,finding relevant Web pages,Web data cleaning,and the extension of search space.

Key words: focused crawler, information retrieval, link analysis, text retrieval, data extraction, collaborative crawling, ontology, metasearch

中图分类号:

TP393.02

周立柱，林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005, 25(09): 1965-1969.

ZHOU Li-zhu,LIN Ling. Survey on the research of focused crawling technique[J]. Journal of Computer Applications, 2005, 25(09): 1965-1969.

[1]	沈力, 刘洪星, 李勇华. 基于版本控制的中文文档到源代码的自动跟踪方法[J]. 计算机应用, 2018, 38(10): 2996-3001.
[2]	章宁, 陈钦. 基于TF-IDF算法的P2P贷款违约预测模型[J]. 计算机应用, 2018, 38(10): 3042-3047.
[3]	袁大曾, 何明星, 李虓, 曾晟珂. 基于点函数秘密共享的私有信息检索协议[J]. 计算机应用, 2017, 37(2): 494-498.
[4]	李岩, 张博文, 郝红卫. 基于语义向量表示的查询扩展方法[J]. 计算机应用, 2016, 36(9): 2526-2530.
[5]	孙芯宇, 吴江, 蒲强. 基于稳定性语义聚类的相关模型估计[J]. 计算机应用, 2016, 36(5): 1313-1318.
[6]	张宇臣, 沈备军. 软件工程关联数据的自动构建[J]. 计算机应用, 2016, 36(3): 758-764.
[7]	刘兆庆伏玉琛凌兴宏熊湘云. 基于形式概念分析的博客社区发现[J]. 计算机应用, 2013, 33(01): 189-191.
[8]	胡小生钟勇. 一种两层加权融合的排序算法[J]. 计算机应用, 2012, 32(12): 3331-3334.
[9]	鲁强李效恋王智广. 程序算法识别研究综述[J]. 计算机应用, 2012, 32(10): 2863-2868.
[10]	李劲张华吴浩雄向军. 基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 计算机应用, 2012, 32(08): 2346-2349.
[11]	李劲张华吴浩雄向军辜希武. 基于社会标注质量的文本分类模型框架[J]. 计算机应用, 2012, 32(05): 1335-1339.
[12]	李明李秀兰. 基于结果模式的Deep Web数据标注方法[J]. 计算机应用, 2011, 31(07): 1733-1736.
[13]	曾文华黄桦. 基于网页信息检索的地理信息变化检测方法[J]. 计算机应用, 2010, 30(4): 1132-1134.
[14]	袁柳张龙波. 基于统计主题模型的多粒度Web文档标注[J]. 计算机应用, 2010, 30(12): 3401-3406.
[15]	李清茂杨兴江周相兵马洪江. 基于主题图的本体信息检索模型研究[J]. 计算机应用, 2010, 30(1): 240-242.

聚焦爬虫技术研究综述

Survey on the research of focused crawling technique

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics