收稿日期:
2008-10-07
修回日期:
2008-12-09
发布日期:
2009-04-01
出版日期:
2009-04-01
通讯作者:
徐文杰
Received:
2008-10-07
Revised:
2008-12-09
Online:
2009-04-01
Published:
2009-04-01
Contact:
Wen-jie XU
摘要: 介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。
中图分类号:
徐文杰 陈庆奎. 增量更新并行Web爬虫系统[J]. 计算机应用.
Wen-jie XU Qing-kui CHEN. Parallel Web crawler system with increment update[J]. Journal of Computer Applications.
[1] | 陈林颖, 刘建华, 孙水华, 郑智雄, 林鸿辉, 林杰. 面向方面的自适应跨度特征的细粒度意见元组提取[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1454-1460. |
[2] | 许喆, 王志宏, 单存宇, 孙亚茹, 杨莹. 基于重构误差的无监督人脸伪造视频检测[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1571-1577. |
[3] | 刘辉, 张琳玉, 王复港, 何如瑾. 基于注意力机制和上下文信息的目标检测算法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1557-1564. |
[4] | 王先兰, 周金坤, 穆楠, 王晨. 基于多任务联合学习的跨视角地理定位方法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1625-1635. |
[5] | 刘阳, 陆志扬, 王骏, 施俊. 基于自注意力连接UNet的磁共振成像去吉布斯伪影算法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1606-1611. |
[6] | 翟冉, 陈学斌, 张国鹏, 裴浪涛, 马征. 基于不同敏感度的改进K-匿名隐私保护算法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1497-1503. |
[7] | 唐海涛, 王红军, 李天瑞. 判别多维标度特征学习[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1323-1329. |
[8] | 张广耀, 宋纯锋. 融合人体全身表观特征的行人头部跟踪模型[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1372-1377. |
[9] | 许睿, 梁爽, 万航, 文益民, 沈世铭, 李建. 基于烛台图模式匹配的PM2.5扩散特征的提取[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1394-1400. |
[10] | 姜春茂, 吴鹏, 李志聪. 基于Seeds集和成对约束的半监督三支聚类集成[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1481-1488. |
[11] | 王逸, 裴生雷, 王煜. 基于CSI和K-means-SVR的多指纹库室内定位方法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1636-1640. |
[12] | 郭磊 贾真 李天瑞. 面向方面级情感分析的交互式关系图注意力网络[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 许亮 张春 张宁 田雪涛. 融合多Prompt模板的零样本关系抽取模型 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 姜钧舰 刘达维 刘逸凡 任酉贵 赵志滨. 基于孪生网络的小样本目标检测算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 门瑞 樊秀梅 阿喜达 杜邵昱. 物联网中结合计算卸载和区块链的综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||