Web全文检索中间件的设计与应用

doi:10.3724/SP.J.1087.2011.02261

计算机应用 ›› 2011, Vol. 31 ›› Issue (08): 2261-2264.DOI: 10.3724/SP.J.1087.2011.02261

Web全文检索中间件的设计与应用

张维刚¹,徐永东¹,雷小强²,何辉¹

1. 哈尔滨工业大学(威海) 计算机科学与技术学院，山东威海264209
2. 华中科技大学计算机科学与技术学院，武汉430074

收稿日期:2011-02-23 修回日期:2011-04-06 发布日期:2011-08-01 出版日期:2011-08-01
通讯作者: 张维刚
作者简介:张维刚(1980-)，男，湖北咸宁人，讲师，博士研究生，CCF会员，主要研究方向：多媒体技术、信息检索；徐永东(1974-)，男，黑龙江鸡西人，副教授，博士，主要研究方向：自然语言处理、自动文摘；雷小强(1986-)，男，湖南耒阳人，硕士研究生，主要研究方向：信息检索；何辉(1978-)，男，山东济宁人，工程师，博士研究生，主要研究方向：可信计算、嵌入式计算。
基金资助:
国家自然科学基金资助项目(60803092)

Design and application of middleware for Web full-text retrieval

Wei-gang ZHANG¹,Yong-dong XU¹,Xiao-qiang LEI²,Hui HE¹

1. School of Computer Science and Technology, Harbin Institute of Technology at Weihai, Weihai Shandong 264209, China
2. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan Hubei 430074, China

Received:2011-02-23 Revised:2011-04-06 Online:2011-08-01 Published:2011-08-01
Contact: Wei-gang ZHANG

摘要/Abstract

摘要： 为了更好地为Web站内检索提供服务，对Web全文检索的关键技术进行了研究，设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页；对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重；应用所提出的新的基于标签的正文提取方法来进行网页正文提取，实验结果表明该正文提取方法是有效可行的；此外，为了改善用户的搜索体验，该中间件还提供了一些个性化搜索辅助功能。最后，实现了一个完整的博客搜索系统Boso(博搜)来验证中间件的性能，结果说明该中间件是可以投入实际应用的。

关键词: Web全文检索, 中间件, URL去重, 网页标签, 正文提取

Abstract: To provide better Web search services, the key techniques of the full-text retrieval were studied and a middleware was designed and implemented. By using a multi-thread website crawler program, the Web pages of the given URLs were collected. Bloom-Filter algorithm was employed to get rid of large-scale duplicate URLs in the collected Web pages. A new content extraction approach based on the Web tags was presented to extract the full-text content of Web pages for indexing and searching. The experimental results verify the efficiency of the content extraction method. Furthermore, to improve the search experience of users, many personalized search assistances were provided by this middleware. Boso, a blog search engine, was developed to test and verify the presented middleware. The results show that the presented middleware can be applied to actual search engines.

Key words: Web full-text retrieval, middleware, URL filter, Web tag, content extraction

中图分类号:

TP391.3

张维刚徐永东雷小强何辉. Web全文检索中间件的设计与应用[J]. 计算机应用, 2011, 31(08): 2261-2264.

Wei-gang ZHANG Yong-dong XU Xiao-qiang LEI Hui HE. Design and application of middleware for Web full-text retrieval[J]. Journal of Computer Applications, 2011, 31(08): 2261-2264.

[1]	江炳城, 何倩, 陈亦婷, 刘鹏. 面向云数据库的属性基加密和查询转换中间件[J]. 计算机应用, 2018, 38(8): 2280-2286.
[2]	张传浩, 周桥. 节点效用最大化的服务功能链构建方法[J]. 计算机应用, 2018, 38(2): 503-508.
[3]	宋天煜, 杨庚. 面向密文数据库的中间件系统设计与实现[J]. 计算机应用, 2018, 38(12): 3450-3454.
[4]	徐进, 黄勃, 冯炯. 基于消息通信的分布式系统最终一致性平台[J]. 计算机应用, 2017, 37(4): 1157-1163.
[5]	蔡孟飞, 何倩, 程东生, 王士成. 面向移动云存储的属性基解密服务中间件[J]. 计算机应用, 2016, 36(7): 1828-1833.
[6]	曹健, 刘琼, 王远. 基于数据流转发的实时数据交换系统设计[J]. 计算机应用, 2016, 36(3): 596-600.
[7]	刘学多, 焦东来, 吉峰, 杨浩. 面向中间件的组态王远程数据采集驱动设计[J]. 计算机应用, 2016, 36(1): 96-100.
[8]	王重楠, 王宗陶, 鲍忠贵, 邢宏伟. 发布/订阅模式测控消息中间件系统设计[J]. 计算机应用, 2015, 35(3): 878-881.
[9]	郑树泉王倩丁志刚. 基于Web服务以物为中心的物联网中间件的研究与设计[J]. 计算机应用, 2013, 33(07): 2022-2025.
[10]	熊忠阳牙漫张玉芳. 基于网页正文结构和特征串的相似网页去重算法[J]. 计算机应用, 2013, 33(02): 554-557.
[11]	陈冰鑫邱保志. 聚类消息中间件构造技术[J]. 计算机应用, 2012, 32(05): 1425-1428.
[12]	宋余庆严振梁成全张勇. 无线嵌入式医疗系统与数据库交互中间件研究[J]. 计算机应用, 2010, 30(8): 2257-2260.
[13]	高德宏张新家陈春雷刘维宇. 发布订阅模式数据交换中间件设计与实现[J]. 计算机应用, 2010, 30(4): 1110-1113.
[14]	陈泉泉王如龙彭昂张锦段智敏. 面向移动设备的可配置RFID中间件设计与实现[J]. 计算机应用, 2010, 30(05): 1321-1323.
[15]	刘海陈启买. 基于角色的数据交换中间件的研究与实现[J]. 计算机应用, 2009, 29(1): 326-327,.

Web全文检索中间件的设计与应用

Design and application of middleware for Web full-text retrieval

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics