Journal of Computer Applications ›› 2005, Vol. 25 ›› Issue (07): 1713-1715.DOI: 10.3724/SP.J.1087.2005.01713

• Typical applications • Previous Articles     Next Articles

Automatic detection of online duplication documents and its application in enterprise data warehouse

BAI Guang-hui1,2,LIAN Hao2,LIU Yue3,CHENG Xue-qi3   

  1. 1. China Netcom Group Labs, Beijing 100036; 2. Graduate School, Chinese Academy of Sciences; 3. Institute of Computing Technology, Chinese Academy of Sciences
  • Received:2004-12-24 Revised:2005-03-11 Online:2005-07-01 Published:2005-07-01

网页查重技术在企业数据仓库中的应用

白广慧1,2,连浩2,刘悦3,程学旗3   

  1. 1.中国网通集团 研究院,北京100036; 2.中国科学院 研究生院,北京 100039;
    3.中国科学院 计算技术研究所,北京100080
  • 作者简介:白广慧(1976-),女(回),山东德州人,工程师,主要研究方向:计算机及应用、网络安全;连浩(1980-),女,湖北武汉人,硕士研究生,主要研究方向:中文处理、网络安全;刘悦(1971-),女,山东泰安人,博士,主要研究方向:P2P网络、Web搜索引擎;程学旗(1971-),男,安徽安庆人,研究员,主要研究方向:网络与信息安全、大规模内容计算、P2P网络、信息网格.

Abstract:

Three general methods to detect duplicate Web pages were introduced. The similarity search technique was used  to detect duplicate information automatically in enterprise data warehouse. The results indicate that the similarity search method is fit for intelligent pretreatment of enterprise intelligence data.

Key words: data warehouse, online duplicate documents detection, Support Vector Machine (SVM, Vector Space Model(VSM)

摘要:

介绍了处理网页排重的三类通用方法,并介绍了在企业数据仓库系统中,通过利用相似性检索技术实现情报资料自动排重的应用。通过对测试结果的评估表明,这种基于相似性检索技术的自动排重的方法能够达到较好的效果,实现了企业情报资料智能化预处理的应用。

关键词: 数据仓库, 网页查重, 支持向量机, 向量空间模型

CLC Number: