计算机应用 ›› 2012, Vol. 32 ›› Issue (06): 1662-1665.DOI: 10.3724/SP.J.1087.2012.01662

• 人工智能 • 上一篇    下一篇

基于编辑距离的Web数据挖掘

黄亮,赵泽茂,梁兴开   

  1. 杭州电子科技大学 通信工程学院,杭州 310018
  • 收稿日期:2011-11-29 修回日期:2012-02-14 发布日期:2012-06-04 出版日期:2012-06-01
  • 通讯作者: 黄亮
  • 作者简介:黄亮(1987-),男,江西吉安人,硕士研究生,主要研究方向:Web安全、数据挖掘;〓赵泽茂(1965-),男,四川蓬溪人,教授,主要研究方向:信息安全;〓梁兴开(1986-),男,广西武鸣人,硕士研究生,主要研究方向:信息安全。
  • 基金资助:
    上海市信息安全综合管理技术研究重点实验室开放课题资助项目

Web data extraction based on edit distance

HUANG Liang,ZHAO Ze-mao,LIANG Xing-kai   

  1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou Zhejiang 310018,China
  • Received:2011-11-29 Revised:2012-02-14 Online:2012-06-04 Published:2012-06-01
  • Contact: HUANG Liang

摘要: Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的。

关键词: Web数据挖掘, 编辑距离, 字符串编辑距离, 树编辑距离

Abstract: Div + CSS is popular in Web page layout. In this layout, a lot of data records of Web pages gather in a layer in the form of repetition structure. To mine data from Web well, this paper proposed a new kind of Web data mining algorithm, computed tree edit distance through string edit distance, improved string edit distance algorithm,used string edit distance to access similarity between one tree and another, and then found repeated patterns in Web pages and mined data. By testing pages of different features of repeated patterns, this algorithm is proved to extract Web data successfully with the feature whether the root and upper layer nodes are the same or the lowest layer nodes are the same.

Key words: Web data mining, Edit Distance, String Edit Distance, Tree Edit Distance

中图分类号: