计算机应用 ›› 2005, Vol. 25 ›› Issue (07): 1580-1583.

• 数据库技术 • 上一篇    下一篇

一个基于事务分析的Web Robot检测算法

郭伟刚1,2,鞠时光2   

  1. 1.佛山科学技术学院 信息与教育技术中心,广东 佛山 528000;
    2.江苏大学 计算机科学与通信工程学院,江苏 镇江 212013
  • 收稿日期:2005-01-04 发布日期:2011-04-22 出版日期:2005-07-01
  • 作者简介:郭伟刚(1966-),男,江苏江阴人,副教授,主要研究方向:数据挖掘、计算机图形学、计算机在教育中的应用;鞠时光(1955-),男,江苏南通人,教授,博士生导师,主要研究方向:数据库、可视化语言、信息安全

Web robot detection algorithm based on episode analysis

GUO Wei-gang1,2, JU Shi-guang2   

  1. 1. Information and Educational Technology Center,  Foshan University; 2. School of Computer Science and Telecommunicaiton Engineering,  Jiangsu University
  • Received:2005-01-04 Online:2011-04-22 Published:2005-07-01

摘要:

分析了网络机器人(Web Robot)的访问行为特点,发现Robot的访问序列一般不会形成具有链接关系的路径。在定义了用户事务的概念的基础上,提出了一个基于事务分析的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥标准的Robot。

关键词: 搜索引擎;网络机器人;用户事务;检测;Web日志

Abstract:

After analyzing the navigational patterns of Web robots, the feature was found that the access sequence of robots usually didnt satisfy the hyperlink relations. The concept of episode was defined and a new algorithm based on episode analysis was proposed. The experiments show that the new algorithm can detect the unknown robots and unfriendly robots who do not obey the standard for robot exclusion.

Key words: search engine, Web robot, user episode, detection, Web log