计算机应用 ›› 2011, Vol. 31 ›› Issue (05): 1351-1354.DOI: 10.3724/SP.J.1087.2011.01351
王妍,宋宝燕,张佳旸,张洪梅,李晓光
WANG Yan, SONG Bao-yan, ZHANG Jia-yang, ZHANG Hong-mei, LI Xiao-guang
摘要: 通过对现有查询接口的识别方法进行的深入研究,针对计算、维护复杂以及匹配歧义性等问题,提出一种基于标签编码的Deep Web查询接口识别方法。该方法根据查询接口排列的方向性和不规则性进行标签编码并分组,然后以每一个标签组作为一个独立单位进行特征信息识别,提出了简单属性、复合属性的识别方法以及孤立文本的处理方法。通过对标签下标的约束确定与元素匹配的文本,大大减少了文本与元素匹配中需要考虑的文本数量,避免了由大量启发式算法引发的匹配歧义性问题;通过两次聚类有效解决了接口层次嵌套问题。