计算机应用 ›› 2012, Vol. 32 ›› Issue (08): 2360-2368.DOI: 10.3724/SP.J.1087.2012.02360

• 典型应用 • 上一篇    下一篇

面向导航型网页关键词自动抽取的视觉模型与算法

彭浩1,蔡美玲1,2,陈继锋1,刘炽3,余炳锐1   

  1. 1. 湖南涉外经济学院 计算机科学与技术学院,长沙 410205
    2. 中南大学 信息科学与工程学院,长沙 410083
    3. 中国电力出版社 用电技术出版中心,北京 100005
  • 收稿日期:2011-11-11 修回日期:2012-01-31 发布日期:2012-08-28 出版日期:2012-08-01
  • 通讯作者: 彭浩
  • 作者简介:彭浩(1978-),男,湖南长沙人,讲师,硕士,主要研究方向:Web信息获取与处理、实时调度;
    蔡美玲(1982-),女,湖南长沙人,讲师,博士研究生,主要研究方向:网络计算、智能信息处理、图形图像信息处理;
    陈继锋(1966-),男,湖南浏阳人,教授,博士,主要研究方向:软件测试自动化;
    刘炽(1979-),男,湖南沅陵人,工程师,硕士研究生,主要研究方向:软件工程、嵌入式系统;
    余炳锐(1988-),男,湖南怀化人,主要研究方向:Web信息获取与处理。
  • 基金资助:
    国家自然科学基金资助项目(60803024);湖南省自然科学基金资助项目(10JJ6092);湖南省大学生研究性学习和创新性实验计划项目(湘教通[2011]272号,编号:393)

Visual representation model and automatic keywords extraction algorithm for hub Web pages

  1. 1. College of Computer Science and Technology, Hunan International Economics University, Changsha Hunan 410205,China
    2. School of Information Science and Engineering, Central South University, Changsha Hunan 410083, China
    3.
  • Received:2011-11-11 Revised:2012-01-31 Online:2012-08-28 Published:2012-08-01
  • Contact: PENG Hao

摘要: 导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。

关键词: 区域合并, 视觉量化, 网页表示模型, 关键词自动抽取

Abstract: It is very hard to exactly extract keywords from hub Web pages because of its topic noise. To resolve this problem, a new sub Web page representation model and its automatic keywords extraction algorithm were proposed in this paper. At first, the new model segmented Web page into some blocks by using the block composition algorithm. Secondly, according to the visual recognition method of humanity, the new model computed the visual measurement of these blocks. At the same time, the transmission rule of visual measurement made blocks special where keywords were contained more specially. The automatic keywords extraction algorithm could exactly find these keywords in the most special blocks. The experimental results show that the proposed algorithm has bumped up by 20.9% on average in accuracy compared with keywords extraction algorithm based on DocView model.

Key words: block composition, visual characteristic measurement, Web page representation model, automatic keywords extraction

中图分类号: