Toggle navigation
首页
期刊介绍
期刊简介
历史沿革
收录情况
获奖情况
引用指标
编委会
期刊在线
文章推荐
过刊浏览
专辑专刊
下载排行
阅读排行
投稿指南
组稿方向
投稿须知
论文模板
常见问题
署名变更申请
单位变更申请
版权转让协议
中图分类号
引言书写要求
参考文献著录格式
插图与表格规范
英文摘要书写要求
收费标准
学术诚信
联系我们
编辑部联系方式
位置示意图
期刊订阅办法
广告合作
English
期刊
出版年
关键词
结果中检索
(((张亚平[Author]) AND 1[Journal]) AND year[Order])
AND
OR
NOT
文题
作者
作者单位
关键词
摘要
分类号
DOI
Please wait a minute...
选择:
导出引用
EndNote
Ris
BibTeX
显示/隐藏图片
Select
1.
基于傅立叶变换的网页去重算法
陈锦言 孙济洲 张亚平
计算机应用
摘要
(
1649
)
PDF
(495KB)(
1030
)
可视化
收藏
去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行KL展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断。实验结果表明该方法可对网页实现较好的去重。
相关文章
|
多维度评价