优选特征高效打击网页欺诈

• •

优选特征高效打击网页欺诈

王嘉卿¹,朱焱²,³,陈同孝⁴,张真诚⁵

1. 四川省成都市郫县犀浦镇西南交通大学
2. 西南交通大学信息科学与技术学院，成都 610031；
3. 云计算与智能技术四川省高校重点实验室，成都 610031
4. 台中科技大学
5. 逢甲大学资讯工程系

收稿日期:2017-06-26 修回日期:2017-08-12 发布日期:2017-08-12
通讯作者: 王嘉卿

Optimum Features Selection for Beating Web Spam Efficiently

Received:2017-06-26 Revised:2017-08-12 Online:2017-08-12
Contact: Jia-Qing WANG

摘要/Abstract

摘要： 网页欺诈给搜索引擎和互联网安全造成了破坏性影响。欺诈网页检测技术的研究重要且广泛，集中于提取新特征和改进分类算法。而检测中使用的网页基本特征高维且冗余，这会使分类器“过载”，影响欺诈网页检测效率。高效的特征降维是必要的，提出一个基于信息增益和遗传算法的改进特征选择算法。考虑到算法具有一定的随机性，增加实验迭代次数，产生最佳最小的特征集合。采用贝叶斯网络和随机森林分类算法进行对比实验。实验验证了最佳最小特征集合的使用使得检测时间大幅缩短，而检测结果可以近似达到甚至高于使用原高维特征集合。表明了改进的特征选择算法可以有效降低特征维度，减小分类的计算代价，同时保证检测结果的鲁棒性。

关键词: 欺诈网页检测, 特征选择, 遗传算法, 信息增益, 最佳最小特征集合

Abstract: Web spam has been destructive to Search Engines and Internet Security. Researches on Web spam detection are popular and essential, which focus on integrating new features and improving classification algorithms. However, basic features of web page typically used in spam detection are high-dimensional and redundant, which cause classifier ‘overhead’ and influence the detection efficiency, feature dimensionality reduction is necessary, proposed an improved feature selection algorithm based on Kullback-Leibler Divergence and Genetic Algorithm (IFSBKGA). Considering that the algorithm has a certain randomness, increased the number of experimental iterations to generate an Optimal Minimum Feature Set (OMFS). Comparative experiments are conducted based on Native Bayes and Random Forest classifiers, and the detection results can still reach or be better than that use hundreds of features, as well as the detection time is dramatically reduced. The experiments verify that IFSBKGA can reduce feature dimension, decrease the classification computational cost, while ensuring detection robustness.

Key words: Web spam detection, feature selection, Genetic Algorithm (GA), Kullback-Leibler Divergence (KLD), the optimal minimum feature set

中图分类号:

TP181

王嘉卿朱焱陈同孝张真诚. 优选特征高效打击网页欺诈[J]. 计算机应用.

[1]	孙林, 刘梦含. 基于自适应布谷鸟优化特征选择的K-means聚类[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 831-841.
[2]	徐大鹏, 侯新民. 基于网络结构设计的图神经网络特征选择方法[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 663-670.
[3]	孟圣洁, 于万钧, 陈颖. 最大相关和最大差异的高维数据特征选择算法[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 767-771.
[4]	佘维, 李阳, 钟李红, 孔德锋, 田钊. 基于改进实数编码遗传算法的神经网络超参数优化[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 671-676.
[5]	何添, 沈宗鑫, 黄倩倩, 黄雁勇. 基于自适应学习的多视图无监督特征选择方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2657-2664.
[6]	梁军, 洪泽泓, 余松森. 基于改进粒子群优化算法和遗传变异的图像分割模型[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1743-1749.
[7]	孙林, 黄金旭, 徐久成. 基于邻域容差互信息和鲸鱼优化算法的非平衡数据特征选择[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1842-1854.
[8]	王彬, 向甜, 吕艺东, 王晓帆. 基于NSGA‑Ⅱ的自适应多尺度特征通道分组优化算法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1401-1408.
[9]	于振华, 刘争气, 刘颖, 郭城. 基于自适应混合粒子群优化的软件缺陷预测特征选择方法[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1206-1213.
[10]	张敏, 韩晓龙. 多目标模糊机会约束规划的低碳多式联运路径优化[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 636-644.
[11]	薛海蓉, 韩晓龙. 基于改进NSGA-Ⅱ的考虑自动引导车充电策略的集成调度[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3848-3855.
[12]	孙林, 马天娇, 薛占熬. 基于Fisher score与模糊邻域熵的多标记特征选择算法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3779-3789.
[13]	邓辅秦, 黄焕钊, 谭朝恩, 付兰慧, 张建民, 林天麟. 结合遗传算法和滚动调度的多机器人任务分配算法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3833-3839.
[14]	徐精诚, 陈学斌, 董燕灵, 杨佳. 融合特征选择的随机森林DDoS攻击检测[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3497-3503.
[15]	马磊, 罗川, 李天瑞, 陈红梅. 基于模糊粗糙集的无监督动态特征选择算法[J]. 《计算机应用》唯一官方网站, 2023, 43(10): 3121-3128.