摘要: 网页欺诈给搜索引擎和互联网安全造成了破坏性影响。欺诈网页检测技术的研究重要且广泛,集中于提取新特征和改进分类算法。而检测中使用的网页基本特征高维且冗余,这会使分类器“过载”,影响欺诈网页检测效率。高效的特征降维是必要的,提出一个基于信息增益和遗传算法的改进特征选择算法。考虑到算法具有一定的随机性,增加实验迭代次数,产生最佳最小的特征集合。采用贝叶斯网络和随机森林分类算法进行对比实验。实验验证了最佳最小特征集合的使用使得检测时间大幅缩短,而检测结果可以近似达到甚至高于使用原高维特征集合。表明了改进的特征选择算法可以有效降低特征维度,减小分类的计算代价,同时保证检测结果的鲁棒性。
中图分类号: