摘要: 针对一般特征选择算法仅给出了重要特征,没有揭示特征与数据类别之间可解释性映射关系的缺点,提出了一种改进的层次距离基因表达式编程特征选择分类算法。该方法首先在种群初始化时,利用定义的选择概率有导向地使个体头部侧重于函数符号的选择,增加初始种群中有效个体的数量;其次,定义个体的层次邻域,使种群个体在变异时选择其层次邻域内的符号,改变层次变异的盲目无导向性问题;最后,将个体的维度缩减率与分类准确率结合作为个体的适应度值,改变种群单一优化目标的进化模式,平衡两者之间的关系。在7个数据集上进行5-Fold或10-Fold验证,所提算法给出了数据特征及其类别之间简洁明了的函数映射关系。将算法得到的映射函数用于数据分类,与其它算法相比,维度缩减率在Hapatitis,WPBC,Sonar,WDBC数据集上分别提高了9.47%,1.34%,0.17%,1.34%。其平均分类准确率在Hepatitis,Ionosphere,Musk1,WPBC,Heart-Statlog,WDBC数据集上分别提高了1.04%,1.04%,2.31%,2.89%,1.7%,1.41%。实验结果验证了所提算法在特征选择分类问题上的可行性、有效性和优越性。
中图分类号: