计算机应用 ›› 2013, Vol. 33 ›› Issue (02): 558-562.DOI: 10.3724/SP.J.1087.2013.00558
周靖
摘要: 大规模的样本数量及其特征高维性影响着K最近邻(KNN)分类算法的分类性能。为此,提出一种具备降维、修剪机制的特征参数平均互信息和类别区分性的KNN改进算法AMI&CD-KNN。首先使用熵中平均互信息的概念,衡量特征参数体现类别特征信息的准确程度;然后采用特征参数相对类别的优势率及其在数据集中的分布概率描述类别区分性,用于体现特征参数提供类别信息量的大小;最后建立特征参数平均互信息和类别区分性的内在联系,设计样本修剪方法,从而达到在保证分类准确性的前提下,提高分类速度的目的。理论分析与仿真实验表明,与经典KNN及其他具备修剪机制的算法比较,提出的算法具有更高的分类泛化性。
中图分类号: