摘要: 在处理不平衡数据分类问题中,过采样方法被认为是一种有效的策略。现有方法大多采用K近邻技术选取采样种子样本,但K近邻参数值的改变会导致多数过采样方法表现出明显的不适定性。最近提出的径向基过采样方法(Radial-Based Oversampling, RBO)能够解决这个问题,但该方法在采样后容易出现大量噪声。基于此,本文提出了一种基于样本势和噪声进化的不平衡数据过采样方法,进一步对采样后的数据集进行迭代进化。其核心步骤是:首先,使用RBO方法通过计算样本势来合成少数类样本并改善原始数据的不平衡。其次,使用自然近邻(Natural Neighbors, NaN)作为错误检测技术检测过采样后数据集中存在的疑似噪声样本。最后,利用改进的差分进化(Differential Evolution, DE)方法对检测出的疑似噪声样本进行迭代进化。相比于传统过采样方法,本文方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在22个基准数据集上,与7种经典采样方法(结合3种不同分类器)进行了大量对比实验。实验结果表明,本文所提方法具有更高的F1和G-mean值,并且在噪声处理方面也优于带有后置过滤器的采样方法,可以更为有效地解决不平衡数据分类问题。此外,统计分析也表明其弗里德曼排名(Fridman Ranking)更高。
中图分类号: