%0 Journal Article %A 王俊红 %A 闫家荣 %T 基于欠采样和代价敏感的不平衡数据分类算法 %D 2021 %R 10.11772/j.issn.1001-9081.2020060878 %J 计算机应用 %P 48-52 %V 41 %N 1 %X 针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与少数类样本数量相当的多数类样本;之后将采样后的多数类样本权重归一化并与少数类样本组成临时训练集训练基分类器;其次在权重更新阶段,赋予少数类更高的误分代价,使得少数类样本权重增加更快,并且多数类样本权重增加更慢。在10组UCI数据集上,将USCBoost与AdaBoost、AdaCost、RUSBoost进行对比实验。实验结果表明USCBoost在F1-measure和G-mean准则下分别在6组和9组数据集获得了最高的评价指标。可见所提算法在不平衡数据上具有更好的分类性能。 %U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2020060878