针对异常检测中异常数据与正常数据的比例严重不平衡导致决策树性能下降的问题,提出了C4.5决策树的三种改进方法——C4.5+δ、均匀分布熵(UDE)和改进分布熵函数(IDEF)。首先,推导了C4.5算法中属性选择准则会倾向于选择偏斜划分的属性;然后,分析了偏斜划分使得异常(少数类)检测精度下降的原因;其次,分别通过引入缓和因子、均匀分布熵或替换分布熵函数改进了C4.5算法的属性选择准则——信息增益率;最后,利用WEKA平台和NSL-KDD数据集对改进的决策树进行验证。实验结果表明,三种改进方法均能提高异常检测精度。其中,相比于C4.5,C4.5+7、UDE和IDEF算法在KDDTest-21数据集上的少数类检测精度(灵敏度)分别提高了3.16、3.02和3.12个百分点,均优于采用Rényi熵和Tsallis熵作为分裂准则的方法。此外,利用三种改进的决策树检测工业控制系统中的异常,不仅可以提高异常的查全率还能减小误报率。