计算机应用 ›› 2005, Vol. 25 ›› Issue (03): 637-638.DOI: 10.3724/SP.J.1087.2005.0637
贺跃1,郑建军2,朱蕾1
HE Yue1,ZHENG Jian-jun2,ZHU Lei1
摘要:
连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。
中图分类号: