摘要:
针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP (Clustering by fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后按照CFSFDP算法的方法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题。对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,所提算法提高了聚类的精度。
中图分类号: