%0 Journal Article %A 陈奕延 %A 李晔 %A 张淑芬 %T 基于密度峰值的混合型数据聚类算法设计 %D 2018 %R 10.11772/j.issn.1001-9081.2017082053 %J 计算机应用 %P 483-490 %V 38 %N 2 %X 针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。 %U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2017082053