%0 Journal Article
%A 陈奕延
%A 李晔
%A 张淑芬
%T 基于密度峰值的混合型数据聚类算法设计
%D 2018
%R 10.11772/j.issn.1001-9081.2017082053
%J 计算机应用
%P 483-490
%V 38
%N 2
%X 针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。
%U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2017082053