%0 Journal Article %A 龚康莉 %A 张雪萍 %A 赵广才 %T 基于MapReduce的K-Medoids并行算法 %D 2013 %R 10.3724/SP.J.1087.2013.01023 %J 计算机应用 %P 1023-1025 %V 33 %N 04 %X 为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想。Map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;Reduce函数部分的主要任务是根据Map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次MapReduce过程使用。实验结果表明:运行在Hadoop集群上的基于MapReduce的K-Medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性。 %U http://www.joca.cn/CN/10.3724/SP.J.1087.2013.01023