%0 Journal Article %A 刘方爱 %A 邢淑凝 %A 赵晓晖 %T 基于聚类划分的高效用模式并行挖掘算法 %D 2016 %R 10.11772/j.issn.1001-9081.2016.08.2202 %J 计算机应用 %P 2202-2206 %V 36 %N 8 %X 针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库中相似的事务划分为若干数据子集;然后,把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树;最后,把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘,以减少各个节点交叉操作的次数。通过实验结果和理论分析表明:PUCP算法在不影响挖掘结果可靠性的前提下,与主流串行高效用模式挖掘——效用模式增长挖掘算法(UP-Growth)和现有的并行高效用模式挖掘算法PHUI-Growth相比,挖掘效率分别提高了61.2%和16.6%;并且使用了Hadoop计算平台,能有效缓解挖掘大规模数据的内存压力。 %U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2016.08.2202