%0 Journal Article %A 刘慧婷 %A 沈盛霞 %A 姚晟 %A 赵鹏 %T 不确定数据频繁闭项集挖掘算法 %D 2015 %R 10.11772/j.issn.1001-9081.2015.10.2911 %J 计算机应用 %P 2911-2914 %V 35 %N 10 %X 由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。 %U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2015.10.2911