一种挖掘频繁闭项集的深度优先算法

计算机应用 ›› 2010, Vol. 30 ›› Issue (3): 806-809.

一种挖掘频繁闭项集的深度优先算法

张炘¹,廖频²,郭波³

1. 南昌大学科学技术学院
2.
3. 南昌大学科学技术学院

收稿日期:2009-09-15 修回日期:2009-11-26 发布日期:2010-03-14 出版日期:2010-03-01
通讯作者: 张炘
基金资助:
江西省自然科学基金项目;江西省自然科学基金项目

Depth-first search algorithm for mining frequent closed itemsets

Received:2009-09-15 Revised:2009-11-26 Online:2010-03-14 Published:2010-03-01
Supported by:
the foundation of Jiangxi Natural Science No.2008GZS0033;the foundation of Jiangxi Natural Science No.2008GZS0033

摘要/Abstract

摘要： 频繁闭项集挖掘是许多数据挖掘应用中的重要问题。为减少候选项集数量和降低支持度计算的开销，提出一种新的深度优先搜索频繁闭项集(DFFCI)的算法。将改进的压缩频繁模式树(CFP-Tree)表示的数据集信息投影到划分矩阵，使用二进制向量逻辑运算计算支持度，简化了计算过程，减少了时间开销；采用基于支持度预计算技术的全局2-项剪枝和局部扩展剪枝，有效削减了搜索空间。实验结果表明该算法的性能优于其他主流深度优先算法。

关键词: 数据挖掘, 频繁闭项集, 压缩频繁模式树, 划分矩阵

Abstract: Mining frequent closed itemsets is a fundamental and important issue in many data mining applications. A new depth-first search algorithm for mining frequent closed itemsets called depth-first search for frequent closed itemsets (DFFCI) was proposed, which could reduce the number of candidate itemsets and the cost of support counting. DFFCI projected the dataset information stored by the improved Compressed Frequent Pattern tree (CFP-Tree) into the partition matrix, and improved the efficiency of support counting by using binary vector logic operation. Global 2-itemset pruning based on support pre-counting and local extension pruning were used to prune the search space effectively. The experimental results show that DFFCI outperforms other depth-first search algorithms.

Key words: data mining, frequent closed itemset, Compressed Frequent Pattern Tree (CFP-Tree), partition matrix

张炘廖频郭波. 一种挖掘频繁闭项集的深度优先算法[J]. 计算机应用, 2010, 30(3): 806-809.

[1]	刘世泽, 秦艳君, 王晨星, 苏琳, 柯其学, 罗海勇, 孙艺, 王宝会. 基于深度残差长短记忆网络交通流量预测算法[J]. 计算机应用, 2021, 41(6): 1566-1572.
[2]	李旭娟, 皮建勇, 黄飞翔, 贾海朋. 基于自生成深度神经网络的4D航迹预测[J]. 计算机应用, 2021, 41(5): 1492-1499.
[3]	陈凯, 于彦伟, 赵金东, 宋鹏. 基于城市交通监控大数据的工作位置推理方法[J]. 计算机应用, 2021, 41(1): 177-184.
[4]	龙洋洋, 陈玉玲, 辛阳, 豆慧. 基于联盟区块链的安全能源交易方案[J]. 计算机应用, 2020, 40(6): 1668-1673.
[5]	杜旭升, 于炯, 叶乐乐, 陈嘉颖. 基于图上随机游走的离群点检测算法[J]. 计算机应用, 2020, 40(5): 1322-1328.
[6]	徐周波, 杨健, 刘华东, 黄文文. 基于XGBoost与拓扑结构信息的蛋白质复合物识别算法[J]. 计算机应用, 2020, 40(5): 1510-1514.
[7]	马董, 陈红梅, 王丽珍, 肖清. 空间亚频繁co-location模式的主导特征挖掘[J]. 计算机应用, 2020, 40(2): 465-472.
[8]	陈曦, 梅广, 张金金, 许维胜. 融合知识图谱和协同过滤的学生成绩预测方法[J]. 计算机应用, 2020, 40(2): 595-601.
[9]	李莎莎, 梁冬阳, 余杰, 纪斌, 马俊, 谭郁松, 吴庆波. 基于师门关系的研究团队挖掘算法[J]. 计算机应用, 2020, 40(11): 3198-3202.
[10]	孙鹤立, 张优优, 杨洲, 何亮, 贾晓琳. 基于时间线段树的城市可达区域搜索[J]. 计算机应用, 2020, 40(10): 2936-2941.
[11]	李博, 张晓, 颜靖艺, 李可威, 李恒, 凌玉龙, 张勇. 基于值差度量和聚类优化的K最近邻算法在银行客户行为预测中的应用[J]. 计算机应用, 2019, 39(9): 2784-2788.
[12]	纪丽娜, 陈凯, 于彦伟, 宋鹏, 王淑莹, 王成锐. 基于城市交通大数据的车辆类别挖掘及应用分析[J]. 计算机应用, 2019, 39(5): 1343-1350.
[13]	叶志宇, 冯爱民, 高航. 基于深度LightGBM集成学习模型的谷歌商店顾客购买力预测[J]. 计算机应用, 2019, 39(12): 3434-3439.
[14]	袁钟, 冯山. 基于邻域值差异度量的离群点检测算法[J]. 计算机应用, 2018, 38(7): 1905-1909.
[15]	陈辉, 蒋圭峰, 姜桂圆, 武继刚. 基于海量公交轨迹数据挖掘的地图匹配算法[J]. 计算机应用, 2018, 38(7): 1923-1928.