基于改进的FP-tree的频繁模式挖掘算法

计算机应用 ›› 2011, Vol. 31 ›› Issue (01): 101-103.

基于改进的FP-tree的频繁模式挖掘算法

李也白¹,唐辉²,贺玉明³

1. 北方工业大学计算机应用技术研究所
2. 北京市北方工业大学
3. 北方工业大学

收稿日期:2010-06-18 修回日期:2010-07-26 发布日期:2011-01-12 出版日期:2011-01-01
通讯作者: 贺玉明

Frequent pattern mining algorithm based on Improved FP-tree

Received:2010-06-18 Revised:2010-07-26 Online:2011-01-12 Published:2011-01-01

摘要/Abstract

摘要： FP-growth算法是一种基于FP-tree数据结构的高效的频繁模式挖掘算法，它不产生候选集。构造频繁模式树FP-tree需扫描数据库两次，在第二遍扫描中还扫描了那些仅包含了非频繁项的事务，针对此问题，在深入分析了FP-tree特性的基础上, 改进了FP-tree构造过程，同时用一种基于Hash表的辅助存储结构，节省了项目查找时间，提高了挖掘效率。

关键词: 数据挖掘, 关联规则, 频繁模式, FP-growth, FP-tree

Abstract: FP-growth is an efficient frequent pattern mining algorithm based on data structure of FP-tree, which does not generate candidate sets. Constructing frequent pattern tree TP-tree requires to scan data twice, what’s more, transactions which only contain non-frequent items are also scanned during the second scanning. In order to solve this problem, after analyzing particularity of FP-tree deeply, we improve construction process of FP-tree and employ an auxiliary storage structure that bases on hash table, which saves time of searching items and enhances mining efficiency.

Key words: data mining, association rule, frequent pattern, FP-growth, FP-tree

李也白唐辉贺玉明. 基于改进的FP-tree的频繁模式挖掘算法[J]. 计算机应用, 2011, 31(01): 101-103.

[1]	李欢欢, 黄添强, 丁雪梅, 罗海峰, 黄丽清. 基于多尺度时空图卷积网络的交通出行需求预测[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2065-2072.
[2]	董瑶, 付怡雪, 董永峰, 史进, 陈晨. 不完整多视图聚类综述[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1673-1682.
[3]	杨克帅, 武优西, 耿萌, 刘靖宇, 李艳. 一次性条件下top-k高平均效用序列模式挖掘算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 477-484.
[4]	郑浩东, 马华, 谢颖超, 唐文胜. 融合遗忘因素与记忆门的图神经网络知识追踪模型[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2747-2752.
[5]	黄硕, 李艳辉, 曹建秋. 本地化差分隐私下的频繁序列模式挖掘算法PrivSPM[J]. 《计算机应用》唯一官方网站, 2023, 43(7): 2057-2064.
[6]	蒋华, 李星, 王慧娇, 韦静海. 基于数据索引结构的跨级高效用项集挖掘算法[J]. 《计算机应用》唯一官方网站, 2023, 43(7): 2200-2208.
[7]	祁超帅, 何文思, 焦毅, 马英红, 蔡伟, 任素萍. 无人机飞行数据异常检测算法综述[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1833-1841.
[8]	李元江, 权金升, 谭阳奕, 杨田. 基于相似和差异双视角的高维数据属性约简[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1467-1472.
[9]	邵小萌, 张猛. 融合注意力机制的时间卷积知识追踪模型[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 343-348.
[10]	李文全, 毛伊敏, 彭新东. 基于犹豫模糊集的凝聚式层次聚类算法[J]. 《计算机应用》唯一官方网站, 2023, 43(12): 3755-3763.
[11]	李兴佳, 杨秋辉, 洪玫, 潘春霞, 刘瑞航. 基于历史数据和多目标优化的测试用例排序方法[J]. 《计算机应用》唯一官方网站, 2023, 43(1): 221-226.
[12]	吴军, 欧阳艾嘉, 张琳. 基于影响度的统计显著序列模式挖掘算法[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2713-2721.
[13]	余顺坤, 闫泓序. 基于确定性因子的启发式属性值约简模型[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 469-474.
[14]	刘世泽, 秦艳君, 王晨星, 苏琳, 柯其学, 罗海勇, 孙艺, 王宝会. 基于深度残差长短记忆网络交通流量预测算法[J]. 计算机应用, 2021, 41(6): 1566-1572.
[15]	李旭娟, 皮建勇, 黄飞翔, 贾海朋. 基于自生成深度神经网络的4D航迹预测[J]. 计算机应用, 2021, 41(5): 1492-1499.