摘要: 无序树常用于半结构化数据建模,对其进行频繁子树挖掘有利于发现隐藏的知识。传统的频繁子树挖掘方法常常输出大规模且带有冗余信息的频繁子树,这样的输出结果会降低后续操作的效率。针对传统方法的不足,本文提出了MCRP(Mining Coverage Pattern)算法用于挖掘覆盖模式,该算法能有效减小输出频繁子树的规模及冗余信息。MCRP算法首先采用宽度孩子数编码对树进行编码,然后通过基于最大前缀编码序列的边扩展方式生成所有的候选子树,最后在频繁子树集和δ^'-覆盖概念的基础上输出覆盖模式集。与传统的挖掘频繁闭树模式和极大频繁树模式的算法相比,该算法能够在保留所有频繁子树信息的情况下输出更少的频繁子树,并且在处理效率上具有一定的优越性。
中图分类号: