• • 下一篇
李昊1,王磊2,孙乐2,武优西1
LI Hao1, WANG Lei2, SUN Le2, WU Youxi1
摘要: 稀有序列模式挖掘旨在发现序列库中不频繁出现的重要模式。然而,现有序列模式方法多采用0或1判别方式,即判断模式是否在序列中出现,忽略模式在序列中的重复性,即用户的感兴趣程度,导致挖掘结果的偏差。为了解决这一问题,探索了一种一次性条件下自适应间隙稀有序列模式挖掘方法,采用一次性条件计算模式在序列中的重复次数,并采用自适应间隙反映序列特征。为了避免传统算法在支持度计算过程中需要对原始数据库进行低效顺序遍历的问题,建立了一个倒排索引结构,该结构存储了每个项目及其原始数据库中出现位置的信息,从而避免了对原始数据库进行冗余遍历问题,提高了支持度计算的效率。在候选模式生成过程中,使用模式连接策略生成候选模式,在此基础上,提出一种剪枝策略,进一步减少候选模式的数量,从而提高了挖掘速度。在5个真实数据集上进行实验,实验结果表明,相较于对比方法,所提方法的运行时间明显更短,从而验证了本文算法的优越性。
中图分类号: