计算机应用 ›› 2014, Vol. 34 ›› Issue (9): 2612-2616.DOI: 10.11772/j.issn.1001-9081.2014.09.2612
王华东,杨杰,李亚娟
收稿日期:
2014-03-24
修回日期:
2014-05-26
发布日期:
2014-09-30
出版日期:
2014-09-01
通讯作者:
王华东
作者简介:
基金资助:
国家自然科学基金资助项目;河南省教育厅科学技术重点研究项目
WANG Huadong,YANG Jie,LI Yajuan
Received:
2014-03-24
Revised:
2014-05-26
Online:
2014-09-30
Published:
2014-09-01
Contact:
WANG Huadong
摘要:
研究这样一个问题:给定多序列、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于支持度阈值的频繁序列模式,这里要求模式中任意两个相邻元素在序列中的出现都要满足用户自定义的间隔约束,并且模式在序列中的出现要满足one-off条件。在解决该问题上,已有算法M-OneOffMine在计算模式的支持度时,只考虑模式的每个字符在序列中的首次出现,导致计算的模式支持度远小于其真实支持度,以致许多频繁的模式没有被挖掘出来。为此,设计了一个有效的带有间隔约束的多序列模式挖掘算法——MMSP算法:首先,通过采用二维表保存模式的候选位置;然后,根据候选位置采用最左最优的思想选择匹配位置。通过生物DNA序列进行实验,多序列中元素序列数目不变而序列长度变化时,MMSP挖掘出的频繁模式总数是同类算法M-OneOffMine的3.23倍;在元素序列个数变化时,MMSP挖掘出的频繁模式个数平均是M-OneOffMine的4.11倍;这两种情况下MMSP都有更好的时间性能。在模式长度变化时,MMSP挖掘出的频繁模式个数分别平均是M-OneOffMine的2.21倍和MPP的5.24倍。同时还验证了M-OneOffMine挖掘到的模式是MMSP挖掘到的频繁的子集。实验结果表明,MMSP算法不仅可以挖掘到更多的频繁模式,而且时间花费更少,更适合于实际的应用。
中图分类号:
王华东 杨杰 李亚娟. 带有间隔约束的多序列模式挖掘[J]. 计算机应用, 2014, 34(9): 2612-2616.
WANG Huadong YANG Jie LI Yajuan. Mining multiple sequential patterns with gap constraints[J]. Journal of Computer Applications, 2014, 34(9): 2612-2616.
[1]van BELKUM A, SCHERER S, van LEEUWEN W, et al.Variable number of tandem repeats in clinical strains of haemophilus influenza [J]. Infection and Immunity, 1997, 65(12):5017-5027.
[2]AGRAWAL R, SRIKANT R. Mining sequential patterns [C] // ICDE 1995: Proceedings of the Eleventh International Conference on Data Engineering. Piscataway: IEEE, 1995: 3-14.
[3]JI X, BAILEY J, DONG G. Mining minimal distinguishing subsequence patterns with gap constraints [J]. Knowledge and Information Systems, 2007, 11(3): 259-286.
[4]LI C, WANG J. Efficiently mining closed subsequences with gap constraints[C] //SIAM 2008: Proceedings of the 2008 SIAM International Conference on Data Mining. Philadelphia: SIAM, 2008: 313-322.
[5]ZHANG M, KAO B, CHEUNG D, et al.Mining periodic patterns with gap requirement from sequences [C] // SIGMOD 2005: Proceedings of the ACM SIGMOD International Conference on Management of Data. New York: ACM, 2005: 623-633.
[6]ZHU X, WU X. Mining complex patterns across sequences with gap requirements [C] // IJCAI 2007: Proceedings of the International Joint Conference on Artificial Intelligence. Piscataway: IEEE, 2007: 726-735.
[7]CHEN G, WU X, ZHU X, et al.Efficient string matching with wildcards and length constraints [J]. Knowledge and Information Systems, 2006, 10(4): 399-419.
[8]DING B, LO D, HAN J, et al.Efficient mining of closed repetitive gapped subsequences from a sequence database [C] // ICDE 2009: Proceedings of the 25th International Conference on Data Engineering. Piscataway: IEEE, 2009: 1024-1035.
[9]WU X, XIE F, HUANG Y, et al.Mining sequential patterns with wildcards and the one-off condition [J]. Journal of Software, 2013, 24(8): 1804-1815. (吴信东,谢飞,黄咏明,等.带通配符和one-off条件的序列模式挖掘[J].软件学报,2013,24(8):1804-1815.)
[10]MA X, HU X, XIE F, et al.Mining sequential patterns across multiple sequences with gap constraints [J]. Journal of Nanjing University, 2013, 49(2): 226-234. (马晓文,胡学钢,谢飞,等.带通配符的多序列模式挖掘[J]. 南京大学学报,2013,49(2):226-234.)
[11]PEI J, HAN J, MORTAZAVI-ASL B, et al.PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth [C] // ICDE 2001: Proceedings of the 17th International Conference on Data Engineering. Piscataway: IEEE, 2001: 215-224.
[12]ZAKI M. SPADE: an efficient algorithm for mining frequent sequences [J]. Machine Learning, 2001, 42(1): 31-60.
[13]WU X, ZHU X, HE Y, et al.PMBC: pattern mining from biological sequences with wildcard constraints [J]. Computers in Biology and Medicine, 2013, 43(5): 481-492.
[14]WU Y, WU X, JIANG H, et al.A heuristic algorithm for MPMGOOC [J]. Chinese Journal of Computers, 2011, 34(8):1452-1462. (武优西,吴信东,江贺,等.一种求解MPMGOOC问题的启发式算法 [J].计算机学报,2011,34(8):1452-1462.)
[15]GUO D, XIANG T, HU X, et al.Flexible pattern matching with gap-length and on-off conditions [C] // ICTAI 2013: Processing of the 2013 IEEE 25th International Conference on Tools with Artificial Intelligence. Piscataway: IEEE, 2013: 446-453.
[16]NCBI. National Center for Biotechnology Information Home [EB/OL]. [2014-03-12]. http://www.ncbi.nlm.nih.gov. |
[1] | 高威 刘丽华 和斌涛 邓方安. 区块链共识机制与改进算法研究进展[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 翟社平 朱鹏举 杨锐 刘佳一腾. 基于区块链的物联网身份管理系统[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 蔡锦辉, 尹中旭, 宗国笑, 李俊儒. 面向嵌套分支突破的推断与污点分析融合的方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3823-3830. |
[4] | 李博, 黄建强, 黄东强, 王晓英. 基于异构平台的稀疏矩阵向量乘自适应计算优化[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3867-3875. |
[5] | 陈姿芊, 牛科迪, 姚中原, 斯雪明. 适用于物联网的区块链轻量化技术综述[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3688-3698. |
[6] | 高婷婷, 姚中原, 贾淼, 斯雪明. 链上链下一致性保护技术综述[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3658-3668. |
[7] | 贾淼, 姚中原, 祝卫华, 高婷婷, 斯雪明, 邓翔. 零知识证明赋能区块链的进展与展望[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3669-3677. |
[8] | 牛科迪, 李敏, 姚中原, 斯雪明. 面向物联网的区块链共识算法综述[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3678-3687. |
[9] | 杨巍 白璐 宁俊义 董建军 单春海 信俊昌. 异构环境感知的幂律图流划分方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 梁辰 王奕森 魏强 杜江. 基于Transformer-GCN的源代码漏洞检测方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 吴海峰 陶丽青 程玉胜. 集成特征注意力和残差连接的偏标签回归算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 秦学程 刘春颜 李宝 赵蕴龙. 面向工业场景的云边协同数据存储与检索架构[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 涂进兴, 李志雄, 黄建强. 基于GPU对角稀疏矩阵向量乘法的动态划分算法[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3521-3529. |
[14] | 曾蠡, 杨婧如, 黄罡, 景翔, 罗超然. 超图应用方法综述:问题、进展与挑战[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3315-3326. |
[15] | 崔双双 王宏志 朱加昊 吴昊. 面向低能耗高性能的分类器两阶段数据选择方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||