基于密度约束的对比模式挖掘被引量：2

Distinguishing Patterns Mining Based on Density Constraint

下载PDF

导出

摘要序列模式挖掘是从序列数据中发现用户感兴趣的模式。对比模式挖掘是其中的一类挖掘方法,其特点是在两类或多类别的序列库中找到特征信息,在实际的生活和生产中应用十分广泛。随着数据规模的不断增加,算法的挖掘效率显得尤为重要,但是当前对比模式挖掘仍存在挖掘速度太慢的问题。为了快速挖掘满足密度约束和间隙约束的对比模式,文中提出了一种近似求解算法ADMD(Approximately Distinguishing Patterns Mining Based on Density Constraint),该算法在模式的挖掘过程中允许存在小部分的模式丢失,从而换取挖掘速度的大幅提升。该算法采用网树的特殊结构来计算模式的支持数;采用模式拼接的方式来生成候选模式;采用预判式剪枝策略对模式进行剪枝,以避免大量冗余模式的生成。但由于在剪枝过程中可能会剪掉一部分非冗余模式,造成挖掘结果并非完备,因此该算法是一种近似求解算法。在ADMD算法的基础上,通过在剪枝策略中设定参数k的方式来得到ADMD-k算法,该算法可以通过设定k的取值来调整剪枝程度,从而在挖掘效率和准确率方面取得平衡。最后在真实的蛋白质数据集上将所提算法与其他算法从挖掘的对比模式数量和挖掘速度方面进行对比实验。实验结果表明,在k=1.5的情况下,所提算法仅用不到原来13%的时间,就可以挖掘到99%以上的模式,具有近似度高、速度快的特点。 Sequential patterns mining is to find interest patterns from sequential data.Distinguishing patterns mining is one of the mining methods,which is characterized by finding feature information in two or more categories of sequence databases.It is widely used in real life and production.With the increasing size of data,the efficiency of algorithm mi-ning is particularly important.However,the mining speed of distinguishing patterns mining is too slow at present.In order to quickly mine the distinguishing patterns that satisfy density constraint and gap constraint,this paper proposed an approximate solution algorithm ADMD(Approximately Distinguishing Patterns Mining Based on Density Constraint).This algorithm allows a small number of patterns to be lost in the process of patterns mining in exchange for a large increase in mining speed.In this algorithm,the support of the pattern is calculated by the special structure of the Net tree,the candidate patterns are generated by patterns growth approach,and the patterns are pruned by the prejudgment pruning strategy to avoid the generation of a large number of redundant patterns.However,some non-redundant patterns may be pruned in the pruning process,resulting in incomplete mining results,so the algorithm is an approximate algorithm.Based on ADMD,the ADMD-k algorithm was proposed by setting the parameter k in the pruning strategy.The algorithm can adjust the pruning degree by setting k,to achieve a balance between mining efficiency and accuracy.Finally,in real protein datasets,the number of mining patterns and mining speed are compared with other algorithms.The experimental results verify that when k is 1.5,the proposed algorithm costs no more than 13%of the time,but can find up more than 99%of patterns.Therefore,the proposed algorithm is very effective with high approximation rate and high speed.

作者柴欣高一寒武优西刘靖宇 CHAI Xin;GAO Yi-han;WU You-xi;LIU Jing-yu(School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China;Hebei Province Key Laboratory of Big Data Calculation,Tianjin 300401,China)

机构地区河北工业大学人工智能与数据科学学院河北省大数据重点实验室

出处《计算机科学》 CSCD 北大核心 2019年第12期26-30,共5页 Computer Science

基金国家自然科学基金项目(61702157,61571180)资助

关键词对比模式挖掘速度网树密度约束剪枝策略 Distinguishing patterns Mining speed Net tree Density constraint Pruning strategy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1魏芹双,武优西,刘靖宇,朱怀忠.基于密度约束和间隙约束的对比模式挖掘[J].计算机科学,2018,45(4):252-256. 被引量：1
2毛国君,胡殿军,谢松燕.基于分布式数据流的大数据分类模型和算法[J].计算机学报,2017,40(1):161-175. 被引量：54
3王慧锋,段磊,左劼,王文韬,李钟麒,唐常杰.免预设间隔约束的对比序列模式高效挖掘[J].计算机学报,2016,39(10):1979-1991. 被引量：15
4王虎,丁世飞.序列模式挖掘研究与发展[J].计算机科学,2009,36(12):14-17. 被引量：33
5杨皓,段磊,胡斌,邓松,王文韬,秦攀.带间隔约束的Top-k对比序列模式挖掘[J].软件学报,2015,26(11):2994-3009. 被引量：22

二级参考文献88

1吕静,王晓峰,Osei Adjei,Fiaz Hussain.序列模式图及其构造算法[J].计算机学报,2004,27(6):782-788. 被引量：16
2邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
3陆介平,刘月波,倪巍伟,陈耿,孙志挥.基于投影数据库的序列模式挖掘增量式更新算法[J].东南大学学报（自然科学版）,2006,36(3):457-462. 被引量：5
4马传香,张凌.序列模式挖掘算法的分析与比较[J].湖北大学学报（自然科学版）,2006,28(2):138-143. 被引量：1
5张坤,朱扬勇.无重复投影数据库扫描的序列模式挖掘算法[J].计算机研究与发展,2007,44(1):126-132. 被引量：17
6Agrawal R, Srikant R. Mining .sequential pattern[C]//Proc, of the 11th International Conference on Data Engineering. Taipei, 1995.
7Srikant R, Agrawal R. Mining sequential patterns : Generalizations and performance improvements[C]//Proc, of the 5th International Conference on Extending Database Technology. Avignon,1996.
8Zhang M,Kao B, Yip C, et al. A GSP-based eficient algorithm for mining fequent sequences [C]//Proc. of International Conference on Artificial Intelligence. Nevada, 2001.
9Masseglia F,Cathala F, Poncelet P. The PSP approach for mining sequential patterns[C]//Proc, of the 2nd European. Symposlum on Principles of Data Mining and Knowledge Discovery. Berlin: Springer-Verlag, 1510 : 176-184.
10Zaki M J. SPADE:An eficient algorithm for mining frequent sequences[J]. Machine Learning, 2001,41 (1):31-60.

共引文献112

1赵静,李俊,龙春,万巍,杨帆.基于频繁项集挖掘的长周期异常行为检测[J].计算机应用研究,2020,37(S02):221-223. 被引量：2
2许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
3胡建兵.城市轨道交通线网大数据平台方案研究[J].砖瓦世界,2018,0(13):247-247.
4郑金彬.一种基于m元树结构的序列模式挖掘[J].赤峰学院学报（自然科学版）,2010,26(10):31-34.
5夏英,孙冲武.基于时空序列模式匹配的兴趣点推荐方法[J].重庆邮电大学学报（自然科学版）,2011,23(3):368-373. 被引量：3
6唐雁,吴绍春.基于多元索引后继树的序列模式挖掘方法[J].铁路计算机应用,2011,20(5):55-58.
7刘亮,谢舒婷,李顺东.一种为保密挖掘预处理数据的新方法[J].计算机科学,2011,38(7):165-169. 被引量：1
8王红霞,陈俊杰,白炜,王志伟.二进制粒在旱涝序列相似性匹配中的应用[J].太原理工大学学报,2011,42(4):325-328.
9张令杰,徐维祥.基于时态约束的关联规则挖掘算法[J].计算机工程,2012,38(5):50-52. 被引量：13
10李亮.序列模式挖掘在入侵检测中的应用研究[J].计算机工程与科学,2012,34(11):68-71. 被引量：2

同被引文献6

1Youxi WU,Cong SHEN,He JIANG,Xindong WU.Strict pattern matching under non-overlapping condition[J].Science China(Information Sciences),2017,60(1):1-16. 被引量：4
2蒋华,季丰,王慧娇,王鑫,罗一迪.改进Kmeans算法的海洋数据异常检测[J].计算机工程与设计,2018,39(10):3132-3136. 被引量：27
3武优西,王振坤,史巧硕,刘靖宇.无重叠条件下的Top-k序列挖掘[J].小型微型计算机系统,2019,40(10):2170-2174. 被引量：2
4江玉洁,崔莉莉,石林祥.基于OBE考核方式的程序设计基础课程改革实践与探索[J].计算机教育,2021(8):116-120. 被引量：14
5吴军,欧阳艾嘉,张琳.基于影响度的统计显著序列模式挖掘算法[J].计算机应用,2022,42(9):2713-2721. 被引量：1
6敖孟飞,石鸿雁.海量数据下的并行频繁项集挖掘算法[J].统计与决策,2022(18):48-53. 被引量：4

引证文献2

1张帅.频繁模式压缩综述[J].科技风,2020(20):79-79.
2吴军,魏丹丹.面向课程教学数据的差异模式挖掘与讨论[J].计算机应用文摘,2023,39(7):115-117.

1秦林芳.抗战后期解放区英模类报告文学的对比模式与意义[J].中国文学研究,2019,0(4):137-142. 被引量：1
2吴东,杨坡.浅析互联网金融中消费者权益保护的现状与不足[J].区域治理,2018,0(37):152-153.
3张会广.基于序列模式挖掘的公交车辆维修保养数据模型研究[J].中国设备工程,2019,0(20):59-61.
4缪丽伟.小红书、知乎如何快速挖掘种子客户[J].销售与管理,2019,0(13):56-59.
5范展源,郑昕.基于智能小车的模糊控制和PID控制的结合[J].科技风,2019,0(34):23-23. 被引量：5
6周长邦.建筑材料质量检测问题及应对措施探析[J].建筑与装饰,2019,0(21):194-195.
7王利军,唐立.基于有序FP-tree结构和二维表的最大频繁模式挖掘算法[J].韶关学院学报,2019,40(9):21-25.
8周秀兰.让德育在数学学科中绽放花朵——浅谈我的数学教学德育观[J].课堂内外（教师版）（中等教育）,2019,0(9):63-64.
9王淳艺.犹豫中遗落的懵懂爱情[J].青春期健康,2019,0(22):22-23.
10王云,李丛.基于改进关联规则算法的警情数据分析[J].计算机与现代化,2019,0(12):1-5. 被引量：5

计算机科学

2019年第12期

浏览历史

内容加载中请稍等...

基于密度约束的对比模式挖掘被引量：2

参考文献5

二级参考文献88

共引文献112

同被引文献6

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于密度约束的对比模式挖掘 被引量：2

参考文献5

二级参考文献88

共引文献112

同被引文献6

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于密度约束的对比模式挖掘被引量：2