并行动态位向量频繁闭合序列模式挖掘算法被引量：2

A parallel dynamic bit vector based frequent closed sequence pattern mining algorithm

下载PDF

导出

摘要针对在时间和空间上都具有高计算成本的长序列数据库,一个更有效和更紧凑且可以完全提取信息的挖掘模式是当前的研究热点。提出一种并行动态位向量频繁闭合序列模式的挖掘算法(PDBVFCSP),该算法采用多核处理器架构和DBV数据结构相结合的方式,有效加快了序列数据库的处理速度,并对搜索空间进行划分,尽早执行预处理序列的闭合检查,减少了所需的存储空间和挖掘频繁闭合序列模式的执行时间,克服了现有并行挖掘算法通信开销、同步和数据复制等问题。利用重新分配工作的动态负载平衡机制,解决处理器之间的负载均衡问题,最大限度地减少了CPU空闲时间。对DBV-VDF算法和PDBV-FCSP(2-4核)算法进行仿真比较,结果表明,PDBV-FCSP算法在运行时间、内存使用和可伸缩性等方面都有较优的性能提升,且当内核数增加时,性能更优。 For long sequence databases,which have high computational costs both in time and space,a mining model that is more efficient and compact and can extract information completely is a current research hotspot.We propose a parallel dynamic bit vector based frequent closed sequence pattern mining algorithm(PDBV-FCSP),which combines the multi-core processor architecture with the DBV data structure to effectively speed up the processing speed of the sequence database.The search space is divided,and the closed check of the pre-processing sequence is executed as early as possible,which reduces the required storage space and the execution time of mining the frequent closed sequence mode,and overcomes the problems of communication overhead,synchronization and data replication of the existing parallel mining algorithms.The dynamic load balancing mechanism for job redistribution is used to solve the load balancing problem of workloads among processors,thus minimizing the idle CPU time.Simulation results show that,compared with the DBV-VDF algorithm,the PDBV-FCSP algorithm has better performance in terms of running time,memory usage and scalability.And when the core number increases,the performance is better.

作者陈倩刘云高钰莹 CHEN Qian;LIU Yun;GAO Yu-ying(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院

出处《计算机工程与科学》 CSCD 北大核心 2018年第10期1717-1725,共9页 Computer Engineering & Science

基金国家自然科学基金(61262040)

关键词数据挖掘闭合序列模式动态位向量多核处理器 PDBV-FCSP算法 data mining closed-sequence mode dynamic bit vector multi-core processor PDBV-FCSP algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1石杰.一种快速频繁模式挖掘算法[J].烟台大学学报（自然科学与工程版）,2015,28(2):113-118. 被引量：5
2刘卫明,蒯海龙,陈志刚,毛伊敏.基于有序树的不确定数据最大频繁项挖掘算法[J].计算机工程与应用,2015,51(24):145-149. 被引量：7
3张稳,罗可.一种基于Spark框架的并行FP-Growth挖掘算法[J].计算机工程与科学,2017,39(8):1403-1409. 被引量：14
4邢长征,安维国,王星.垂直数据格式挖掘频繁项集算法的改进[J].计算机工程与科学,2017,39(7):1365-1370. 被引量：13
5朱阅岸,周烜,张延松,周明,牛嘉,王珊.多核处理器下事务型数据库性能优化技术综述[J].计算机学报,2015,38(9):1865-1879. 被引量：11
6栾华,周明全,付艳.多核处理器上的频繁图挖掘方法[J].计算机研究与发展,2015,52(12):2844-2856. 被引量：4
7张永雄,余丙军,邓志虹.基于位向量的关联规则算法在教学评价中的应用研究[J].廊坊师范学院学报（自然科学版）,2017,17(1):21-24. 被引量：3
8贺亚威,侯整风,吴亮亮.一种基于位向量流分类算法的改进[J].合肥工业大学学报（自然科学版）,2015,38(3):331-335. 被引量：3

二级参考文献138

1汤小波,龚俭,孙毅.基于NetFlow的网络流量实时计算模型[J].中国教育网络,2008(2_3):101-104. 被引量：1
2施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
3刘以安,刘强,邹晓华,王士同.基于向量内积的关联规则挖掘算法研究[J].计算机工程与应用,2006,42(21):172-174. 被引量：15
4孙毅,刘彤,蔡一兵,胡金龙,石晶林.报文分类算法研究[J].计算机应用研究,2007,24(4):5-11. 被引量：9
5王学光.位并行多维数据包分类算法研究[J].计算机工程,2007,33(14):46-48. 被引量：2
6Han Jiawei, Kamber M. Data Mining Concept and Tech- niques [ M ]. San Francisco: Morgan Kaufmann Publishers, 2001.
7Eltabakh M Y, Ouzzani M, Khalil M A, et al. Incremen-tal mining for frequent patterns in evolving time series database [ J ]. IEEE Transactions on Knowledge and Data Engineering, 2008,7 ( 2 ) : 158-165.
8Pei Jian, Han Jiawei, Lu Hongjun, et al. H-mine: Fast and space preserving frequent pattern mining in large database [J]. Data Mining and Knowledge Discovery,2001,11 (2) :53- 87.
9Lin C H, Chiu D Y, Wu Y H, et al. Mining frequent itemsets from data stream with a time-sensitive sliding window [ C]//Proc of 5th SlAM International on Data Mining, Newport Beach: SIAM Press,2005.
10Han Jiawei, Pei Jian, Yin Yiwen. Mining frequent pat- terns without candidate generation [ C ]//Proc of ACMSIGMOD Int' 1 Conference on Management of Data. New York: ACM Press ,2000.

共引文献52

1齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
2汪峰坤,张婷婷.一种基于有向图的多维多值属性关联规则挖掘算法[J].宿州学院学报,2015,30(12):99-101. 被引量：1
3汪峰坤,张婷婷.一种改进的关联规则并行算法[J].重庆工商大学学报（自然科学版）,2016,33(3):47-50. 被引量：2
4岳峻松,刘赛,聂庆节,张磊,胡楠,徐雪菲.一种基于物理级的关系数据库数据复制模型研究[J].计算机与现代化,2016(5):106-110. 被引量：5
5余飞,刘思宏.Linux下基于Netfilter的内容过滤防火墙的设计与实现[J].牡丹江大学学报,2016,25(6):137-139. 被引量：3
6汪峰坤,张婷婷.一种基于矩阵直接生成二阶频繁项集的多值属性关联规则算法[J].新乡学院学报,2016,33(6):38-42.
7宋浒,张明明,胡俊军,刘赛.灾备端数据库读写分离技术研究[J].信息技术,2017,41(1):26-29. 被引量：8
8潘巍,李战怀,杜洪涛,周陈超,苏静.新型非易失存储环境下事务型数据管理技术研究[J].软件学报,2017,28(1):59-83. 被引量：10
9刘昆.计算机数据挖掘技术探讨[J].电脑知识与技术,2017,13(1):257-258. 被引量：1
10张春生,图雅,李艳.基于精简二元矩阵的蒙医方剂关联规则挖掘[J].世界科学技术-中医药现代化,2017,19(2):365-369. 被引量：3

同被引文献14

1武优西,吴信东,江贺,闵帆.一种求解MPMGOOC问题的启发式算法[J].计算机学报,2011,34(8):1452-1462. 被引量：21
2周开来,陈红,熊子绎,李翠平,孙辉.一种带稀疏间隙约束的并行模式匹配算法[J].软件学报,2018,29(12):3799-3819. 被引量：4
3吴信东,强继朋,谢飞.Pattern Matching with Flexible Wildcards[J].Journal of Computer Science & Technology,2014,29(5):740-750. 被引量：2
4宋威,乔阳阳.基于加权序列模式的推荐算法研究[J].计算机工程与科学,2015,37(7):1399-1404. 被引量：5
5李艳辉,刘浩,袁野,王国仁.基于差分隐私的频繁序列模式挖掘算法[J].计算机应用,2017,37(2):316-321. 被引量：8
6李同轩,董祥军.高效用频繁模式挖掘技术研究[J].齐鲁工业大学学报,2017,31(1):45-50. 被引量：1
7武优西,周坤,刘靖宇,江贺,吴信东.周期性一般间隙约束的序列模式挖掘[J].计算机学报,2017,40(6):1338-1352. 被引量：12
8徐启寒,徐开勇,郭松,戴乐育.多支持度下用户行为序列模式挖掘方法研究[J].计算机应用与软件,2018,35(1):269-275. 被引量：3
9李洪敏,张建平,黄晓芳,卢敏.基于序列模式的多步攻击挖掘算法的研究[J].兵工自动化,2017,36(9):35-38. 被引量：2
10戴瑀君,徐周波.基于SAT和BDD的频繁序列挖掘技术[J].广西科学院学报,2018,34(2):137-142. 被引量：1

引证文献2

1陈宝国,宋旸.基于支持向量机的Web日志频繁序列模式挖掘研究[J].齐齐哈尔大学学报（自然科学版）,2021,37(1):21-25. 被引量：1
2杨仕琦,武优西,耿萌,李艳.一次性条件下的三支序列模式挖掘[J].计算机工程与科学,2024,46(7):1286-1295.

二级引证文献1

1李春生,周志鹏,张可佳,富宇,刘涛.油田地震数据处理软件的模块迭代规律挖掘[J].计算机技术与发展,2022,32(7):144-148. 被引量：1

1王智,王建军,王文东.基于子空间阈值追踪的矩阵修补算法[J].计算机科学,2018,45(6):193-196.
2张卫.巧遇[J].中国税务,1992,0(3):59-60.
3李杰,朱林德.氟哌噻吨美利曲辛片对高血压合并焦虑抑郁患者血压变异性及动态动脉硬化指数的影响[J].安徽医学,2018,39(8):960-965. 被引量：3
4孙聚波,徐平峰,单娜,邓文礼.高斯图模型的基于联接树改进的IPSP算法[J].应用概率统计,2018,34(3):319-330. 被引量：1
5殷福林.岳阳地区注意抓好乡镇企业年终分配工作[J].中国税务,1986,0(1):40-41.
6专家预计非洲猪瘟将逼近德国,猪肉产业恐面临危机[J].猪业科学,2018,35(2):20-20.
7王雪玲.老年多病因心衰的病因和心率变异性及平均心率分析[J].实用心电学杂志,2018,27(3):185-188. 被引量：7
8李黎,刘忠,刘志坤,贺静波,周恭谦.目标机动和观测野值的双假设滤波辨识算法[J].海军工程大学学报,2018,30(2):55-59.
9冯忠慧,尹绍宏.数据流中闭频繁项集的并行挖掘算法[J].软件工程,2018,21(8):10-14. 被引量：1
10李校林,杜托,谢勇.基于Hadoop的大数据频繁模式挖掘算法[J].微电子学与计算机,2018,35(9):14-19. 被引量：9

计算机工程与科学

2018年第10期

浏览历史

内容加载中请稍等...

并行动态位向量频繁闭合序列模式挖掘算法被引量：2

参考文献8

二级参考文献138

共引文献52

同被引文献14

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

并行动态位向量频繁闭合序列模式挖掘算法 被引量：2

参考文献8

二级参考文献138

共引文献52

同被引文献14

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

并行动态位向量频繁闭合序列模式挖掘算法被引量：2