分布式并行化数据流频繁模式挖掘算法被引量：4

Distributed Parallel Algorithm of Mining Frequent Pattern on Data Stream

下载PDF

导出

摘要为了提高数据流频繁模式挖掘的效率,文中基于经典的数据流频繁模式挖掘算法FP-Stream和分布式并行计算原理,设计了一种分布式并行化数据流频繁模式挖掘算法—DPFP-Stream(Distributed Parallel Algorithm of Mining Frequent Pattern on Data Stream)。该算法将建立频繁模式树的任务分为local和global两部分,并设置了参数"当前时间";将到达的流数据平均分配到多个不同的local节点,各local节点使用FP-Growth算法产生该单位时间内本节点的候选频繁项集,并按照单位时间将候选频繁项集及其支持度计数打包发送至global节点;global节点按"当前时间"合并各local节点的中间结果并更新模式树Pattern-Tree。在分布式数据流计算平台Storm上进行的算法实现和性能测试结果表明,DPFP-Stream算法的计算效率能够随着local节点或local bolt线程的增加而提高,适用于高效挖掘数据流中的频繁模式。 In order to improve the efficiency of mining frequent pattern on data stream,a Distributed Parallel Algorithm of Mining Frequent Pattern on Data Stream,named DPFP-Stream,is designed in this paper based on the ideas of classical FP-Stream and the distributed parallel computing. It divides the task of building frequent pattern tree into two parts： local and global,and introduces a newparameter＂current time＂. The arrival data will be equally distributed into different local nodes. Then every local node uses FP-Growth algorithm to produce candidate frequent items,and packages them with relevant support count according to unit time,and sends them to the global node. The global node combines the results produced by local nodes according to the＂current time＂and updates the global Pattern-Tree.The results of implementing DPFP-Stream algorithm and testing its performance on Storm,a distribution data stream computing platform,showthat the computing efficiency of DPFP-Stream can increase linearly with the increasing of local nodes or the local bolts,and DPFP-Stream is applicable to effectively mine frequent pattern from data stream.

作者马可李玲娟孙杜靖

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2016年第7期75-79,共5页 Computer Technology and Development

基金国家自然科学基金资助项目(61302158 61571238) 中兴通讯产学研项目

关键词数据流频繁模式分布式并行化 STORM data stream frequent pattern distributed parallelization Storm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1Li Lingjuan, Li Xiong. An improved online stream data clustering algorithm [ C ]//Proceedings of second international conference on business computing and global informatization. Shanghai, China : [ s. n. ] ,2012:526-529.
2Gaber M ,Zaslavsky A, Krishnaswamy S. Mining data streams : a review [ J ]. SIGMOD Record,2005,34 (2) : 18-26.
3Han J, Kamber M, Pei J. Data mining : concepts and techniques [ M ]. [ s. l. ]: Elsevier,2006: 242- 248.
4孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：313
5孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5. 被引量：36
6Charikar M, Chen K, Farach-Cohon M. Finding frequent items in data streams[ C ]//Proceedings of automata, languages and programming. Berlin : Springer, 2002 : 693 -703.
7李国徽,陈辉.挖掘数据流任意滑动时间窗口内频繁模式[J].软件学报,2008,19(10):2585-2596. 被引量：45
8Ma Ke, Li Lingjuan, Ji Yimu, et al. Research on parallelized stream data micro clustering algorithm [ C ]//Proceedings of ICCAET 2015. Zhengzhou ,China: [ s. n. ] ,2015:629-634.
9Giannella C, Han J, Pei J, et al. Mining frequent patterns in data streams at multiple time granularities [ J ]. Next Generation Data Mining,2003,212 : 191-212.
10刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25

二级参考文献101

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
3刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
4C. Giannella, J. Han, J. Pei, et al. Mining frequent patterns in data streams at multiple time granularities. In: H. Kargupta, A.Joshi, K. Sivakumar, eds. Next Generation Data Mining.Cambridge, Massachusetts: MIT Press, 2003. 191-212.
5G.S. Manku, R. Motwani. Approximate frequency counts over streaming data. The 28th Int'l Conf. Very Large Data Bases(VLDB 2002), Hong Kong, 2002.
6宋国杰王腾蛟唐世渭.数据流中频繁模式的评估与维护[A]..第20届全国数据库学术会议[C].长沙,2003..
7R.M. Karp, C. H. Papadimitriou, S. Shenker. A simple algorithm for finding frequent elements in streams and bags. ACM Trans. Database Systems, 2003, 28 (1): 51 - 55.
8M. Charikar, K. Chen, M. Farach-Colton. Finding frequent items in data streams. The 29th Int'l Colloquium on Automata,Languages and Programming, Malaga, Spain, 2002.
9Joong Hyuk Chang, Won Suk Lee. Finding recent frequent itemsets adaptively over online data streams. The 9th ACM SIGKDD Int'l Conf. Knowledge Discovery and Data Mining (KDD 03), Washington, D. C, 2003.
10Wei-Guang Teng, Ming-Syan Chen, Philip S. Yu. A regressionbased temporal pattern mining scheme for data streams. The Int'l Conf. Very Large Data Bases, Berlin, Germany, 2003.

共引文献415

1张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
2史金成,胡学钢.数据流挖掘研究[J].计算机技术与发展,2007,17(11):11-14. 被引量：6
3程转流,王本年.数据流中的频繁模式挖掘[J].计算机技术与发展,2007,17(12):53-55. 被引量：5
4孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
5尹志武,黄上腾.一种自适应局部概念漂移的数据流分类算法[J].计算机科学,2008,35(2):138-139. 被引量：8
6庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.
7敖富江,颜跃进,黄健,黄柯棣.数据流频繁模式挖掘算法设计[J].计算机科学,2008,35(3):1-5. 被引量：11
8胡彧,闫巧梅.滑动窗口模型下的优化数据流聚类算法[J].计算机应用,2008,28(6):1414-1416. 被引量：6
9朱琼,施荣华.一种数据流中的频繁模式挖掘算法[J].计算机应用,2008,28(6):1463-1466. 被引量：3
10黄超,龚惠群.时间序列数据流直方图构造方法研究[J].统计与决策,2009,25(4):24-25.

同被引文献31

1曹琰,王清贤,魏强,尹中旭.基于相容和搜索结合的并行约束求解方法[J].中南大学学报（自然科学版）,2013,44(S2):268-272. 被引量：1
2任伟,蒋兴浩,孙锬锋.基于RBF神经网络的网络安全态势预测方法[J].计算机工程与应用,2006,42(31):136-138. 被引量：71
3刘孙俊,李涛,赵奎,胡强,彭凌西.基于人工免疫的网络安全态势评估模型[J].微计算机信息,2008,24(18):22-24. 被引量：6
4韦勇,连一峰.基于日志审计与性能修正算法的网络安全态势评估模型[J].计算机学报,2009,32(4):763-772. 被引量：97
5房陈,茅兵,谢立.基于动态染色的内存漏洞定位技术[J].计算机工程,2010,36(7):139-141. 被引量：4
6张友春,魏强,刘增良,周颖.信息系统漏洞挖掘技术体系研究[J].通信学报,2011,32(2):42-47. 被引量：16
7陈庆,杨正华,曾爱华.基于P2P流量检测的签名特征匹配研究[J].电子设计工程,2012,20(9):71-73. 被引量：1
8胡东星.基于人工智能的信息网络安全态势感知技术[J].信息通信,2012,25(6):80-81. 被引量：7
9王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：717
10李伟卫,赵航,张阳,王勇.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117. 被引量：35

引证文献4

1饶志宏,方恩博.软件与系统漏洞分析与发现技术研究构想和成果展望[J].工程科学与技术,2018,50(1):9-21. 被引量：6
2冯兴杰,潘轩.基于Spark的投影树频繁项集挖掘算法[J].计算机工程与设计,2018,39(8):2477-2483. 被引量：3
3王传栋,叶青,姚橹,刘尚东,季一木,王汝传.基于大数据的网络恶意行为及特征关联分析[J].太原理工大学学报,2018,49(2):264-273. 被引量：22
4冯兴杰,潘轩.基于Spark的并行Eclat算法[J].计算机应用研究,2019,36(1):18-21. 被引量：11

二级引证文献41

1况晓辉,刘强,李响,聂原平.基于机器学习的软件脆弱性分析方法综述[J].计算机工程与科学,2018,40(11):2000-2007. 被引量：5
2郑春.基于网络行为分析的网络管理系统设计与研究[J].长春大学学报,2018,28(12):48-53. 被引量：5
3刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：30
4孙璇,高昕.基于事件流数据世系的恶意网络行为检测方法[J].计算机工程与应用,2019,55(16):70-76. 被引量：10
5刘蔚.网络行为特性分析的网络管理预测研究[J].微型电脑应用,2019,35(10):96-98. 被引量：1
6刘文斌,丁建锋,寇云峰,王梦寒,宋滔.物理隔离网络电磁漏洞研究[J].强激光与粒子束,2019,31(10):85-89. 被引量：5
7杨照峰,樊爱宛,彭统乾.基于大数据环境下的计算机网络安全体系搭建思路探究[J].信息技术与信息化,2019,0(11):148-150. 被引量：7
8尹玉娇,张伟.一种基于图数据库的虚拟身份关系挖掘算法[J].软件导刊,2020,19(1):117-122. 被引量：3
9刘丽娜.大数据背景下网络安全态势感知技术研究[J].电脑知识与技术,2020,16(10):32-33. 被引量：4
10杨宏宇,秦赓.面向风险评估的关键系统识别[J].大连理工大学学报,2020,60(3):306-316. 被引量：3

1晁岳岐.雷霆BOLT双头试用记[J].卫星电视与宽带多媒体,2005(12):58-59.
2沈绪榜,张发存,冯国臣,车得亮,王光.计算机体系结构的分类模型[J].计算机学报,2005,28(11):1759-1766. 被引量：10
3刘伟,郑金波.PDMS提取螺栓材料表方法的应用与研究[J].中国科技纵横,2013(14):159-159.
4卢鸫翔.对话：迅雷下一代交互界面引擎Bolt[J].程序员,2012(5):24-25.
5Wang Jie,Zeng Yu.SWFP-Miner： an efficient algorithm for mining weighted frequent pattern over data streams[J].High Technology Letters,2012,18(3):289-294.
6由育阳,张健沛,杨志宏,由勇.基于前缀树的数据流容错概要结构构造[J].北京航空航天大学学报,2011,37(5):564-568.
7Zhang, Gongqing.Parallel Algorithm Case Study Using Virtual Machine[J].Journal of Systems Engineering and Electronics,1997,8(3):51-59.
8王鹏,吴晓晨,王晨,汪卫,施伯乐.CAPE——数据流上的基于频繁模式的分类算法[J].计算机研究与发展,2004,41(10):1677-1683. 被引量：7
9精简集成与高速传输科技新风貌——2012高速传输技术论坛回顾[J].中国电子商情,2012(5):26-29.
10许恒锦.A parallel algorithm for statistical-fairness-based spectrum allocation of cognitive radios[J].High Technology Letters,2009,15(4):343-348.

计算机技术与发展

2016年第7期

浏览历史

内容加载中请稍等...

分布式并行化数据流频繁模式挖掘算法被引量：4

参考文献15

二级参考文献101

共引文献415

同被引文献31

引证文献4

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

分布式并行化数据流频繁模式挖掘算法 被引量：4

参考文献15

二级参考文献101

共引文献415

同被引文献31

引证文献4

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

分布式并行化数据流频繁模式挖掘算法被引量：4