分布式数据流中挖掘频繁项算法的研究被引量：2

Mining Frequent Item in Distributed Data Stream

下载PDF

导出

摘要在数据流挖掘领域中,频繁项集的挖掘是基础性的,也是比较关键的问题,但是现在的算法大多都是基于在单数据流中挖掘频繁项集,传统在单数据流上挖掘频繁项集的算法有Apriori算法,由于挖掘多个数据流上的频繁项集存在数据和模式冗余问题,对算法的时间和空间效率都具有很大的挑战性。本文基于Apriori算法和多线程并发技术的思想改进了Apriori算法生成在分布式数据流上挖掘频繁项算法A-Apriori,它采用逐层迭代和并发技术来解决多个数据流同时到来频繁项的挖掘问题。实验表明,该算法在保证挖掘精度的前提下,可以比其它在分布式数据流中挖掘频繁项的算法获得更好的效率。 In the field of stream data mining,the mining of frequent item sets is a fundamental and pivotal problem.However,the algorithms nowadays mostly aim at the mining of frequent item in a single data stream.Apriori algorithm conventionally solves the mining of frequent item in a single data stream.As there exists the redundancy of data and pattern in the mining of frequent item sets in to be deleted multiple data streams,it challenges the temporal efficiency and the spacial efficiency of the algorithm.Based on the improvement of Apriori algorithm and Concurrent multi -threading technology this paper achieves the A -Apriori Algorithm that can mine the frequent item in to be deleted distributed data streams.It adopts Iterative method and concurrent programming to solve the problem when multiple data streams concur.Experimental results is given to show that the proposed algorithm can mine the frequent item in to be deleted distributed data streams more efficiently and ensure the accuracy at the same time.

作者肖颖毛国君

机构地区北京工业大学计算机学院

出处《微计算机信息》 2010年第30期144-145,164,共3页 Control & Automation

基金基金申请人:毛国君项目名称:分布式数据流的集成模式挖掘模型和概念漂移检测算法研究基金颁发部门:国家自然科学基金委(60496322)

关键词分布式数据流频繁项多线程并发技术 distributed data stream Frequent item Concurrent multi-threading technology

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1宋新葵,杜中军.一种新的改进的Apriori算法[J].微计算机信息,2009(12):239-241. 被引量：6

二级参考文献9

1王德兴,胡学钢,刘晓平,王浩.改进购物篮分析的关联规则挖掘算法[J].重庆大学学报（自然科学版）,2006,29(4):105-107. 被引量：12
2邱桃荣,白小明,张丽萍.基于粒计算的Apriori算法及其在图书管理系统中的应用[J].微计算机信息,2006,22(07X):218-221. 被引量：9
3邓纳姆.数据挖掘教程[M].郭崇慧,田凤占,靳晓明,译.北京:清华大学出版社,2005.
4Agrawal R,Imielinski T, Swami A. Mining Association Rules between Sets of items in Large database. In:Bunemuu P,Jajodia S eds. Proceedings of the 1993 ACM SIGMOD Conference on Management of Data. New York, NY:ACM Press, 1993.pp.207-216.
5Agrawal R,Skikant R. Fast algorithms for mining association rules in large database [C].In Proceeding of the 20th International Conference on Very Large DataBases,Santiago,Chile,1994.pp.487- 499.
6P. Anita and Van den P. Dirk, Constrained optimization of datamining problems to improve model performance: A direct-marketing application. Expert Systems With Applications29(3)(2005), pp.630 - 640.
7Liao, Shu-Hsien Michael, Chen, Chyuan-Meei,Wu, Chung- Hsin, Mining customer knowledge for product line and brand extension in retailing. Expert Systems with Applications34 (3)(2008),pp. 1763-1776.
8王瑜,刘连臣,吴澄.面向Web关联规则挖掘的快速Apriori算法[J].微计算机信息,2008,24(15):109-111. 被引量：8
9黄进,尹治本.关联规则挖掘的Apriori算法的改进[J].电子科技大学学报,2003,32(1):76-79. 被引量：51

共引文献5

1严菲,杨科华.基于索引数组的频繁项集增量更新算法[J].微计算机信息,2010,26(33):150-151. 被引量：1
2邓广彪,蒙祖强.一种快速获取候选3项集的Apriori改进算法[J].电脑与信息技术,2012,20(1):22-25. 被引量：1
3王琼,曹奎.关联规则挖掘Apriori算法的改进[J].福建电脑,2012,28(12):84-86.
4胡绿慧,任玉兰.基于Weka关联规则挖掘的针灸腧穴规律研究[J].电脑知识与技术,2014(3):1361-1363. 被引量：6
5董婷.基于weka的数据挖掘的关联规则应用研究[J].机械设计与制造工程,2015,44(12):78-80. 被引量：2

同被引文献20

1阮幼林,李庆华,刘干.分布环境中的并行频繁模式挖掘算法[J].计算机工程与应用,2005,41(25):1-3. 被引量：3
2陈凯,冯全源.基于矩阵伪投影策略的频繁项集挖掘方法[J].微计算机信息,2005,21(11X):85-87. 被引量：8
3甄彤.基于层次与划分方法的聚类算法研究[J].计算机工程与应用,2006,42(8):178-180. 被引量：8
4曾志雄.一种有效的基于划分和层次的混合聚类算法[J].计算机应用,2007,27(7):1692-1694. 被引量：15
5Babcock B, Babu S, Datar M, et al. Models and issues in data stream systems [C]. Madison, WI, United states: Proceedings of the 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems (PODS 2002),2002:1-16.
6Rajasegarar S, Leckie C, Palaniswami M,et al. Distributed anomaly detection in wireless sensor networks [C]. Singapore: 10th IEEE Singapore International Conference on Communications Systems, ICCS 2006,2006:1-5.
7Gonzalez T F. Clustering to minimize the maximum intercluster distance[J].Theoretieal Computer Science,1985,38(38):293-306.
8Graham C, Muthukrishnan S, Zhuang W. Conquering the divide. continuous clustering of distributed data streams [C]. lstanbul, Turkey: 23rd International Conference on Data Engineering, ICDE 2007,2007:1032-1046.
9何建忠,吕振俊.基于两个矩阵的关联规则挖掘优化算法[J].计算机工程,2008,34(17):56-58. 被引量：9
10张忠平,陈丽萍,王爱杰,林志杰.基于自适应模糊C-均值的增量式聚类算法[J].计算机工程,2009,35(6):60-62. 被引量：11

引证文献2

1张杨,毛国君.面向分布式数据流的混合聚类算法[J].微计算机信息,2011,27(11):120-122.
2丁洁.一种基于云平台的频繁项集数据挖掘改进算法[J].自动化技术与应用,2019,38(7):74-77. 被引量：6

二级引证文献6

1刘斯烟,张程,钟藩远,张智勇,文维.多尺度混合算法在智慧能源需求数据挖掘中的应用[J].电子设计工程,2020,28(11):36-39. 被引量：5
2唐菡悄,沈磊.云模型数据挖掘算法的高校教育信息化效益评估模型构建[J].现代电子技术,2020,43(13):25-27. 被引量：3
3王新龙.基于偏微分方程的关联特征数据挖掘改进方法研究[J].现代电子技术,2021,44(18):111-113. 被引量：3
4李军.基于关联规则的工业控制系统运维数据挖掘方法[J].微型电脑应用,2023,39(9):167-170.
5孙瑞.基于云计算的英语教学资源快速挖掘系统设计[J].信息技术,2023,47(9):47-51.
6郭振华,孙艳青,王中兴.基于并行式频繁项集的党政收费平台[J].电子设计工程,2024,32(5):31-36.

1张云苑.Java多线程并发技术的实现[J].电脑开发与应用,2004,17(9):46-46.
2刘大勇.Java开发:实现网站信息批量析取[J].现代商贸工业,2007,19(2):137-138.
3刘绍南.支持并发机制的TCP协议实现技术[J].计算机应用研究,1999,16(10):38-39. 被引量：3
4何昕,张磊,魏仲慧.基于客户端/服务器模式的远程测控系统[J].测控技术,2008,27(4):60-61. 被引量：4
5宋博,王爱民,于立明.并发技术在生产过程自动控制系统中的应用[J].计算机应用,1995,15(5):40-41.
6唐波.网络爬虫的设计与实现[J].电脑知识与技术,2009,0(4Z):2867-2868. 被引量：6
7孙亮.基于移动网络信道抗干扰的信息服务多路并发技术[J].电子世界,2016,0(17):90-90. 被引量：1
8林锐,白云,金锋,石教英.一种用于协同工作的网络通讯服务器及其API设计[J].计算机应用研究,2000,17(4):83-85. 被引量：3
9张大鹏,董俊磊.手机版学生成绩查询系统的实现[J].福建电脑,2014,30(10):152-152.
10黎源,王会进.Linux下面向对象的Socket程序设计研究[J].计算机应用与软件,2010,27(12):27-28. 被引量：2

微计算机信息

2010年第30期

浏览历史

内容加载中请稍等...

分布式数据流中挖掘频繁项算法的研究被引量：2

参考文献1

二级参考文献9

共引文献5

同被引文献20

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

分布式数据流中挖掘频繁项算法的研究 被引量：2

参考文献1

二级参考文献9

共引文献5

同被引文献20

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

分布式数据流中挖掘频繁项算法的研究被引量：2