数据流中一种快速启发式频繁模式挖掘方法被引量：14

A High-Speed Heuristic Algorithm for Mining Frequent Patterns in Data Stream

下载PDF

导出

摘要在现有的数据流频繁模式挖掘算法中,批处理方法平均处理时间短,但需要积攒足够的数据,使得其实时性差且查询粒度粗;而启发式方法可以直接处理数据流,但处理速度慢.提出一种改进的字典树结构——IL-TREE(improvedlexicographictree),并在其基础上提出一种新的启发式算法FPIL-Stream(frequentpatternminingbasedonimprovedlexicographictree),在更新模式和生成新模式的过程中,可以快速定位历史模式.算法结合了倾斜窗口策略,可以详细记录历史信息.该算法在及时处理数据流的前提下,也降低了数据的平均处理时间,并且提供了更细的查询粒度. Of the current approaches to frequent pattern discovery in stream data, the batch approach requires enough data, while the heuristic approach can deal with stream data directly. Although the average speed of the batch approach is higher, it cannot response on time and the query granularity is rough. This paper proposes an improved Lexicographic tree, IL-TREE （improved lexicographic tree）, and gives a novel heuristic algorithm, called FPIL-Stream （frequent pattern mining based on improved lexicographic tree）, which locates the historical patterns rapidly in the stage of updating the patterns and generating the new ones. Moreover, a policy for the titled window is integrated into the algorithm for recording the historical information in details. With the promise of the processing stream data on time, the algorithm reduce the average processing time greatly and provides a finer granularity of query.

作者张昕李晓光王大玲于戈

机构地区东北大学信息科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2005年第12期2099-2105,共7页 Journal of Software

基金国家自然科学基金~~

关键词数据挖掘数据流频繁模式倾斜窗口 data mining data stream frequent pattern tilted window

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Giannella C, Han JW, Pei J, Yan XF, Yu PS. Mining frequent patterns in data streams at multiple time granularities.http://maids.ncsa.uiuc.edu/documents/readings/fpstm03.pdf
2Manku GS, Motwani R. Approximate frequency counts over data streams. In: Bernstein P, Ioannidis Y, Ramakrishnan R, eds. Proc.of the 28th Int'l Conf. on Very Large Data Bases. Hong Kong: Morgan Kaufmann Publishers, 2002. 346-357.
3Hidber C. Online association rule mining. In: Delis A, Faloutsos C, Ghandeharizadeh S, eds. Proc. of the ACM SIGMOD Int'l Conf.on Management of Data (SIGMOD 1999). Philadelphia: ACM Press, 1999. 145-156.
4Chang J, Lee W. Finding recent frequent itemsets adaptively over online data streams. In: Lise G, Ted E. S, Pedro D, Christos F,eds. Proc. of the 9th ACM SIGKDD Int'l Conf. on Knowledge Discovery & Data Mining. Washington: ACM Press, 2003.226-235.
5Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Beeri C, et al., eds. Proc. of the 20th Int'l Conf. on Very Large Databases. Santiago: Morgan Kaufmann Publishers, 1994. 487-499.
6Agarwal RC, Aggarwal CC, Prasad VVV. A tree projection algorithm for finding frequent itemsets. Journal on Parallel and Distributed Computing, 2001,61(3):350-371.
7.[EB/OL].http://www.almaden.ibm.com/so ftware/quest/Resources/index. shtml,.

同被引文献210

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
3朱红蕾,李明.一种高效维护关联规则的增量算法[J].计算机应用研究,2004,21(9):107-109. 被引量：9
4孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
5马光志,倪国元.一种增量式模糊聚类算法[J].微计算机应用,2005,26(1):5-7. 被引量：8
6颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
7刘学军,徐宏炳,董逸生,王永利,钱江波.数据流管理技术[J].计算机科学,2005,32(4):6-10. 被引量：2
8倪志伟,黄玲,李锋刚,忻凌.数据流管理与挖掘研究[J].合肥工业大学学报（自然科学版）,2005,28(9):1157-1162. 被引量：5
9刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
10钱少华,蔡勇,钱雪忠.基于数组的Apriori算法的改进[J].计算机应用与软件,2006,23(2):111-113. 被引量：16

引证文献14

1史金成,胡学钢.数据流挖掘研究[J].计算机技术与发展,2007,17(11):11-14. 被引量：6
2程转流,王本年.数据流中的频繁模式挖掘[J].计算机技术与发展,2007,17(12):53-55. 被引量：5
3孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
4史志英,张伟,陈春燕.基于频繁模式的数据流聚类算法[J].微计算机应用,2008,29(1):50-53.
5庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.
6敖富江,颜跃进,黄健,黄柯棣.数据流频繁模式挖掘算法设计[J].计算机科学,2008,35(3):1-5. 被引量：11
7侯伟,吴晨生,杨炳儒,方炜炜.一种高效的离线数据流频繁模式挖掘算法[J].计算机科学,2009,36(7):247-251. 被引量：2
8唐懿芳,穆志纯,张师超,钟达夫.挖掘数据流频繁模式的相关技术和算法研究综述[J].计算机工程与应用,2009,45(26):121-125. 被引量：6
9王敏,赵晓雷.数据流频繁模式挖掘[J].渭南师范学院学报,2010,25(2):71-74.
10朱小栋,沈国华.流式数据上关联规则挖掘研究综述[J].计算机应用研究,2010,27(9):3201-3205. 被引量：2

二级引证文献92

1郭红涛,郭永红,郭朝彬.数据挖掘技术在物流信息系统中的应用[J].科技信息,2009(4):262-263. 被引量：3
2吴克启,蒋洪晖,汪粼波.流数据频繁模式挖掘技术综述[J].内燃机与动力装置,2009,26(B06):61-64.
3蒋建军,王以群.农村社会保障体系数据流关联规则挖掘[J].计算机工程,2009,35(17):86-88. 被引量：2
4孟彩霞.一种面向数据流的频繁项集挖掘算法[J].昆明理工大学学报（理工版）,2009,34(5):26-30.
5孟彩霞.面向数据流的频繁模式挖掘研究[J].计算机应用研究,2009,26(11):4054-4056. 被引量：1
6朱参世,李响,朱琳.基于流数据分类挖掘算法在入侵检测的应用[J].微计算机信息,2010,26(12):80-81.
7朱参世,李响.自适应模糊决策树算法在数据流挖掘中的应用[J].现代电子技术,2010,33(10):63-65. 被引量：2
8王敏,赵晓雷.数据流频繁模式挖掘[J].渭南师范学院学报,2010,25(2):71-74.
9王锡文,贾银山.基于多分类器集成的数据流分类方法[J].科学技术与工程,2010,10(18):4521-4524. 被引量：1
10孟彩霞.面向数据流的频繁项集挖掘研究[J].计算机工程与应用,2010,46(24):138-140. 被引量：2

1罗超,李义杰,罗丹.流数据频繁项算法研究[J].辽宁工程技术大学学报（自然科学版）,2004,23(z1):57-59.
2朱波,桂卫华.一种基于神经网络模型的在线修正优化控制[J].企业技术开发,2004,23(10):6-8.
3丁文祥,朱孔凡.基于卷积神经网络的实时视频下行人检测[J].信息技术,2016,40(12):44-47. 被引量：6
4李卢乐,于宁.AutoCAD中的批处理方法[J].测绘与空间地理信息,2011,34(2):243-245. 被引量：1
5陈桦,程云艳.BP神经网络算法的改进及在Matlab中的实现[J].陕西科技大学学报（自然科学版）,2004,22(2):45-47. 被引量：47
6王威.数据流频繁项挖掘算法——EC算法[J].武汉职业技术学院学报,2009,8(1):77-79.
7李卫伟,贾洪生,龚军.名单与照片送库的批处理方法[J].情报探索,2005(2):75-77.
8张杰,冯英浚.The SA Method on Large Scale Goal Programming with Independent Subsystems[J].Journal of Harbin Institute of Technology(New Series),1995,2(4):9-12. 被引量：1
9胡金初.数据包时延及控制策略的研究[J].计算机科学,2006,33(11):52-53. 被引量：1
10张建华.顺序文件的批处理方法[J].现代计算机,1998,4(5):47-47. 被引量：1

软件学报

2005年第12期

浏览历史

内容加载中请稍等...

数据流中一种快速启发式频繁模式挖掘方法被引量：14

参考文献7

同被引文献210

引证文献14

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

数据流中一种快速启发式频繁模式挖掘方法 被引量：14

参考文献7

同被引文献210

引证文献14

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

数据流中一种快速启发式频繁模式挖掘方法被引量：14