数据流中频繁闭项集的近似挖掘算法被引量：14

An Algorithm to Approximately Mine Frequent Closed Itemsets from Data Streams

下载PDF

导出

摘要在数据流中挖掘频繁项集得到了广泛的研究,传统的研究方法大多关注于在数据流中挖掘全部频繁项集.由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性.因此,近年来人们开始关注在数据流中挖掘频繁闭项集,其中一个典型的工作就是Moment算法.本文提出了一种数据流中频繁闭项集的近似挖掘算法A-Moment.它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题.实验表明,该算法在保证挖掘精度的前提下,可以比Moment获得更好的效率. Mining frequent itemsets from data streams has extensively been studied, and most of them focus on finding complete set of frequent itemsets in a data stream. Because of numerous redundant data and patterns in main memory, they cannot get very good performance in time and space. Therefore,mining frequent closed itemsets in data streams becomes a new important problem in recent years, where algorithm Moment was regarded as a typical method of them. This paper presents an algorithm, called AMoment, which uses the damped window technique, approximate count method and distributed updating strategy to get higher mining efficiency. Experimental results show that our algorithm performs much better than the previous approaches.

作者刘旭毛国君孙岳刘椿年

机构地区北京工业大学计算机学院北京市多媒体与智能软件重点实验室

出处《电子学报》 EI CAS CSCD 北大核心 2007年第5期900-905,共6页 Acta Electronica Sinica

基金国家自然科学基金重大项目(No.60496322 60496327)

关键词数据挖掘数据流频繁闭项集 data mining data stream frequent closed itemset

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Agrawal R,Srikant R.Fast algorithms for mining association rules in large databases[A].Proceedings of the 20th International Conference on Very Large Data Bases[C].San Francisco:Morgan Kaufmann,1994.487-499.
2Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[A].2000 ACM SIGMOD International Conference on Management of Data[C].Dallas:ACM Press,2000.1-12.
3Pasquier N,Bastide Y,Taouil R,Lakhal L.Discovering frequent closed itemsets for association rules[A].In Proceeding of the 7th International Conference on Database Theory[C].Jerusalem,Israel:Springer,1999.398-416.
4Pei J,Han J,Mao R.CLOSET:an efficient algorithm for mining frequent closed itemsets[A].ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery[C].Dallas:ACM Press,2000.21-30.
5Burdick D,Calimlim M,Gehrke J.MAFIA:a maximal frequent itemset algorithm for transactional databases[A].Proceedings of the 17th International Conference on Data Engineering[C].Heidelberg:IEEE Computer Society Press,2001.443-452.
6Zaki M,Hsiao C.Charm:an efficient algorithm for closed association rule mining[R].New York:RPI,1999.
7Zhu Y,Shasha D.StatStream:statistical monitoring of thousands of data streams in real time[A].Proceedings of the 20th International Conference on Very Large Data Bases[C].Hong Kong,China:Morgan Kaufmann,2002.358-369.
8Giannella C,Han J,Robertson E,Liu C.Mining frequent itemsets over arbitrary time intervals in data streams[R].Bloomington:Indiana University,2003.
9Manku G,Motwani R.Approximate frequency counts over data streams[A].Proceedings of the 28th International Conference on Very Large Data Bases[C].Hong Kong,China:Morgan Kaufmann,2002.346-357.
10Teng W-G,Chen M-S,Yu P S.A regression-based temporal pattern mining scheme for data streams[A].Proceedings of the 29th International Conference on Very Large Data Bases[C].Berlin,Germany:Morgan Kaufmann,2003.607-617.

二级参考文献8

1[1]Pasquier N, Bastide Y, Taouil R, Lakhal L. Discovering frequent closed itemsets for association rules. In: Beeri C, et al, eds. Proc. of the 7th Int'l. Conf. on Database Theory. Jerusalem: Springer-Verlag, 1999. 398～416.
2[2]Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Beeri C, et al, eds. Proc. of the 20th Int'l. Conf. on Very Large Databases. Santiago: Morgan Kaufmann Publishers, 1994. 487～499.
3[3]Pei J, Han J, Mao R. CLOSET: An efficient algorithm for mining frequent closed itemsets. In: Gunopulos D, et al, eds. Proc. of the 2000 ACM SIGMOD Int'l. Workshop on Data Mining and Knowledge Discovery. Dallas: ACM Press, 2000. 21～30.
4[4]Burdick D, Calimlim M, Gehrke J. MAFIA: A maximal frequent itemset algorithm for transactional databases. In: Georgakopoulos D, et al, eds. Proc. of the 17th Int'l. Conf. on Data Engineering. Heidelberg: IEEE Press, 2001. 443～452.
5[5]Zaki MJ, Hsiao CJ. CHARM: An efficient algorithm for closed itemset mining. In: Grossman R, et al, eds. Proc. of the 2nd SIAM Int'l. Conf. on Data Mining. Arlington: SIAM, 2002. 12～28.
6[6]Liu JQ, Pan YH, Wang K, Han J. Mining frequent item sets by opportunistic projection. In: Hand D, et al, eds. Proc. of the 8th ACM SIGKDD Int'l. Conf. on Knowledge Discovery and Data Mining. Alberta: ACM Press, 2002. 229～238.
7[7]Srikant R. Quest synthetic data generation code. San Jose: IBM Almaden Research Center, 1994. http://www.almaden.ibm.com/ software/quest/Resources/index.shtml
8[8]Blake C, Merz C. UCI Repository of machine learning. Irvine: University of California, Department of Information and Computer Science, 1998. http://www.ics.uci.edu/～mlearn/MLRepository.html

共引文献18

1张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
2刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
3杨萍,李立乡,杨明.快速更新频繁闭合项目集算法[J].计算机工程与应用,2006,42(36):148-151. 被引量：1
4程转流,胡为成,胡学钢.基于DSFCI-tree的分布式数据流频繁闭合模式挖掘[J].微电子学与计算机,2007,24(9):120-122. 被引量：2
5宋威,杨炳儒,徐章艳,张桃红.基于索引数组和复合频繁模式树的频繁闭项集挖掘算法[J].计算机科学,2007,34(8):165-167. 被引量：1
6缪裕青,陈国良,徐云.基因表达数据的频繁闭合模式挖掘新算法[J].中国科学技术大学学报,2007,37(9):1080-1087. 被引量：1
7郭宇红,童云海,唐世渭,杨冬青.基于FP-Tree的反向频繁项集挖掘[J].软件学报,2008,19(2):338-350. 被引量：20
8缪裕青,金波,陈国良.HTCLOSE：快速挖掘微阵列数据集中的频繁闭合模式[J].小型微型计算机系统,2008,29(2):274-278.
9程转流,胡学钢.数据流中频繁闭合模式的挖掘[J].计算机工程,2008,34(16):50-52. 被引量：4
10董杰,韩敏.挖掘事务间频繁闭项集的高效率算法[J].控制与决策,2008,23(9):994-998. 被引量：3

同被引文献122

1颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
2邹宏,陈海,魏勍颋.基于数据挖掘的入侵检测技术研究[J].计算机与现代化,2005(4):39-41. 被引量：6
3陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
4郑军,胡铭曾,云晓春,郑仲.基于数据流方法的大规模网络异常发现[J].通信学报,2006,27(2):1-8. 被引量：17
5周晓云,孙志挥,张柏礼,杨宜东.高维数据流子空间聚类发现及维护算法[J].计算机研究与发展,2006,43(5):834-840. 被引量：17
6冯萍慧,连一峰,戴英侠,李闻,张颖君.面向网络系统的脆弱性利用成本估算模型[J].计算机学报,2006,29(8):1375-1382. 被引量：28
7郭山清,谢立,曾英佩.入侵检测在线规则生成模型[J].计算机学报,2006,29(9):1523-1532. 被引量：14
8刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
9钟勇,秦小麟,包磊.一种基于多维集的关联模式挖掘算法[J].计算机研究与发展,2006,43(12):2117-2123. 被引量：8
10周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21

引证文献14

1孙圣力,戴东波,黄震华,张齐勋,周立新.概率数据流上Skyline查询处理算法[J].电子学报,2009,37(2):285-293. 被引量：17
2毛国君,宗东军.基于多维数据流挖掘技术的入侵检测模型与算法[J].计算机研究与发展,2009,46(4):602-609. 被引量：25
3敖富江,杜静,颜跃进,黄柯棣.在线挖掘数据流滑动窗口中频繁闭项集[J].系统工程与电子技术,2009,31(5):1235-1240. 被引量：2
4毛国君,孙晓希,宗东军.多维数据流最大频集挖掘模型和算法[J].北京工业大学学报,2010,36(6):820-827.
5琚春华,许翀寰.基于有序复合策略的数据流最大频繁项集挖掘[J].情报学报,2010,29(5):864-871.
6许颖梅.基于数据流频繁模式挖掘的入侵检测模型[J].陕西理工学院学报（自然科学版）,2011,27(4):24-29.
7宋奎勇,任永功,寇香霞.均衡时空挖掘数据流中频繁项集[J].计算机科学,2011,38(12):187-190. 被引量：1
8许颖梅.数据流挖掘算法在网络安全中的应用研究[J].河南科学,2012,30(3):348-351. 被引量：1
9许颖梅.基于Web数据流技术的网络入侵检测研究[J].郑州轻工业学院学报（自然科学版）,2012,27(3):11-14. 被引量：1
10张德洪.网络安全中攻防策略与主动防御研究[J].哈尔滨师范大学自然科学学报,2012,28(2):49-53. 被引量：2

二级引证文献59

1廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
2梁卫星.数据库入侵检测技术研究与应用[J].吕梁教育学院学报,2013,30(1):64-65.
3赵越,王意洁,王媛,李小勇.一种高效的不确定数据流并行Skyline查询处理方法[J].计算机研究与发展,2013,50(S2):132-139. 被引量：3
4魏小涛,黄厚宽,田盛丰.在线自适应网络异常检测系统模型与算法[J].计算机研究与发展,2010,47(3):485-492. 被引量：10
5王晓伟,黄九鸣,贾焰.分布式不确定数据上的概率Skyline计算[J].计算机科学与探索,2010,4(10):951-960. 被引量：8
6冉宏敏,柴胜,冯铁,张家晨.P2P僵尸网络研究[J].计算机应用研究,2010,27(10):3628-3632. 被引量：6
7王晓伟,贾焰,杨树强,田李.存在级不确定数据上的概率Skyline计算[J].计算机研究与发展,2011,48(1):68-76. 被引量：6
8付世昌,董一鸿,唐燕琳,陈华辉,钱江波.基于事件的位置不确定移动对象连续概率Skyline查询[J].自动化学报,2011,37(7):836-848. 被引量：8
9向浩.DS-CABOSFV流数据聚类算法[J].中国科技成果,2011(16):64-66.
10毛伊敏,杨路明,陈志刚,刘立新.基于数据流挖掘技术的入侵检测模型与算法[J].中南大学学报（自然科学版）,2011,42(9):2720-2728. 被引量：6

1王述云,张成洪,范颖捷,徐和祥,胡运发.数据流中频繁项近似挖掘算法[J].小型微型计算机系统,2009,30(8):1535-1540.
2刘振英,张毅,胡铭曾,方滨兴.多机系统的动态负载平衡[J].计算机科学,1999,26(1):38-40. 被引量：6
3杨金荣.基于SQL Server2000分布式查询及更新的应用研究[J].福建电脑,2013,29(4):63-64. 被引量：1
4陈凤娟.不确定数据中的代表频繁项集近似挖掘[J].计算机与数字工程,2017,45(2):266-271. 被引量：1
5赵彩虹,杨艳,温少波,刘博.基于DBLP的中心作者近似挖掘算法的研究[J].黑龙江大学自然科学学报,2011,28(6):886-889.
6李芳芳.云计算现状综述[J].电脑知识与技术,2011,7(2):790-792. 被引量：13
7翟星.云计算现状综述[J].石家庄职业技术学院学报,2012,24(4):5-8. 被引量：2
8李俊,杨天奇.基于滑动窗口的数据流频繁闭项集挖掘[J].计算机工程,2009,35(13):37-39. 被引量：3
9张成兴.压缩因子综合信息粒子群算法[J].计算机科学与探索,2014,8(4):506-512. 被引量：4
10曲良东,何登旭,黄勇.一种新型的启发式人工鱼群算法[J].计算机工程,2011,37(17):140-142. 被引量：10

电子学报

2007年第5期

浏览历史

内容加载中请稍等...

数据流中频繁闭项集的近似挖掘算法被引量：14

参考文献13

二级参考文献8

共引文献18

同被引文献122

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

数据流中频繁闭项集的近似挖掘算法 被引量：14

参考文献13

二级参考文献8

共引文献18

同被引文献122

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

数据流中频繁闭项集的近似挖掘算法被引量：14