滑动窗口下数据流完全加权最大频繁项集挖掘被引量：2

Mining Full Weighted Maximal Frequent Itemsets Based on Sliding Window over Data Stream

下载PDF

导出

摘要针对当前关于数据流加权最大频繁项集WMFI(weighted maximal frequent itemsets)的研究无法有效地处理频繁阈值和加权频繁阈值不一致情况下WMFI的挖掘问题,提出了完全加权最大频繁项集FWM FI(full w eighted maximal frequent itemsets)的概念.为了减少naive算法在处理滑动窗口下完全加权最大频繁项集挖掘时存在的冗余运算,提出了FWMFI-SW(FWMFI mining based on sliding window over data stream)算法.所提出的算法通过基于频繁约束条件的优化策略减少了naive算法中M ax W优化策略的无效调用次数;采用编辑距离比率作为WMFP-SW-tree的重构判别函数,可以有效减少该树的重构次数.实验结果表明FWMFI-SW算法是有效的,且比naive算法更有时间优势. Aiming at the problem that none of current researches on the WMFI （ weightedmaximal frequent itemsets） over data stream emphasizes the WMFI mining on the condition thatthe frequent threshold is not equal with the weighted frequent threshold, the concept of FWMFI（full weighted maximal frequent itemsets） was firstly promoted in this work. In order to reduceredundant operations existing in the naive algorithm which is used to handle the FWMFI miningbased on sliding window over data stream, the FWMFI - SW （ FWMFI mining based on slidingwindow over data stream） algorithm was proposed. The mining optimization strategy was adoptedbased on the frequent character to reduce the unnecessary call about the MaxW optimizationstrategy in the naive algorithm. In addition, the edit distance ratio was taken as reconstruction9udge function to decide whether the updated WMFP - SW - tree should be reconstructed as thewindow slides. The extensive experiments showed that the FWMFI - SW algorithm is effective,and outperforms the naive algorithm in running time.

作者王少鹏闻英友赵宏

机构地区东北大学信息科学与工程学院东北大学医学影像计算教育部重点实验室

出处《东北大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第7期931-936,共6页 Journal of Northeastern University(Natural Science)

基金国家自然科学基金资助项目(60903159 61173153 61402096) 中央高校基本科研业务费专项资金资助项目(N110818001 N100218001 N130504007 N120104001) 沈阳市科技计划项目(1091176-1-00) 国家高技术研究发展计划项目(2015AA016005)

关键词数据流滑动窗口编辑距离比率加权最大频繁项集重构判别函数 data stream sliding window edit distance ratio weighted maximal frequentitemsets reconstruction judge function

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1李国徽,陈辉.挖掘数据流任意滑动时间窗口内频繁模式[J].软件学报,2008,19(10):2585-2596. 被引量：45
2敖富江,颜跃进,刘宝宏,黄柯棣.在线挖掘数据流滑动窗口中最大频繁项集[J].系统仿真学报,2009,21(4):1134-1139. 被引量：9

二级参考文献27

1B Babcock, S Babu, M Datar, R Motwani, J Widom. Models and Issues in Data Stream Systems [C]// Proc. of PODS'2002. USA: ACM, 2002: 1-16.
2D Lee, W Lee. Finding maximal frequent itemscts over online data streams adaptively [C]// Proc. of the Fifth IEEE International Conference on Data Mining. Houston. USA: IEEE, 2005: 266-273.
3H Li, S Lee, M Shan. Online mining (recently) maximal frequent itemsets over data streams [C]//Proc. of the fifteenth International Workshops on Research Issues in Data Engineering: Stream Data Mining and Applications, Tokyo, Japan. USA: IEEE, 2005:11-18.
4G Mao, X Wu, X Zhu, et al. Mining maximal frequent itemsets from data streams [J]. Journal of Information Science, 2007, 33(3): 251-262.
5G Grahne, J Zhu. Efficiently Using Prefix-trees in Mining Frequent Itemsets [C]// Proc. of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations. USA: IEEE, 2003.
6Y Yah, Z Li, H Chen. Fast Mining Maximal Frequent ItemSets Based on FP-Tree [C]//Proc. of AI'2004, Cairns Australia, December, 2004. Germany: Springer, 2004: 475-487.
7F Ao, Y Yan, J Huang, K Huang. A Novel Pruning Technique for Mining Maximal Frequent Itemsets [C]// Proc. of FSKD'2007, Haikou, China, August, 2007. USA: IEEE, 2007:469-473.
8Y Zhu, D Shasha. StatStream: Statistical monitoring of thousands of data streams in real time [C]//Proc. of the 28th Int'l Conf. on Very Large Data Bases. Hong Kong: Morgan Kaufmann, 2002: 358-369.
9J Han, J Pei, Y Yin. Mining frequent patterns without candidate generation [C]//Proc. of the Special Interest Group on Management of Data 2000. USA: ACM, 2000: 1-12.
10B Roberto. Efficiently mining long patterns from databases [C]// ACM SIGMOD Conference, 1998. USA: ACM, 1998: 1748-1752.

共引文献49

1邓爱萍.网络热点发现与跟踪算法研究[J].计算机与现代化,2009(12):122-124. 被引量：2
2朱参世,李响,朱琳.基于流数据分类挖掘算法在入侵检测的应用[J].微计算机信息,2010,26(12):80-81.
3朱参世,李响.自适应模糊决策树算法在数据流挖掘中的应用[J].现代电子技术,2010,33(10):63-65. 被引量：2
4吴枫,仲妍,吴泉源.基于时间衰减模型的数据流频繁模式挖掘[J].自动化学报,2010,36(5):674-684. 被引量：9
5陈辉.挖掘数据流滑动时间窗口内Top-K频繁模式[J].小型微型计算机系统,2010,31(6):1123-1128. 被引量：2
6杨君锐,黄威.基于前缀树的数据流频繁模式挖掘算法[J].华中科技大学学报（自然科学版）,2010,38(7):107-110. 被引量：2
7倪志伟,姜苗,王超,戴奇波.在线挖掘数据流混合窗口中闭频繁项集[J].系统仿真学报,2010,22(9):2110-2114. 被引量：2
8琚春华,许翀寰.基于有序复合策略的数据流最大频繁项集挖掘[J].情报学报,2010,29(5):864-871.
9冯博,徐雅静,赵娜,徐惠民.数据流中的频繁标记闭子树的批量挖掘[J].北京邮电大学学报,2010,33(5):121-125.
10张月琴,陈东.数据流最大频繁项挖掘方法[J].计算机工程,2010,36(22):86-87. 被引量：2

同被引文献10

1宋威,刘明渊,李晋宏.基于事务型滑动窗口的数据流中高效用项集挖掘算法[J].南京大学学报（自然科学版）,2014,50(4):494-504. 被引量：4
2王乐,冯林,王水.不产生候选项集的TOP-K高效用模式挖掘算法[J].计算机研究与发展,2015,52(2):445-455. 被引量：9
3韩萌,王志海,原继东.一种基于时间衰减模型的数据流闭合模式挖掘方法[J].计算机学报,2015,38(7):1473-1483. 被引量：16
4邢淑凝,刘方爱,赵晓晖.基于聚类划分的高效用模式并行挖掘算法[J].计算机应用,2016,36(8):2202-2206. 被引量：25
5闻英友,王少鹏,赵宏.界标窗口下数据流最大规范模式挖掘算法研究[J].计算机研究与发展,2017,54(1):94-110. 被引量：4
6谢志轩,李玉强.一种改进的流数据上的高效用模式挖掘算法[J].小型微型计算机系统,2017,38(9):2080-2085. 被引量：3
7茹蓓,贺新征.高效的数据流完全频繁项集挖掘算法[J].计算机工程与设计,2017,38(10):2759-2766. 被引量：11
8郭世明,高宏.基于滑动窗口挖掘数据流高效用项集的有效算法[J].哈尔滨工程大学学报,2018,39(4):721-729. 被引量：6
9王少峰,韩萌,贾涛,张春砚,孙蕊.数据流高效用模式挖掘综述[J].计算机应用研究,2020,37(9):2571-2578. 被引量：5
10韩萌,丁剑.数据流频繁模式挖掘综述[J].计算机应用,2019,39(3):719-727. 被引量：12

引证文献2

1王少峰,韩萌,贾涛,张春砚,孙蕊.数据流高效用模式挖掘综述[J].计算机应用研究,2020,37(9):2571-2578. 被引量：5
2孙蕊,韩萌,张春砚,申明尧,杜诗语.精简高效用模式挖掘综述[J].计算机应用研究,2021,38(4):975-981. 被引量：3

二级引证文献7

1张春砚,韩萌,孙蕊,杜诗语,申明尧.高效用模式挖掘关键技术综述[J].计算机应用研究,2021,38(2):330-340. 被引量：5
2孙蕊,韩萌,张春砚,申明尧,杜诗语.精简高效用模式挖掘综述[J].计算机应用研究,2021,38(4):975-981. 被引量：3
3单芝慧,韩萌,韩强.动态数据上的高效用模式挖掘综述[J].计算机应用,2022,42(1):94-108. 被引量：5
4李慕航,韩萌,陈志强,武红鑫,张喜龙.面向复杂高效用模式的挖掘算法综述[J].广西师范大学学报（自然科学版）,2022,40(3):13-30. 被引量：1
5高智慧,韩萌,李昂,刘淑娟,穆栋梁.HHUIM:一种新的启发式高效用项集挖掘方法[J].计算机应用研究,2024,41(1):94-101.
6唐增金,徐贞顺,苏梦瑶,刘纳,王振彪,张文豪.频繁时序模式挖掘方法综述[J].计算机工程与应用,2024,60(17):48-61.
7吴军,魏丹丹,欧阳艾嘉,王亚.基于统计显著性检验的高效用项集挖掘算法[J].计算机应用研究,2024,41(10):2970-2977.

1陈晨.最大频繁项集挖掘算法综述[J].电脑知识与技术,2008,0(11Z):1030-1031.
2李蓉,周维柏.基于多特征选取和类完全加权的入侵检测[J].计算机技术与发展,2014,24(7):145-148. 被引量：2
3黄名选,严小卫,张师超.完全加权关联规则挖掘及其在查询扩展中的应用[J].计算机应用研究,2008,25(6):1724-1727. 被引量：8
4黄名选,严小卫,张师超.基于完全加权关联规则挖掘和查询扩展的信息检索[J].计算机应用与软件,2009,26(8):26-28. 被引量：8
5黄松英.基于最大频繁项集挖掘的入侵检测研究[J].绍兴文理学院学报,2007,27(10):32-36. 被引量：1
6邓忠军,宋威,郑雪峰,王少杰.P2P网络中最大频繁项集挖掘算法研究[J].计算机应用研究,2010,27(9):3490-3492. 被引量：1
7黄名选,严小卫,张师超.基于两次剪枝的完全加权关联规则挖掘算法[J].情报理论与实践,2008,31(1):137-140. 被引量：2
8黄名选,严小卫,张师超.基于完全加权关联规则的局部反馈查询扩展[J].计算机工程与应用,2008,44(7):190-192. 被引量：3
9黄名选,严小卫,张师超.基于文本库的完全加权词间关联规则挖掘算法[J].广西师范大学学报（自然科学版）,2007,25(4):24-27. 被引量：15
10彭慧伶,舒云星,武新.基于FP-tree的最大频繁项集挖掘新算法[J].计算技术与自动化,2009,28(2):62-65.

东北大学学报（自然科学版）

2016年第7期

浏览历史

内容加载中请稍等...

滑动窗口下数据流完全加权最大频繁项集挖掘被引量：2

参考文献2

二级参考文献27

共引文献49

同被引文献10

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

滑动窗口下数据流完全加权最大频繁项集挖掘 被引量：2

参考文献2

二级参考文献27

共引文献49

同被引文献10

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

滑动窗口下数据流完全加权最大频繁项集挖掘被引量：2