一种改进的数据流最大频繁项集挖掘算法被引量：4

An improved algorithm for mining maximal frequent itemsets over data streams

下载PDF

导出

摘要提出了一种基于DSM-MFI算法的改进算法DSMMFI-DS算法,它首先将事务数据按一定的全序关系存入DSFI-list列表中;然后按排序后的顺序存储到类似概要数据结构的树中;接着删除树中和DSFI-list列表中的非频繁项,同时删除窗口衰退支持数大的事务项;最后采用自顶向下和自底向上的双向搜索策略来挖掘数据流的最大频繁项集。通过用例分析和实验表明,该算法比DSM-MFI算法具有更好的执行效率。 Based on the algorithm of DSM-MFI, an improved algorithm, named DSMMFI-DS （Dic tionary Sequence Mining Maximal Frequent Itemsets over Data Streams）, is proposed. Firstly, it stores transaction data into DSFI-list in alphabetical order. Secondly, the data are stored sequentially into the tree similar to the summary data structure. Thirdly, non-frequent items in the tree and DSFI-list are re- moved, and the transaction items with the maximum count of window attenuation supports are deleted. Finally, the strategy （top-down and bottom-up two-way search） is used to mine maximal frequent itemsets over data streams, and case analysis and experiments prove that the algorithm DSMMFI-DS has bet- ter performance than the algorithm DSM-MFI.

作者胡健吴毛毛

机构地区江西理工大学信息工程学院

出处《计算机工程与科学》 CSCD 北大核心 2014年第5期963-970,共8页 Computer Engineering & Science

关键词数据挖掘数据流界标窗口最大频繁项集窗口衰减支持数 data mining data stream landmark windows maximal frequent itemsets window attenu-ation support count

分类号 TP274.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献14

1胡德敏,赵瑞可.一种改进的最大频繁项集挖掘算法[J].计算机应用与软件,2012,29(12):186-188. 被引量：2
2李海峰,章宁.数据流上的最大频繁项集挖掘方法[J].计算机工程,2012,38(21):45-48. 被引量：3
3敖富江,颜跃进,刘宝宏,黄柯棣.在线挖掘数据流滑动窗口中最大频繁项集[J].系统仿真学报,2009,21(4):1134-1139. 被引量：9
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5庄波,刘希玉,隆坤.TWCT-Stream:数据流上的频繁模式挖掘算法[J].计算机工程与应用,2009,45(20):147-150. 被引量：1
6颜跃进,李舟军,陈火旺.一种挖掘最大频繁项集的深度优先算法[J].计算机研究与发展,2005,42(3):462-467. 被引量：20
7黄树成,曲亚辉.数据流分类技术研究综述[J].计算机应用研究,2009,26(10):3604-3609. 被引量：18
8孟彩霞.面向数据流的频繁项集挖掘研究[J].计算机工程与应用,2010,46(24):138-140. 被引量：2
9花红娟,张健,陈少华.基于频繁模式树的约束最大频繁项集挖掘算法[J].计算机工程,2011,37(9):78-80. 被引量：15
10张月琴,陈东.数据流最大频繁项挖掘方法[J].计算机工程,2010,36(22):86-87. 被引量：2

二级参考文献127

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
4宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
5刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
6潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
7http://archive.ics.uci.edu/ml/datasets.html
8B Babcock, S Babu, M Datar, R Motwani, J Widom. Models and Issues in Data Stream Systems [C]// Proc. of PODS'2002. USA: ACM, 2002: 1-16.
9D Lee, W Lee. Finding maximal frequent itemscts over online data streams adaptively [C]// Proc. of the Fifth IEEE International Conference on Data Mining. Houston. USA: IEEE, 2005: 266-273.
10H Li, S Lee, M Shan. Online mining (recently) maximal frequent itemsets over data streams [C]//Proc. of the fifteenth International Workshops on Research Issues in Data Engineering: Stream Data Mining and Applications, Tokyo, Japan. USA: IEEE, 2005:11-18.

共引文献270

1谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
2姜晗,贾泂.基于标记域FP-Tree快速挖掘最大频繁项集[J].计算机研究与发展,2007,44(z2):334-349. 被引量：4
3杨种学.基于并行FP-growth算法挖掘网上关联交易规则[J].南京晓庄学院学报,2005,21(5):65-70.
4汪仁红,王家伟,梁宗保.基于投影和密度的高维数据流聚类算法[J].重庆交通大学学报（自然科学版）,2013,32(4):725-728. 被引量：1
5张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
6王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
7朱玉全,宋余庆,陈耿.约束最大频繁项目集的增量式更新算法[J].计算机工程,2004,30(18):31-32.
8杨君锐,赵群礼.一种不产生候选集的最大频繁集快速挖掘算法[J].微电子学与计算机,2004,21(11):125-128. 被引量：4
9张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
10李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3

同被引文献51

1于红,王秀坤,孟军.用有序FP-tree挖掘最大频繁项集[J].控制与决策,2007,22(5):520-524. 被引量：7
2Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479.
3SUGUNA N, THANUSHKODI K G. An independent rough set approach hybrid with artificial bee colony al- gorithm for dimensionality reduction[J]. AmericanJournal of Applied Sciences, 2011, 8(3): 261-266.
4WEN Jiahui, ZHONG Mingyang, WANG Zhiying. Ac- tivity recognition with weighted frequent patterns min- ing in smart environments [J]. Expert Systems with Applications, 2015, 42(17): 6423 -6432.
5ZHANG Zheng, TANG Ping, DUAN Rubing. Dynamic time warping under pointwise shape context, Informa- tion Sciences[J]. 2015, 4(315) : 88-101.
6ALTINEL B, GANIZ M C, DIRI B. A corpus-based semantic kernel for text classification by using meaning values of terms [J]. Engineering Applications of Artifi- cial Intelligence, 2015, 43: 54-66.
7CAMPAGNI R, MERLINI D, SPRUGNOLI R, et al. Data mining models for student careers[J]. Expert Svstems with ADDlications, 2015, 42(13): 5508-5521.
8Agrawal R,Imielinske T,Swami A.Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data . 1993
9Liu S H,Liu S J,Chen S X,et al.IOMRA-A high efficiency frequent itemset mining algorithm based on the Map Reduce com putation model. Proceedings-17th IEEE International Conferen ce on Computational Science and Engineering . 2015
10Gunopulos D,Mannila H,Saluja S.Discovering all most spe cific sentence by randomized algorithms. 6th International C onference in Database Theory . 1997

引证文献4

1杜晓明,代逸生.基于分辨矩阵和Apriori算法的关联规则挖掘研究与应用[J].中国科技论文,2015,10(20):2369-2372. 被引量：3
2郑斌.空间数据库中有效数据频繁项检测仿真研究[J].计算机仿真,2017,34(4):444-447. 被引量：3
3朱颢东,薛校博,李红婵,孟颍辉.海量数据下基于Hadoop的分布式FP-Growth算法[J].轻工学报,2018,33(5):97-102. 被引量：4
4陈向华,刘可昂.基于FP-Tree的最大频繁项目集挖掘算法[J].软件,2015,36(12):98-102. 被引量：6

二级引证文献16

1李宝林,周坤,李仕伟.一种基于M-Bisearch的最大频繁项集挖掘算法研究[J].成都信息工程大学学报,2016,31(5):463-468.
2杨瀚涛,王向阳.基于垂直事务关系的快速Apriori算法[J].西安邮电大学学报,2017,22(2):98-102. 被引量：1
3田林琳.无人机空中通信数据库信息盲检索系统设计[J].计算机测量与控制,2018,26(6):211-214. 被引量：1
4朱兴动,章思宇,王正.飞机故障维修记录关联规则挖掘方法[J].兵器装备工程学报,2019,40(7):164-169. 被引量：8
5尚晓丽,包向辉.分布式空间数据库中有效数据频繁项实时检测[J].科学技术与工程,2018,18(19):224-229. 被引量：4
6龚晓燕,王国鹏,侯翼杰,薛馨禹,赵宽,吴悦,唐伟.综掘面粉尘最佳分布的风筒出风口参数调控规则研究[J].中国科技论文,2018,13(15):1772-1777. 被引量：3
7叶符明,李雯婷.内存数据库中图论频繁模式挖掘方法仿真[J].计算机仿真,2019,36(10):458-461. 被引量：2
8王利军,唐立.基于有序FP-tree结构和二维表的最大频繁模式挖掘算法[J].韶关学院学报,2019,40(9):21-25.
9付中玉,孙康,梁栋,徐震.水溶液中颗粒输送器的分子动力学模拟[J].软件,2019,40(12):28-32.
10梁栋,付中玉,孙康,徐震.水溶液中超高速纳米齿轮的分子动力学模拟[J].软件,2019,40(12):61-65. 被引量：1

1毛伊敏,杨路明,李宏,陈志刚,刘立新.一种有效的数据流最大频繁模式挖掘算法[J].高技术通讯,2010,20(3):246-252. 被引量：1
2吴媚,高玲.基于界标窗口的数据流频繁项集挖掘算法的改进[J].山东师范大学学报（自然科学版）,2014,29(3):21-25. 被引量：1
3王平水.基于聚类的匿名化隐私保护技术研究[J].现代图书情报技术,2010(11):53-58. 被引量：2
4闻英友,王少鹏,赵宏.界标窗口下数据流最大规范模式挖掘算法研究[J].计算机研究与发展,2017,54(1):94-110. 被引量：4
5张广路,雷景生,吴兴惠.界标窗口中数据流频繁模式挖掘算法研究[J].计算机工程,2012,38(1):55-58. 被引量：2
6闫红,迟呈英,李付学.一种基于VFDT算法的同构XML流分类方法[J].辽宁科技大学学报,2015,38(3):192-195.
7朱琳,刘晓东,朱参世.基于衰减滑动窗口数据流聚类算法研究[J].计算机工程与设计,2012,33(7):2659-2662. 被引量：6
8杨蓓,黄厚宽.挖掘数据流界标窗口Top-K频繁项集[J].计算机研究与发展,2010,47(3):463-473. 被引量：6
9张广路,雷景生.界标窗口数据流频繁模式挖掘特性[J].计算机工程与应用,2011,47(10):131-134.
10王平水,马钦娟.隐私保护k-匿名算法研究[J].计算机工程与应用,2011,47(28):117-119. 被引量：12

计算机工程与科学

2014年第5期

浏览历史

内容加载中请稍等...

一种改进的数据流最大频繁项集挖掘算法被引量：4

参考文献14

二级参考文献127

共引文献270

同被引文献51

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种改进的数据流最大频繁项集挖掘算法 被引量：4

参考文献14

二级参考文献127

共引文献270

同被引文献51

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种改进的数据流最大频繁项集挖掘算法被引量：4