改进的基于频繁模式树的最大频繁项集挖掘算法——FP-MFIA 被引量：16

FP-MFIA: improved algorithm for mining maximum frequent itemsets based on frequent-pattern tree

下载PDF

导出

摘要针对最大频繁项目集挖掘算法(DMFIA)当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FP-tree)结构的最大频繁项目集挖掘算法——FPMFIA。该算法根据FP-tree的项目头表,采用自底向上的搜索策略逐层挖掘最大频繁项目集,从而加速每次对候选集计数的操作。在挖掘时根据每层的条件模式基产生维数较低的非频繁项目集,尽早对候选项目集进行剪枝和降维,可大量减少候选项目集的数量。同时在挖掘时充分利用最大频繁项集的性质,减少搜索空间。通过算法在不同支持度下挖掘时间的对比可知,算法FP-MFIA在最小支持度较低的情况下时间效率是DMFIA以及基于降维的最大频繁模式挖掘算法(BDRFI)的2倍以上,说明FP-MFIA在候选集维数较高的时候优势明显。 Focusing on the drawback that Discovering Maximum Frequent Itemsets Algorithm （DMFIA） has to generate lots of maximum frequent candidate itemsets in each dimension when given datasets with many candidate items and each maximum frequent itemset is not long, an improved Algorithm for mining Maximum Frequent Itemsets based of Frequent- Pattern tree （FP-MFIA） for mining maximum frequent itemsets based on FP-tree was proposed. According to Htable of FP- tree, this algorithm used bottom-up searches to mine maximum frequent itemsets, thus accelerated the count of candidates. Producing infrequent itemsets with lower dimension according to conditional pattern base of every layer when mining, cutting and reducing dimensions of candidate itemsets can largely reduce the amount of candidate itemsets. At the same time taking full advantage of properties of maximum frequent itemsets will reduce the search space. The time efficiency of FP-MFIA is at least two times as much as the algorithm of DMFIA and BDRFI （ algorithm for mining frequent itemsets based on dimensionality reduction of frequent itemset） according to computational time contrast based on different supports. It shows that FP-MFIA has a clear advantage when candidate itemsets are with high dimension.

作者杨鹏坤彭慧周晓锋孙玉庆

机构地区中国科学院物联网研究发展中心江苏物联网研究发展中心无锡中科泛在信息技术研发中心有限公司国网枣庄供电公司

出处《计算机应用》 CSCD 北大核心 2015年第3期775-778,共4页 journal of Computer Applications

基金国家科技支撑计划项目(2012BAF12B08)

关键词最大频繁项集频繁模式树数据挖掘关联规则非频繁项集 maximum frequent itemset Frequent Pattern tree （FP-tree） data mining association rule infrequentitemset

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large database[C]//Proceedings of 1993 ACM SIGMOD Conference on Management of Data. New York: ACM, 1993:207-216.
2PARK J S, CHEN M-S, YU P S. An effective Hash-based algorithm for mining association rules[C]//Proceedings of 1995 ACM SIGMOD International Conference on Management of Data. New York: ACM, 1995: 175-186.
3LI H, WANG Y, ZHANG D, et al. PFP: parallel FP-growth for query recommendation[C]//Proceedings of the 2008 ACM Conference on Recommender Systems. New York: ACM, 2008:125-137.
4付冬梅,王志强.基于FP-tree和约束概念格的关联规则挖掘算法及应用研究[J].计算机应用研究,2014,31(4):1013-1015. 被引量：25
5GRAHNE G, ZHU J. High performance mining of maximal frequent itemsets[EB/OL].[2014-07-06]. http://www.docin.com/p-773109811.html.
6LIN D, KEDEM Z. Pincer-search: a new algorithm for discovering the maximum frequent set[C]//Proceedings of the 6th European Conference on Extending Database Technology. Berlin: Springer-Verlag, 1998:105-119.
7宋余庆,朱玉全,孙志挥,陈耿.基于FP-Tree的最大频繁项目集挖掘及更新算法[J].软件学报,2003,14(9):1586-1592. 被引量：164
8HAN J, PEI J, YIN Y. Mining frequent patterns without candidate generation[C]//Proceedings of the 2000 ACM-SIGMOD International Conference on Management of Data. New York: ACM, 2000:1-12.
9钱雪忠,惠亮.关联规则中基于降维的最大频繁模式挖掘算法[J].计算机应用,2011,31(5):1339-1343. 被引量：13
10赵志刚,王芳,万军.基于OWSFP-Tree的最大频繁项目集挖掘算法[J].计算机工程与设计,2013,34(5):1687-1690. 被引量：5

二级参考文献56

1秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：16
2梁吉业,王俊红.基于概念格的规则产生集挖掘算法[J].计算机研究与发展,2004,41(8):1339-1344. 被引量：56
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
4陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
5周钦亮,李玉忱,公爱国.一种新的高效生成FP-Tree条件模式基的算法[J].计算机应用,2006,26(6):1418-1421. 被引量：7
6王黎明,赵辉.基于FP树的全局最大频繁项集挖掘算法[J].计算机研究与发展,2007,44(3):445-451. 被引量：16
7.[EB/OL].http://www. ics. uci. edu/～ mlearn/MLRepository. html,1996.
8Han J.W.,Kamber M..Data Mining:Concepts and Techniques.Beijing:Higher Education Press,2001.
9Agrawal R.,ImielinSki T.,Swami A..Mining association rules between sets of items in large database.In:Proceedings of the ACM SIGMOD International Conference on Managementof Data,Washington,DC,1993,2:207-216.
10Srikant A.R..Fast algorithms for mining association rules.In:Proceedings of the 20th International Conference Very Large Data Bases(VLDB’94).Santiago,Chile,1994,487-499.

共引文献230

1谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
2姜晗,贾泂.基于标记域FP-Tree快速挖掘最大频繁项集[J].计算机研究与发展,2007,44(z2):334-349. 被引量：4
3杨种学.基于并行FP-growth算法挖掘网上关联交易规则[J].南京晓庄学院学报,2005,21(5):65-70.
4王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
5朱玉全,宋余庆,陈耿.约束最大频繁项目集的增量式更新算法[J].计算机工程,2004,30(18):31-32.
6杨君锐,赵群礼.一种不产生候选集的最大频繁集快速挖掘算法[J].微电子学与计算机,2004,21(11):125-128. 被引量：4
7张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
8李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
9吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
10陈天敏,姜丽红.基于预制数据库的FP-tree构造算法[J].计算机工程,2004,30(B12):58-61.

同被引文献134

1马志新,陈晓云,王雪,李龙杰.最大频繁项集挖掘中搜索空间的剪枝策略[J].清华大学学报（自然科学版）,2005,45(S1):1748-1752. 被引量：5
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：16
3任志玲,张媛媛.矿下电缆故障诊断的能量熵和PSO‐BP算法[J].系统仿真学报,2015,27(5):1044-1049. 被引量：9
4刘双跃,杨蕾,彭丽.基于改进Apriori算法的煤矿物态隐患系统设计与应用[J].煤炭技术,2015,34(4):318-320. 被引量：6
5施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
6吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
7颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
8秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
9宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
10谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134

引证文献16

1叶海琴,廖利,王意锋,张爱玲.一种新的频繁模式挖掘算法[J].南京理工大学学报,2016,40(1):29-34. 被引量：2
2雷文东.基于时频维数的10kV电缆故障诊断[J].电网与清洁能源,2016,32(6):22-27. 被引量：2
3张心静,于嘉威,王红梅.基于回溯的最大频繁项集挖掘算法[J].电子科技,2016,29(8):78-81.
4李宝林,周坤,李仕伟.一种基于M-Bisearch的最大频繁项集挖掘算法研究[J].成都信息工程大学学报,2016,31(5):463-468.
5焦润海,张谦,陈超.基于Spark改进的最大频繁项集挖掘算法[J].计算机工程与设计,2017,38(7):1839-1843. 被引量：8
6尹治华,张大鹏,谭明,王新生.一种改进的基于FP-Tree的高效挖掘最大频繁项目集算法[J].济南大学学报（自然科学版）,2017,31(2):111-117. 被引量：8
7赵阳,吴廖丹.一种自底向上的最大频繁项集挖掘方法[J].计算机技术与发展,2017,27(8):57-60. 被引量：3
8茹蓓,贺新征.高效的数据流完全频繁项集挖掘算法[J].计算机工程与设计,2017,38(10):2759-2766. 被引量：11
9张斌,滕俊杰,满毅.改进的并行fp-growth算法在工业设备故障诊断中的应用研究[J].计算机科学,2018,45(B06):508-512. 被引量：7
10刘祥佳,程良伦.IFAMR:一种基于MapReduce的高效频繁项挖掘算法[J].广东工业大学学报,2017,34(2):86-91.

二级引证文献69

1刘春贵,赵筱蓉.PLC控制在高压系统中的应用[J].四川冶金,2000,22(2):57-59.
2李宝林,周坤,李仕伟.一种基于M-Bisearch的最大频繁项集挖掘算法研究[J].成都信息工程大学学报,2016,31(5):463-468.
3韩天鹏,王峰,王浩.基于FP-Growth算法构造批量增量的FP-tree[J].嘉应学院学报,2017,35(8):21-25. 被引量：3
4苏立.基于HHT变换和FOA_LSSVM的电缆故障诊断[J].计算机与现代化,2017(9):96-101. 被引量：5
5张维国.基于数据挖掘的高职师资管理系统的应用与实践[J].计算机时代,2018(1):86-89. 被引量：1
6张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机,2018,35(3):116-119. 被引量：13
7叶海琴,孟彩霞,王意锋,张爱玲.一种基于MapReduce的频繁模式挖掘算法[J].南京理工大学学报,2018,42(1):62-67. 被引量：4
8顾军华,高星,王守彬,武君艳,张素琪.基于大数据的IPTV视频评估模型[J].计算机应用与软件,2018,35(8):231-237. 被引量：1
9洪旺松,李俊,梁良,赵俊越,周峰,陈桐,王晓东,徐俊.移动互联技术在电缆故障快速定位中的应用[J].电力信息与通信技术,2018,16(8):77-82. 被引量：2
10周鹏.非结构化网络分布式差异数据实时挖掘仿真[J].计算机仿真,2018,35(9):333-337. 被引量：2

1汪成亮,罗昌银.一种基于组合方式改进的频繁项集挖掘算法[J].计算机系统应用,2010,19(1):67-71. 被引量：3
2王春风,周宁.数据挖掘算法的改进及其在Chord网络中的应用[J].计算机应用,2012,32(1):199-201. 被引量：2
3郑斌.基于SQL技术的频繁模式的发掘[J].中原工学院学报,2008,19(5):56-60.
4张翠翠,阮树骅.用于短频繁项的隐私保护关联规则挖掘方法[J].电子科技,2016,29(5):88-92. 被引量：5
5陈福集,李福平.基于多个最小支持度的频繁项目集挖掘算法[J].计算机工程,2011,37(24):36-37. 被引量：2
6唐颖峰,陈世平.一种基于后缀项表的并行闭频繁项集挖掘算法[J].计算机应用研究,2014,31(2):373-377. 被引量：11
7魏本昌.基于信息表和差集的关联规则挖掘[J].计算机应用与软件,2010,27(12):202-204. 被引量：4
8李涛.一种快速的关联规则挖掘算法[J].软件导刊,2007,6(12):140-141. 被引量：1
9王景中,任虎.一种改进的FP_growth算法[J].网络安全技术与应用,2010(7):79-81.
10李金忠,梁正友.一种引入索引加速挖掘关联规则的高效算法[J].计算机工程与科学,2009,31(4):69-71.

计算机应用

2015年第3期

浏览历史

内容加载中请稍等...