基于单向频繁模式树的频繁项集挖掘算法被引量：3

Frequent Itemset Mining Algorithm Based on UFP-tree

下载PDF

导出

摘要频繁项集挖掘是关联规则挖掘的关键步骤。FP-Growth算法是一种有效的频繁项集挖掘算法,它以自底向上的方式探索频繁模式树FP-tree,由FP-tree产生频繁项集。但是由于需要递归生成大量的条件FP-tree,其时间复杂度和空间复杂度都较高。针对这一问题,设计了一种基于单向频繁模式树的频繁项集挖掘算法UFIM。此算法首先构造一种单向频繁模式树UFP-tree结构,然后在UFP-tree上引入被约束子树,并对指向不同端点和指向相同端点的被约束子树分别采用递归和非递归的方法来挖掘频繁项集。非递归的方法判断端点的支持度计数是否小于最小支持度计数,若小于最小支持度计数则该棵被约束子树无频繁项集,否则其频繁项集是除根节点外的节点的排列组合。在mushroom数据集上的实验结果表明,UFIM算法的运行速度高于同类算法。 Mining frequent itemset is a key step in mining association rules.The FP-Growth algorithm is an efficient frequent itemset mining algorithm which explores the frequent pattern tree(FP-tree)by a bottom-up way,and generates frequent items by mining the FP-tree.However,its time complexity and space complexity are high because of needing to recursively generate a large number of conditional FP-tree.Aiming at this problem,we design a frequent itemset mining algorithm named UFIM based on unidirectional frequent pattern tree.This algorithm first constructs a unidirectional frequent pattern tree(UFP-tree)structure,then introduces a constrained sub-tree on the constructed UFP-tree;divides the constrained sub-tree into two cases:pointing to different endpoints and pointing to the same endpoints,and respectively uses recursive method and non-recursive method to mine frequent itemset.The non-recursive method determines whether the endpoint’s support count is smaller than the minimum support count.If it is smaller,the restricted sub-tree does not have frequent itemset,otherwise the frequent itemset of the restricted subtree is a node arrangement combination of the nodes besides root node.The experiment of mining frequent item set on the mushroom dataset shows that the running speed of the UFIM algorithm is higher than similar algorithms.

作者蒋东洁李玲娟 JIANG Dong-jie;LI Ling-juan(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2019年第10期175-180,共6页 Computer Technology and Development

基金国家自然科学基金(61302158,61571238)

关键词数据挖掘频繁项集单向频繁模式树被约束子树 data mining frequent itemset UFP-tree constrained sub-tree

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1董平,胥杰,苏力萍.一种基于TFP树的频繁项集改进挖掘算法[J].微计算机信息,2007,23(33):139-140. 被引量：2
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
3李也白,唐辉,张淳,贺玉明.基于改进的FP-tree的频繁模式挖掘算法[J].计算机应用,2011,31(1):101-103. 被引量：20
4范明,李川.在FP-树中挖掘频繁模式而不生成条件FP-树[J].计算机研究与发展,2003,40(8):1216-1222. 被引量：56
5王新宇,杜孝平,谢昆青.FP-growth算法的实现方法研究[J].计算机工程与应用,2004,40(9):174-176. 被引量：27
6赵孝敏,何松华,李贤鹏,尹波.一种改进的FP-Growth算法及其在业务关联中的应用[J].计算机应用,2008,28(9):2341-2344. 被引量：5
7谭军,卜英勇,杨勃.一种基于FP阵列技术的频繁模式挖掘算法[J].计算机科学,2009,36(7):208-210. 被引量：2

二级参考文献49

1杨健兵.数据挖掘中关联规则的改进算法及其实现[J].微计算机信息,2006(07X):195-197. 被引量：26
2[1]J Han,Micheline Kamber. Data Mining:Concepts and Techniques[M].Morgan Kaufmann Publishers,2001
3[2]R Agrawal,R Srikant. Fast algorithms for mining association rules[C].In: VLDB ′94,1994: 487～499
4[3]R Agrawal ,T Imielinski ,A Swami. Mining association rules between sets of items in large databases[C].In:Proc 1993 ACM-SIGMOD Int Conf Management of Data (SIGMOD′93), Washington, DC, 1993-05:207～216
5[4]J S Park ,M S Chen,P S Yu. An effective hash-based algorithm for mining association rules[C].In:SIGMOD'95,1995:175～186
6[5]J Han,J Pei,Y Yin. Mining frequent patterns without candidate generation[C].In: Proc ACM SIGMOD, 2000:1～12
7[6]C A Shaffer. Data Structures and Algorithm Analysis[M].Prentice Hall,1997
8[1]R Agrawal,R Srikant.Fast algorithms for mining association rules.In:J Bocca,M Jarke,C Zaniolo,eds.Proc of the 20th Int'l Conf on Very Large DataBases (VLDB'94).San Francisco:Morgan Kaufmann,1994.487-499
9[2]M Zaki,S Parthasarathy,M Ogihara,et al.New algorithms for fast discovery of association rules.In:D Heckerman,et al,eds.Proc of the 3rd Int'l Conf on Knowledge Discovery and Data Mining (KDD'97).Menlo Park,CA:AAAI Press,1997
10[3]J Han,J Pei,Y Yin.Mining frequent patterns without candidate generation.In:M Dunham,J Naughton,W Chen,eds.Proc of 2000 ACM-SIGMOD Int'l Conf on Management of Data (SIGMOD'00).New York:ACM Press,2000.1-12

共引文献113

1李泓冰.WTO的眉批:伤脑筋的道德成本[J].理论参考,2002(S1):46-46.
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
3谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
4蔡高明.一种快速挖掘模糊频繁项集的方法[J].科技经济市场,2008(3):5-6.
5庄蔚蔚,姜青山.恶意软件鉴别技术及其应用[J].集成技术,2012,1(1):55-64. 被引量：3
6丁欣,马严,吴军.适用于校园网的视频推荐系统的设计与实现[J].通信学报,2013,34(S2):175-179. 被引量：4
7李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
8赵艳铎,宋斌恒.基于逆向FP-树的频繁模式挖掘算法[J].计算机应用,2005,25(6):1385-1387. 被引量：8
9秦亮曦,史忠植.多时间序列跨事务关联分析研究[J].计算机工程与应用,2005,41(27):10-12. 被引量：4
10王艳辉,吴斌,王柏.频繁子图挖掘算法综述[J].计算机科学,2005,32(10):193-196. 被引量：12

同被引文献31

1张自力,秦其明,董开发,张泽勋,贾兵.基于ArcSDE的空间数据库设计与实现[J].微计算机信息,2007,23(33):133-135. 被引量：18
2贺玲,蔡益朝,杨征.高维数据聚类方法综述[J].计算机应用研究,2010,27(1):23-26. 被引量：42
3王爱平,王占凤,陶嗣干,燕飞飞.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010,20(4):105-108. 被引量：69
4李也白,唐辉,张淳,贺玉明.基于改进的FP-tree的频繁模式挖掘算法[J].计算机应用,2011,31(1):101-103. 被引量：20
5朱金坛.数据挖掘Apriori算法的改进[J].电子设计工程,2013,21(15):37-40. 被引量：6
6欧阳为民,郑诚,蔡庆生.数据库中加权关联规则的发现[J].软件学报,2001,12(4):612-619. 被引量：96
7徐开勇,龚雪容,成茂才.基于改进Apriori算法的审计日志关联规则挖掘[J].计算机应用,2016,36(7):1847-1851. 被引量：50
8冀素琴,石洪波,吕亚丽,郭珉.基于粒化-融合的海量高维数据特征选择算法[J].模式识别与人工智能,2016,29(7):590-597. 被引量：4
9黄剑,李明奇,郭文强.基于Hadoop的Apriori改进算法研究[J].计算机科学,2017,44(7):262-266. 被引量：23
10赵阳,白凡.基于FP-tree的支持度计数优化策略[J].计算机技术与发展,2017,27(10):30-33. 被引量：1

引证文献3

1魏坤,王芳,黄树成.改进的频繁模式挖掘算法[J].计算机与数字工程,2021,49(11):2175-2179.
2赵欣灿,朱云,毛伊敏.基于MapReduce的高维数据频繁项集挖掘[J].计算机工程,2022,48(3):81-89. 被引量：6
3周迎,王芳,黄树成.基于矩阵和权重下的并行改进算法[J].计算机与数字工程,2022,50(10):2259-2262.

二级引证文献6

1贺丽,张哲,黄林竹.大数据技术在公路治超管理平台中的应用探究[J].电脑知识与技术,2022,18(19):20-21.
2马立平,张海燕.基于Hadoop的机群系统综合实验项目开发[J].计算机时代,2023(3):58-62.
3郑湘辉,张雪冰.计算机网络大规模高维数据流异常数据挖掘[J].黑龙江工业学院学报（综合版）,2023,23(8):105-110.
4周春雷,董新微,季良,张璧君,许中平.基于改进DTW算法的高维时空数据关联挖掘方法[J].电子设计工程,2023,31(24):141-144.
5闫利霞,凌兴宏,尼洪涛.基于Apriori算法的混合型数据频繁项集挖掘算法[J].计算机仿真,2023,40(12):538-542.
6褚治广,李俊燕,陈昊,张兴.基于分布式多关联属性的高维数据差分隐私保护方法[J].计算机工程与设计,2024,45(4):967-973.

1张雪.初中英语课堂培养学生核心素养的方式探索[J].教育信息化论坛,2019,3(7):166-166.
2顾军华,李如婷,张亚娟,董彦琦.改进的频繁项集挖掘算法及其应用研究[J].计算机应用与软件,2019,36(9):260-269. 被引量：8
3胡存宏.具象助力概念教学——我的“直线、射线和角”教学[J].教学月刊（小学版）（数学）,2019(7):83-85.
4陈颖.声势律动在小学音乐教学中的运用方式探索[J].数码设计,2019,8(7):182-182.
5杨彩,喻铁朔,石月凤,徐明明,侯峰.基于FP-growth算法的课程关联性分析[J].中国教育信息化,2019,25(17):35-38. 被引量：2
6张娜,姜丽霞.内蒙古新型职业农民培育方式探索[J].农家致富顾问,2019,0(14):251-251.
7陈春谋.大数据环境下的档案管理系统信息检索及挖掘技术分析[J].电子测试,2019,0(14):92-94. 被引量：2
8王群,李馥娟,周倩.网络空间安全体系结构及其关键技术研究[J].南京理工大学学报,2019,43(4):495-504. 被引量：26
9吴思凡,杜煜,徐世杰,杨硕,杜晨.基于长短期记忆-异步优势动作评判的智能车汇入模型[J].汽车技术,2019(10):42-47.
10邝凯旋,张赟宁.基于ADMM算法的微电网多目标优化调度[J].电力科学与工程,2019,35(8):54-59. 被引量：6

计算机技术与发展

2019年第10期

浏览历史

内容加载中请稍等...

基于单向频繁模式树的频繁项集挖掘算法被引量：3

参考文献7

二级参考文献49

共引文献113

同被引文献31

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于单向频繁模式树的频繁项集挖掘算法 被引量：3

参考文献7

二级参考文献49

共引文献113

同被引文献31

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于单向频繁模式树的频繁项集挖掘算法被引量：3