在FP-树中挖掘频繁模式而不生成条件FP-树被引量：56

Mining Frequent Patterns in an FP-tree Without Conditional FP-tree Generation

下载PDF

导出

摘要 FP growth算法是目前已发表的最有效的频繁模式挖掘算法之一然而 ,由于在挖掘频繁模式时需要递归地生成大量的条件FP 树 ,其时空效率仍然不够高改进了FP 树结构 ,提出了一种基于被约束子树挖掘频繁项集的有效算法改进的FP 树是单向的 ,每个结点只保留指向父结点的指针 ,这大约节省了三分之一的树空间通过引入被约束子树(可以用 3个很小的数组表示 ) ,算法在挖掘频繁模式时不生成条件FP 树 ,从而大大提高了频繁模式挖掘的时空效率实验表明 ,与FP growth算法相比 ,算法的挖掘速度提高了 1倍以上 ,而所需的存储空间减少了一半此外 ,随着数据库规模的增大 ,算法具有很好的可伸缩性对于稠密数据集 ,算法也具有良好的性能 . FP-growth algorithm is one of the most efficient frequent pattern mining methods published recently. However, FP-growth algorithm must generate a huge number of conditional FP-trees recursively in process of mining, so the efficiency of FP-growth remains unsatisfactory. In this paper, the structure of a traditional FP-tree is improved and an efficient frequent pattern-mining algorithm based on constrained sub-tree is proposed. The new FP-tree is a one-way tree and there is no pointers to point its children in each node, so at least one third of memory is saved compared with the former structure in the same storage of frequent pattern information. By introducing constrained sub-tree (consisting of three small arrays), the proposed algorithm doesn't generate conditional FP-trees in mining process and therefore greatly improves the mining efficiency in both time and space. Experiments show that in comparison with FP-growth, this algorithm has accelerated the mining speed by at least two times and reduced the space consumption by half. Moreover, the algorithm has a very good time and space scalability with the number of transactions, and has an excellent performance in dense database mining as well.

作者范明李川

机构地区郑州大学计算机科学系

出处《计算机研究与发展》 EI CSCD 北大核心 2003年第8期1216-1222,共7页 Journal of Computer Research and Development

基金河南省自然科学基金 ( 0 1110 60 70 0 )

关键词数据挖掘频繁模式 FP-树 data mining frequent pattern FP-tree

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1范明等.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.8.
2R Agrawal, R Srikant. Fast algorithms for mining association rules. In: Proc of 1994 Int'l Conf on Very Large Data Bases.Santiago, Chili: VLDB Endowment, 1994. 487--499.
3J S Park, M S Chen, P S Yu. An effective Hash-based algorithm for mining association rules. In: Proc of 1995 ACM-SIGMOD Int'l Cord on Management of Data. San Jose, CA: ACM Press,1995. 175--186.
4S Brin, R Motwani, C Silvemtein. Beyond market basket:Generalizing association rules to correlations. In: Proe of 1997 ACM-SIGMOD Int'l Conf on Management of Data. Tucson, AZ:ACM Press, 1997. 265--276.
5R Agrawal, R Srikant. Mining sequential patterns. In: ICDE'95. Taipei, Taiwan: IEEE Computer Society Press, 1995. 3--14.
6G Dong, J Li. Efficient mining of emerging patterns: Discovering trends and differences. In: Proc of the 5th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining. San Diego, CA:ACM Press, 1999. 43~52.
7J Han, J Pei, Y Yin. Mining frequent patterns without candidate generation. In: Proe of 2000 ACM-SIGMOD Int'l Conf on Management of Data. Dallas, TX: ACM Press, 2000. 1--12.
8Artur Bykowski, Christophe Rigotti. A eondemsed representation to find frequent patterns. In: Proe of the 20th ACM SIGACT-SIGMOD-SIGART Symp on Principles of Database Systems(PODS 2001). Santa Barbara, CA: ACM Press, 2001. 267~273.

共引文献10

1刘晓玲.一种利用逻辑运算挖掘关联规则的算法[J].济南职业学院学报,2007(1):58-59.
2蓝荣钦,杨晓梅.领域专家知识及其在空间数据挖掘中的作用[J].测绘学院学报,2004,21(2):141-144. 被引量：3
3王映辉,姜在旸,闫英杰,刘保延,朱建贵,田琳,高荣林,李平,焦拥政.基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术-中医药现代化,2005,7(1):98-105. 被引量：87
4陆爱军,刘冰,刘海波,周家驹.中药化学数据库关联规则的挖掘[J].计算机与应用化学,2005,22(2):108-112. 被引量：17
5谭勇,吕爱平,车念聪,吕诚,蔡念宁,张广中,姜春燕.数据挖掘在中医学术流派研究中的应用[J].时珍国医国药,2007,18(12):2990-2991. 被引量：8
6徐峰.基于二进制表示的频繁项集挖掘算法[J].现代计算机,2008,14(4):13-15.
7朱玉全,孙志挥.大型事务数据库中的一种快速的规则挖掘算法[J].计算机科学,2002,29(10):59-60. 被引量：4
8蒋志全,陈燕.基于遗传算法的关联规则挖掘模型[J].大连海事大学学报,2003,29(3):97-100. 被引量：6
9朱凌云,吴宝明,曹长修.医学数据挖掘的技术、方法及应用[J].生物医学工程学杂志,2003,20(3):559-562. 被引量：37
10周忠眉.数据挖掘在方剂配伍规律研究应用的探讨[J].漳州师范学院学报（自然科学版）,2003,16(4):31-35. 被引量：13

同被引文献415

1陈龙伟,汪关妹,冯小英,张宏伟,丁瑞霞,张万福.沁水盆地LB区块煤系地层渗透率预测[J].石油地球物理勘探,2020(S01):85-91. 被引量：4
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
3尚学群,沈均毅.并行关联规则挖掘综述[J].计算机工程,2004,30(14):1-3. 被引量：8
4陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
5秦吉胜,宋瀚涛.关联规则挖掘AprioriHybrid算法的研究和改进[J].计算机工程,2004,30(17):7-8. 被引量：10
6吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
7颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
8郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
9高俊,施伯乐.快速关联规则挖掘算法研究[J].计算机科学,2005,32(3):200-201. 被引量：10
10耿新青,王正欧.一种挖掘模糊相似关联规则的新方法[J].计算机应用,2005,25(5):985-988. 被引量：5

引证文献56

1李泓冰.WTO的眉批:伤脑筋的道德成本[J].理论参考,2002(S1):46-46.
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
3谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
4蔡高明.一种快速挖掘模糊频繁项集的方法[J].科技经济市场,2008(3):5-6.
5庄蔚蔚,姜青山.恶意软件鉴别技术及其应用[J].集成技术,2012,1(1):55-64. 被引量：3
6丁欣,马严,吴军.适用于校园网的视频推荐系统的设计与实现[J].通信学报,2013,34(S2):175-179. 被引量：4
7李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
8赵艳铎,宋斌恒.基于逆向FP-树的频繁模式挖掘算法[J].计算机应用,2005,25(6):1385-1387. 被引量：8
9秦亮曦,史忠植.多时间序列跨事务关联分析研究[J].计算机工程与应用,2005,41(27):10-12. 被引量：4
10秦亮曦,史忠植.关联规则研究综述[J].广西大学学报（自然科学版）,2005,30(4):310-317. 被引量：22

二级引证文献190

1程玉胜,邓小光,江效尧.Apriori算法中频繁项集挖掘实现研究[J].计算机技术与发展,2006,16(3):58-60. 被引量：16
2常睿,崔志明.数据挖掘在网络管理中的应用[J].福建电脑,2006,22(9):179-180.
3刘芝怡,崔志明.数据挖掘技术在教育领域中的作用[J].福建电脑,2006,22(9):191-191. 被引量：2
4宋宝莉,覃征.分布式数据库的全局频繁项目集高效更新算法[J].计算机工程与应用,2006,42(31):157-160. 被引量：1
5宋宝莉,覃征.分布式环境下关联规则的安全挖掘算法[J].计算机工程,2006,32(21):35-37. 被引量：6
6孙志强.基于FP-Growth的入侵检测研究[J].计算机技术与发展,2006,16(12):233-236.
7周涛.逆向索引FP-tree挖掘频繁项集[J].现代电子技术,2007,30(4):143-145.
8何宏,肖伟平,郭潇婕.稀疏矩阵的关联规则挖掘算法研究[J].湖南工程学院学报（自然科学版）,2007,17(1):49-51.
9宋宝莉,覃征.分布式数据库关联规则的安全挖掘算法研究[J].计算机工程与应用,2007,43(6):181-183. 被引量：4
10宋宝莉,覃征.分布式数据库关联规则更新算法[J].西安交通大学学报,2007,41(4):416-420.

1王莘,张红旗,汪永伟,侯兴超.一种改进的适于安全审计数据分析的关联算法[J].信息工程大学学报,2007,8(1):22-25. 被引量：1
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
3龚莎.网页验证码技术综述[J].信息与电脑（理论版）,2014,0(2):143-144. 被引量：4
4代月明,朱习军,刘连玉.基于集体度一置信度的关联规则挖掘[J].青岛建筑工程学院学报,2005,26(2):74-77. 被引量：2
5王悠.大数据的数据生成条件——蜂花关系[J].新闻传播,2014(12):37-37.
6宋宝莉,覃征.分布式全局频繁项目集的快速挖掘方法[J].西安交通大学学报,2006,40(8):923-927. 被引量：11
7董平,胥杰,苏力萍.一种基于TFP树的频繁项集改进挖掘算法[J].微计算机信息,2007,23(33):139-140. 被引量：2
8苏士俊.动态生成“条件字符串”完成随机查询[J].中国计算机用户,1991(6):27-28.
9苏士俊.怎样动态生成条件字符串完成随机查询[J].电脑开发与应用,1991,4(4):56-57.
10王现君,宋晶晶,姜保庆.在单向FP-tree上挖掘频繁闭项集[J].计算机工程与应用,2008,44(10):150-153. 被引量：4

计算机研究与发展

2003年第8期

浏览历史

内容加载中请稍等...

在FP-树中挖掘频繁模式而不生成条件FP-树被引量：56

参考文献8

共引文献10

同被引文献415

引证文献56

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

在FP-树中挖掘频繁模式而不生成条件FP-树 被引量：56

参考文献8

共引文献10

同被引文献415

引证文献56

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

在FP-树中挖掘频繁模式而不生成条件FP-树被引量：56