基于链表数组的最大频繁项集挖掘算法被引量：4

Maximal Frequent Itemsets Mining Algorithm Based on Linked List Array

下载PDF

导出

摘要挖掘密集型数据集的全部频繁项集代价高昂,针对该问题,提出一种数据结构链表数组和基于链表数组的最大频繁项集快速生成算法。该方法使用链表数组为每个项目建立事务链表,并且链表的创建过程只需扫描数据库1次。使用深度优先搜索得到所有候选最大频繁项集,利用约束条件缩小搜索空间。使用标准数据集进行验证测试并与其他算法进行比较,实验结果表明,该算法具有较快的挖掘速度。 Mining all frequent itemsets in dense datasets is very expensive. Aiming at this problem, linked list array, a new data structure, and a fast method of Mining Frequent Itemsets（MFl） based on it are proposed. This method creates linked list array for each item, only needs scan database one time, uses depth-first search strategy to generate all MFI. The algorithm reduces search space by using constraint condition. It demonstrates the algorithm with standard dataset, and the experimental results confirm that the mining algorithm can significantly improve the speed of mining MFI compared with other algorithms.

作者刘应东冷明伟陈晓云

机构地区兰州交通大学交通运输学院上饶师范学院数学与计算机系兰州大学信息科学与工程学院

出处《计算机工程》 CAS CSCD 北大核心 2010年第6期89-90,93,共3页 Computer Engineering

基金江西省教育厅青年科学基金资助项目(GJJ09616) 江西省教育厅科技课题基金资助项目(GJJ09377)

关键词数据挖掘最大频繁项集链表数组解空间 data mining Maximal Frequent Itemsets（MFI） linked list array solution space

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1Chen M S, Han Jiawei, Yu P S. Data Mining: An Overview from a Database Perspective[J]. IEEE Transactions on Knowledge and Data Engineering, 1996, 8(6): 866-883.
2Agrawal R, Srikant T. Fast Algorithms for Mining Association Rules in Large Database[C]//Proc. of the 20th VLDB Conference. Santiago, Chile: [s. n.], 1994.
3Han Jiawei, Pei Jian, Yin Yiwen. Mining Frequent Patterns Without Candiate Generation[C]//Proc. of SIGMOD'00. Dallas, TX, USA: [s. n.], 2000.
4HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
5王晓东.计算机算法与设计[M].北京:电子工业出版社,2007.
6张忠平,李岩,杨静.基于矩阵的频繁项集挖掘算法[J].计算机工程,2009,35(1):84-86. 被引量：19
7钱光超,贾瑞玉,张然,李龙澍.Apriori算法的一种优化方法[J].计算机工程,2008,34(23):196-198. 被引量：47

二级参考文献11

1周焕银,张永,蔺鹏.一种不产生候选项挖掘频繁项集的新算法[J].计算机工程与应用,2004,40(15):182-185. 被引量：14
2焦学磊,王新庄.基于矩阵的频繁项集发现算法[J].江汉大学学报（自然科学版）,2007,35(1):43-46. 被引量：6
3Witten I H.Frank E.Data Mining:Practical Machine Learning Tools and Techniques[M].北京:机械工业出版社,2006.
4Tan Pangning, Steinbach M, Kumar V. Introduction to DataMining[M].北京:人民邮电出版社,2006.
5Agrawal R, Imielinski T, Swami A. Mining Association Rules Between Sets of Items in Large Databases[C]//Proc. of ACMSIGMOD Int'l Conf. on Management of Data. Washington D. C., USA: [s. n.], 1993.
6Han Jiawei, Pei Jian, Yin Yiwei. Mining Frequent Patterns Without Candidate Generation[C]//Proc. of the 2000 ACM-SIGMOD Int'l Conf. on Management of Data. Dallas, TX, USA: [s. n.], 2000.
7Wu Fan. A New Approach to Mine Frequent Patterns Using Item-transformation Methods[J]. Information Systems, 2007, 32(7): 1056-1072.
8王柏盛,刘寒冰,靳书和,马丽艳.基于矩阵的关联规则挖掘算法[J].微计算机信息,2007,23(05X):144-145. 被引量：18
9Han Jiawei,Micheline Kamber.Data mining:Concepts and techniques[M].北京:机械工业出版社,2001.
10孟祥萍,钱进,刘大有.基于数组的关联规则挖掘算法[J].计算机工程,2003,29(15):98-99. 被引量：20

共引文献212

1吴雨桐,吴思佳,杨建卫,何依娜,李洪凯,黄琳,刘云霞.基于Apriori算法分析2021年山东省医疗器械不良事件的关联性[J].山东大学学报（医学版）,2022,60(12):111-118. 被引量：5
2周丽娟,李爽,耿海军.关联规则Apriori改进算法[J].首都师范大学学报（自然科学版）,2009,30(S1):1-6. 被引量：2
3马建红,王万森.基于数据仓库的保险管理系统的设计与实现[J].微机发展,2004,14(7):55-58. 被引量：9
4赵欢,谭华.Apriori算法在语音合成应用中的一种改进[J].湖南大学学报（自然科学版）,2004,31(5):94-98. 被引量：2
5罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005,31(1):3-5. 被引量：62
6彭佳红,贺志勇,林雪梅.一种基于数据挖掘的混合生产过程质量控制方法[J].计算机工程与设计,2004,25(10):1692-1694. 被引量：2
7耿焕同,陈少军.一种基于传统VSM和词共现概念的中文文本聚类的研究[J].安徽师范大学学报（自然科学版）,2005,28(1):27-30. 被引量：2
8李林,崔志明.用户Web日志序列模式挖掘研究[J].微机发展,2005,15(5):119-121. 被引量：4
9李瑞,邱玉辉.基于离散点的蚁群聚类算法的研究[J].计算机科学,2005,32(6):111-113. 被引量：4
10常志玲,周庆敏,杨清莲.基于粗糙集理论的决策树构造算法[J].南京工业大学学报（自然科学版）,2005,27(4):80-83. 被引量：9

同被引文献26

1马志新,陈晓云,王雪,李龙杰.最大频繁项集挖掘中搜索空间的剪枝策略[J].清华大学学报（自然科学版）,2005,45(S1):1748-1752. 被引量：5
2刘文予,谢传荣.基于聚集矩阵的审计日志关联规则更新算法[J].微计算机信息,2006,22(10X):49-51. 被引量：1
3Julisch K. Data Mining for Intrusion Detection[M]//Barbara D, Jajodia S. Applications of Data Mining in Computer Security. Boston, USA: Kluwer Academic Publisher, 2002.
4HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
5毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2007.
6YANG Kai, MA Yuan. A fast algorithm for discovering maximum frequent itemsets[C]//Proc of the 21 th Int'l Conf on Communication Software and Networks. Xi'an, China, 2011: 434-438.
7HUANG Guoyang, WANG Libo, HU Changzhen, et al. An efficient algorithm based on time decay model for mining maximal frequent itemsets[C]//Proc of the 20th Int'l Conf on Machine Learning and Cybernetics. Perth, Australia, 2009: 2063 -2066.
8LIU Zhenyu, XU Weixiang, LIU Xumin. Efficiently using matrix in mining maximum frequent itemset[C]//Proc of the 20th Int'l Conf on Knowledge Discovery and Data Mining. Washington DC, USA, 2010: 50-54.
9Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [ C //Proc of ACM SIGMOP Conference on Management of Data. New York: ACM Press, 1993: 207-216.
10Wu F, Chiang S W, Lin J R. A new approach to mine frequent patterns using item-transformation methods [ J ]. Information Systems, 2007, 32 (7) : 1056-1072.

引证文献4

1彭剑,王小玲.基于聚类矩阵的入侵日志关联规则算法[J].计算机工程,2010,36(22):170-172.
2王春华,宁慧,邹韵,郭江鸿.基于图的四叉链表存储结构的最大频繁项集挖掘算法[J].应用科技,2013,40(1):76-79.
3张林,王宏海.一种改进的频繁项目集挖掘算法[J].阜阳师范学院学报（自然科学版）,2013,30(1):54-57. 被引量：1
4王茂华,郝云力,储小静.基于游程编码的最大频繁项集挖掘算法[J].赤峰学院学报（自然科学版）,2015,31(19):49-51. 被引量：1

二级引证文献2

1魏玲,郭新朋.行列混合存储的数据压缩策略研究[J].小型微型计算机系统,2017,38(6):1267-1272.
2龚晨,王诗兵.基于集合和剪枝原理的关联规则隐藏算法[J].阜阳师范学院学报（自然科学版）,2019,36(4):61-66. 被引量：2

1常睿.Apriori算法的一种改进方法[J].计算机光盘软件与应用,2012,15(19):19-20. 被引量：2
2王希馗.一种频繁项集挖掘改进算法[J].硅谷,2011(10):191-192.
3王茂华,郝云力,储小静.基于游程编码的最大频繁项集挖掘算法[J].赤峰学院学报（自然科学版）,2015,31(19):49-51. 被引量：1
4唐露新,何爱君,陈辉.数控绗缝的位图轮廓矢量化优化方法研究[J].电子测量技术,2008,31(4):17-20.

计算机工程

2010年第6期

浏览历史

内容加载中请稍等...

基于链表数组的最大频繁项集挖掘算法被引量：4

参考文献7

二级参考文献11

共引文献212

同被引文献26

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于链表数组的最大频繁项集挖掘算法 被引量：4

参考文献7

二级参考文献11

共引文献212

同被引文献26

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于链表数组的最大频繁项集挖掘算法被引量：4