一种频繁核心项集的快速挖掘算法被引量：6

A Fast Mining Algorithm for Frequent Essential Itemsets

下载PDF

导出

摘要传统的频繁核心项集挖掘需多次生成和反复扫描数据库,导致生成效率低下。为此,提出一种快速生成频繁核心项集算法FMEP。该算法使用Rymon枚举树作为搜索空间,并采用分而治之的策略选择特定的路径进行剪枝。利用频繁核心项集特有的反单调性质,可以快速地判断某一个候选项集是否为频繁核心项集,而无需和所有直接子集的析取支持度进行比较。通过上述方法,可以达到快速挖掘的目的。实验结果证明,该算法能够在挖掘出所有的频繁核心项集精简表示元素的同时,降低消耗时间,与MEP算法相比,在密集型数据集上的时间可缩短2倍以上,在稀疏型数据集上时间至少缩短30%。 Traditional frequent essential itemsets mining requires generating candidate itemsets and scanning database many times, which leads to the lower efficiency generation. Motivated by this, a fast algorithm of mining frequent essential itemsets is proposed. This algorithm uses Rymon enumeration tree as the strategy of space search and divide-and-conquer, meanwhile, it selects particular paths for pruning. It uses frequent essential itemsets unique properties to quickly determine whether a candidate itemset is a frequent essential itemset, without comparing with disjunctive support of all direct subsets. It is beneficial for quick mining. Experimental results show that this algorithm can correctly get all elements of frequent essential itemsets concise representation, and highly reduce the time consumption. It can reduce 2 times in dense datasets while reduce the time consumption in sparse datasets by 30% at least.

作者田卫东纪允

机构地区合肥工业大学计算机与信息学院

出处《计算机工程》 CAS CSCD 2014年第6期120-124,共5页 Computer Engineering

基金国家自然科学基金资助项目(60603068)

关键词数据挖掘频繁项集精简表示频繁核心项集 Rymon枚举树 data mining frequent itemsets concise representation frequent essential itemsets Rymon enumeration tree

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1HanJiawei MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004..
2李金凤,王怀彬.基于关联规则的网络故障告警相关性分析[J].计算机工程,2012,38(5):44-46. 被引量：9
3Liu Guimei, Li J, Wong L. Positive Borders or Negative Borders: How to Make Lossless Generator Based Represent- ations Concise[C]//Proc. of the 6th SIAM International Conference on Data Mining. [S. l.]: IEEE Press, 2006: 469- 473.
4Calders T, Goethals B. Non-derivable Itemset Mining[J]. Data Mining and Knowledge Discovery, 2007, 14(1): 171-206.
5Pasquier N, Bastide Y, Taouil R. Discovering Frequent Closed Itemsets for Association Rules[C]//Proc. of ICDT’99. [S. l.]: IEEE Press, 1999: 398-416.
6程转流,胡学钢.数据流中频繁闭合模式的挖掘[J].计算机工程,2008,34(16):50-52. 被引量：4
7Bykowski A, Rigtti C. A Condensed Representation of Find Frequent Patterns[C]//Proc. of PDOS’01. [S. l.]: IEEE Press, 2001: 56-63.
8Kryszkiewicz M. Concise Representation of Frequent Patterns Based on Disjunction-free Generators[C]//Proc. of ICDM’01. [S. l.]: IEEE Press, 2001: 305-312.
9Kryszkiewicz M, Gajek M. Concise Representation of Frequent Patterns Based on Generalized Disjunction-free Generators[C]// Proc. of PAKDD’02. [S. l.]: IEEE Press, 2002: 159-171.
10Casali A, Cicchetti R, Lakhal L. Essential Patterns: A Perfect Cover of Frequent Patterns[C]//Proc. of the 7th International Conference on Data Warehousing and Knowledge Discovery. Copenhagen, Denmark: Springer-Verlag, 2005: 428-437.

二级参考文献10

1吴扬扬,陈怀南.基于关联规则的通信网络告警相关性分析模型[J].通讯和计算机（中英文版）,2004,1(1):57-63. 被引量：11
2Yoo J S,Shekhars S,Clik M.A Join-less Approach for Co-location Pattern Mining:A Summary of Results[C] //Proc.of ICDM’05.Houston,USA:[s.n.] ,2005.
3Shen Yanguang,Liu Jie,Shen Jing.The Further Development of Weka Based on Positive and Negative Association Rules[C] //Proc.of ICICTA’10.Zhangjiajie,China:[s.n.] ,2010.
4Giannella C, Han Jiawei, Pei Jian, et al. Mining Frequent Patterns in Data Streams at Multiple Time Granularities[C]//Proc. of the NSF Workshop on Next Generation Data Mining. Cambridge, Mass, USA: MIT Press. 2003.
5Manku G S, Motwani R. Approximate Frequency Counts over Streaming Data[C]//Proc. of the 28th lnt'l Conference on Very Large Data Bases. Hong Kong, China: [s. n.], 2002.
6Arasu A, Manku G S. Approximate Counts and Quantiles over Sliding Windows[C]//Proc. of the 23rd ACM Symposium on Principles of Database Systems. Paris, France: ACM Press, 2004.
7Pasquier N, Bastide Y, Taouil R, et al. Discovering Frequent Closed Itemsets for Association Rules[C]//Proc. of the 17th Int'l Conf. on Database Theory. Berlin, German: Springer-Verlag, 1999.
8吴简,李兴明.基于关联规则的分布式通信网告警相关性研究[J].计算机科学,2009,36(11):204-207. 被引量：7
9李春喜,赵雷.一种改进的增量挖掘算法[J].计算机工程,2010,36(24):42-44. 被引量：4
10刘君强,孙晓莹,庄越挺,潘云鹤.挖掘闭合模式的高性能算法[J].软件学报,2004,15(1):94-102. 被引量：19

共引文献22

1徐巍,谭德荣,张业鹏.决策树在调查数据中的应用[J].山东理工大学学报（自然科学版）,2005,19(4):23-26. 被引量：1
2史海峰,徐涛.基于安全审计的监控系统模型的设计[J].计算机技术与发展,2006,16(4):221-223. 被引量：6
3安庆,余隋怀,万小健.基于相对最佳划分的加权K-平均聚类改进算法[J].微电子学与计算机,2008,25(1):66-68. 被引量：1
4段明秀.关联规则挖掘中Apriori算法的改进[J].沈阳师范大学学报（自然科学版）,2008,26(4):442-445. 被引量：2
5张宇,宋顺林.基于XML的Web数据自动挖掘[J].计算机工程与设计,2008,29(22):5770-5773. 被引量：2
6羡晨静,张维石,刘伟光.关联规则分析在电信交叉销售中的应用研究[J].计算机工程与设计,2008,29(22):5851-5853. 被引量：5
7赵秦怡,羊海潮.基于对象立方体结构的类描述规则挖掘[J].计算机工程,2010,36(4):71-73.
8周勇,罗竞佳,程春田.基于PCA/ICA的多数据流关联及模式发现[J].计算机工程,2010,36(11):85-87.
9袁正午,程宇翔,梁均军,李林.基于流立方体的数据流频繁模式挖掘算法[J].计算机工程,2010,36(22):43-45. 被引量：1
10郭涛,张代远.基于关联规则数据挖掘Apriori算法的研究与应用[J].计算机技术与发展,2011,21(6):101-103. 被引量：38

同被引文献49

1王创新.关联规则提取中对Apriori算法的一种改进[J].计算机工程与应用,2004,40(34):183-185. 被引量：32
2陈凯,冯全源.最大频繁项集的高效挖掘[J].微电子学与计算机,2005,22(8):22-25. 被引量：13
3陈俊杰,崔晓红.基于FP-Tree的频繁闭合项目集挖掘算法的研究[J].计算机工程与应用,2006,42(34):169-171. 被引量：3
4HanJiawei MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004..
5JiaweiHan,MichelineKamber.DataMiningCon-ceptsandTechniques.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社.2004:1-261.
6Bayardo R J. Efficiently mining long patterns from databases [ C ]//Proc of the ACM SIGMOD Int Conf on Management of Data. New York: ACM Press, 1998: 85- 93.
7Pasquier N, Bastide Y, Taouil R, et al. Discov- ering frequent closed itemsets for association rules [ C ]//7th ary : 1999 : Intl. Conf. on Database Theory, Janu- 398-416.
8Bastide Y, Taouil R. Pasquire N. Mining frequent patterns with counting inference [ J ]. SIGKDD Explorations,2000, 2 (2) : 66-75.
9Rymon R. Search through Systematic Set Enu- meration [ C ]//Proc of Third Int' 1 Conf. on Principles of Knowledge Representation and Reasoning, 1992:539-550.
10Calders T,Rigotti C,Boulicaut J F.A survey on condensed representations for frequent sets[C] //Constraint-Based Mining and Inductive Databases.Berlin:Springer,2005:64-80.

引证文献6

1许普乐,纪允,张勤.应用FP树快速生成无关集算法[J].安庆师范学院学报（自然科学版）,2016,22(2):60-65. 被引量：1
2许普乐,纪允.一种快速挖掘生成器算法[J].绍兴文理学院学报,2016,36(7):63-68.
3田卫东,许静文.基于模糊等价类的频繁项集精简表示方法[J].计算机应用研究,2016,33(7):1936-1940. 被引量：3
4许普乐,纪允.一种基于Rymon枚举树的快速挖掘无关集算法[J].轻工学报,2017,32(5):103-108.
5尚晓丽,包向辉.分布式空间数据库中有效数据频繁项实时检测[J].科学技术与工程,2018,18(19):224-229. 被引量：4
6许普乐,纪允.一种基于FP树快速挖掘非可推导项集算法[J].淮南师范学院学报,2019,21(2):116-121.

二级引证文献8

1朱付保,白庆春,汤萌萌,朱颢东.基于MapReduce的数据流频繁项集挖掘算法[J].华中师范大学学报（自然科学版）,2017,51(4):429-434. 被引量：5
2许普乐,纪允.一种基于Rymon枚举树的快速挖掘无关集算法[J].轻工学报,2017,32(5):103-108.
3郑静益,邓晓衡.基于项编码的分布式频繁项集挖掘算法[J].计算机应用研究,2019,36(4):1059-1063. 被引量：4
4苏卉,李玉辉,张先荣.基于射频识别的物流频繁路径数据挖掘仿真[J].计算机仿真,2019,36(9):357-360. 被引量：2
5黄恺彤,周开东,李凯,钟苏生.基于信息分散算法的分布式数据实时存储方法[J].电子设计工程,2020,28(5):12-16. 被引量：11
6文芳,黄慧玲,李腾达,王佳斌.基于FP-growth关联规则的图书馆数据快速挖掘算法研究[J].重庆理工大学学报（自然科学）,2020,34(6):189-194. 被引量：15
7张燕晨,吴鸿伟.分布式多空间数据库复杂时态数据提取技术[J].网络安全技术与应用,2021(1):75-77.
8卢春阳,沈雯.基于空间数据库的地名地址动态更新系统设计[J].测绘技术装备,2022,24(3):120-124.

1冯洁,陶宏才.一种频繁项集的快速挖掘算法[J].微计算机信息,2007(18):164-166. 被引量：7
2王扶东,李兵,薛劲松,朱云龙.客户关系管理中基于约束的关联规则挖掘方法研究[J].计算机集成制造系统-CIMS,2004,10(4):465-470. 被引量：7
3丁卫平,祁恒,董建成,管致锦.基于关联规则的电子病历挖掘算法研究与应用[J].微电子学与计算机,2007,24(3):69-73. 被引量：19
4裴古英.一种基于布尔矩阵的关联规则快速挖掘算法[J].自动化与仪器仪表,2009(5):16-18. 被引量：2
5许普乐,纪允,张勤.应用FP树快速生成无关集算法[J].安庆师范学院学报（自然科学版）,2016,22(2):60-65. 被引量：1
6杨君锐.一种频繁项目集的快速挖掘算法[J].微电子学与计算机,2004,21(2):70-72. 被引量：2
7胡慧蓉,王周敬.一种基于关系矩阵的关联规则快速挖掘算法[J].计算机应用,2005,25(7):1577-1579. 被引量：21
8杨萍.一种基于F-矩阵的最大频繁项目集快速挖掘算法[J].计算机工程与应用,2003,39(34):197-200. 被引量：1
9郭景峰,路燕.基于小超集的关联规则快速挖掘算法[J].计算机工程,2000,26(12):40-41. 被引量：1
10安立奎,钱伟懿,韩丽艳.集群系统中基于MPI的关联规则快速挖掘算法[J].三峡大学学报（自然科学版）,2010,32(1):95-97. 被引量：5

计算机工程

2014年第6期

浏览历史

内容加载中请稍等...

一种频繁核心项集的快速挖掘算法被引量：6

参考文献12

二级参考文献10

共引文献22

同被引文献49

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种频繁核心项集的快速挖掘算法 被引量：6

参考文献12

二级参考文献10

共引文献22

同被引文献49

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种频繁核心项集的快速挖掘算法被引量：6