基于覆盖模式的频繁子树挖掘方法被引量：2

Frequent subtree mining method based on coverage patterns

下载PDF

导出

摘要无序树常用于半结构化数据建模,对其进行频繁子树挖掘有利于发现隐藏的知识。传统的频繁子树挖掘方法常常输出大规模且带有冗余信息的频繁子树,这样的输出结果会降低后续操作的效率。针对传统方法的不足,提出了一种用于挖掘覆盖模式(MCRP)算法。首先,采用宽度孩子数编码对树进行编码;然后,通过基于最大前缀编码序列的边扩展方式生成所有的候选子树;最后,在频繁子树集和δ'-覆盖概念的基础上输出覆盖模式集。与传统的挖掘频繁闭树模式和极大频繁树模式的算法相比,该算法能够在保留所有频繁子树信息的情况下输出更少的频繁子树,并且将处理效率提高15%到25%。实验结果表明,所提算法能有效减小输出频繁子树的规模,减少冗余信息,在实际操作中具有较高的可行性。 Unordered tree is widely used for semi-structured data modeling, frequent subtrees mining on it has benefit for finding hidden knowledge. The traditional methods of mining frequent subtrees often output large-scale frequent subtrees with redundant information, such an output will reduce the efficiency of subsequent operations. In view of the shortcomings of traditional methods, the Mining CoveRage Pattern （MCRP） algorithm was proposed for mining coverage patterns. Firstly, a tree coding rule according to the tree width and the number of children was presented. Then, all candidate subtrees were generated by edge extension based on the maximum prefix coding sequence. Finally, a set of coverage patterns was output on the basis of frequent subtrees and δ＇-coverage concept. Compared with the traditional algorithms for mining frequent closed tree patterns and maximal frequent tree patterns, the proposed algorithm can output fewer frequent subtrees in the case of preserving all the frequent subtrees, and the processing efficiency is increased by 15% to 25%.The experimental results show that the algorithm can effectively reduce the size and redundant information of the output frequent subtrees, and it has high feasibility in practical operation.

作者夏英李洪旭

机构地区重庆邮电大学计算机科学与技术学院

出处《计算机应用》 CSCD 北大核心 2017年第9期2439-2442,2483,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(41201378)~~

关键词无序树频繁子树最大前缀编码边扩展覆盖模式 unordered tree frequent subtree maximum prefix coding edge extension coverage pattern

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1吴倩,罗健旭.压缩FP-Tree的改进搜索算法[J].计算机工程与设计,2015,36(7):1771-1777. 被引量：8
2杨沛,谭琦.极大频繁子树挖掘及其应用[J].计算机科学,2008,35(2):150-153. 被引量：4

二级参考文献23

1杨沛,郑启伦,彭宏,李颖基.PFTM:一种基于投影的频繁子树挖掘算法[J].计算机科学,2005,32(2):206-209. 被引量：5
2Cooley R, Mobasher B, Srivastava J. Web Mining: Information and Pattern Discovery on the World Wide Web. In: 8th IEEE Intl Conf on Tools with AI, 1997.
3Li Q, Moon B. Indexing and querying XML data for regular path expressions. In- 27th Int'1 Conf. on Very Large Data Bases, 2001.
4Shapiro B, Zhang K. Comparing multiple RNA secondary strutures using tree comparisons. Computer Applications in Biosciences, 1990,6(4) :309-318.
5Inokuehi A, Washio T, Motoda H. An apfiori-based algorithm for mining frequent substructures from graph data. In: 4th European Conference on Principles of Knowledge Discovery and Data Mining, September 2000.
6Kuramochi M,Karypis G. Frequent subgraph discovery. In: 1st IEEE Int'1 Conf. on Data Mining, November 2001.
7Cook D, Holder L. Substructure discovery using minimal description length and background knowledge. Journal of Artificial Intelligence Research, 1994,1:231-255.
8Yoshida K, Motoda H. CLIP: Concept learning from inference patterns. Artificial Intelligence, 1995,75(1):63-92.
9Asai T, Abe K, Kawasoe S, et al. Effecient substructure discovery from large semi-structured data. In: 2nd SIAM Int'1 Conference on Data Mining, April 2002.
10Zaki M J. Efficiently mining frequent trees in a forest. In: SIGKDD'2002 Edmonton, Alberta, Canada.

共引文献10

1陈冬菊,张东站,段江娇.基于子树约束的最大频繁子树挖掘算法[J].现代计算机,2010,16(5):25-29.
2郭鑫,董坚峰,周清平.动态数据库中的频繁子树挖掘算法[J].计算机科学,2011,38(5):138-141.
3罗芳.一种基于裁剪FP-Tree的频繁项集挖掘算法[J].宜春学院学报,2015,37(12):22-25. 被引量：1
4陈奇,张曦煌.基于N-list的并行频繁项集挖掘算法[J].微电子学与计算机,2017,34(5):40-44.
5茹蓓,贺新征.高效的数据流完全频繁项集挖掘算法[J].计算机工程与设计,2017,38(10):2759-2766. 被引量：11
6王建明,袁伟.基于节点表的FP-Growth算法改进[J].计算机工程与设计,2018,39(1):140-145. 被引量：14
7曹佳豪,刘宇.基于多叉树和Spark的改进Apriori算法[J].信息技术,2018,42(6):128-132. 被引量：3
8倪政君,夏哲雷.一种基于fp-tree的Apriori算法改进研究[J].中国计量大学学报,2018,29(1):50-54. 被引量：3
9王利军.最大频繁模式挖掘算法的改进[J].韶关学院学报,2019,40(3):4-9.
10唐德权,黄金贵.基于图数据的极大频繁子树挖掘算法研究[J].微电子学与计算机,2020,37(10):54-58. 被引量：1

同被引文献10

1唐杰,陈文光.面向大社交数据的深度分析与挖掘[J].科学通报,2015,60(5):509-519. 被引量：16
2王云驰,邓倩妮.关联信息在社交网络中传播的竞争模型[J].微型电脑应用,2015,31(3):22-24. 被引量：2
3张忠林,田苗凤,刘宗成.大数据环境下关联规则并行分层挖掘算法研究[J].计算机科学,2016,43(1):286-289. 被引量：27
4张翠翠,阮树骅.用于短频繁项的隐私保护关联规则挖掘方法[J].电子科技,2016,29(5):88-92. 被引量：5
5刘从军,张瑞,席屏.基于Chameleon的关联规则挖掘研究[J].信息技术,2016,40(5):144-146. 被引量：1
6田卫东,虞勇勇.基于频繁依存子树模式的中心词提取方法研究[J].中文信息学报,2016,30(3):133-142. 被引量：1
7文馨,陈能成,肖长江.基于Spark GraphX和社交网络大数据的用户影响力分析[J].计算机应用研究,2018,35(3):830-834. 被引量：10
8林春喜,徐宏喆,王谊青,李文.基于混合频繁模式树的粗糙集属性约减算法的研究与应用[J].计算机应用研究,2018,35(4):988-991. 被引量：4
9蓝机满.基于云计算的数据挖掘系统设计[J].电子科技,2019,32(8):70-74. 被引量：30
10李存进,孙红.改进自适应遗传算法在关联规则中的研究[J].电子科技,2019,32(12):58-63. 被引量：6

引证文献2

1郑玲玲.基于深度数据挖掘的传播数据分析与评估模型仿真[J].电子设计工程,2021,29(18):161-165. 被引量：2
2唐德权,刘绪崇.一种新的快速挖掘频繁子树算法[J].湘潭大学学报（自然科学版）,2022,44(2):96-106. 被引量：1

二级引证文献3

1杜华明,张明昌,刘爽,张瑜嘉.基于数据融合与挖掘的城市综合管廊运维管理探索[J].建筑电气,2022,41(11):64-70. 被引量：2
2袁宜英.基于深度学习的网络数据分析模型构建[J].信息与电脑,2022,34(12):44-46.
3贾丽,刘欣,郭健.基于数据挖掘的光纤通信故障数据诊断方法研究[J].激光杂志,2023,44(8):177-181. 被引量：3

1刘丽丽,左继红,吴军,邓秋连.一种新型ARX模型在三容水箱液位系统中的应用[J].计算机与数字工程,2017,45(8):1660-1664.
2李朕,阮华.基于MVC模式的科研团队空间协同系统开发[J].电子技术与软件工程,2017(17):49-50. 被引量：1
3李建军,丁传杰,黄存莲,万平凡.基于ADAMS的转向仿真与优化[J].机电产品开发与创新,2017,30(4):113-114.

计算机应用

2017年第9期

浏览历史

内容加载中请稍等...

基于覆盖模式的频繁子树挖掘方法被引量：2

参考文献2

二级参考文献23

共引文献10

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于覆盖模式的频繁子树挖掘方法 被引量：2

参考文献2

二级参考文献23

共引文献10

同被引文献10

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于覆盖模式的频繁子树挖掘方法被引量：2