基于序列前缀技术的XML频繁路径挖掘算法

Prefix-Based XML Frequent Path Mining Algorithm

下载PDF

导出

摘要 XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段.现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的Prefix Span算法会产生大量的投影数据库,占用较大的内存.针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm).PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为"节点:父节点"的形式,这种序列化的方式减少了节点冗余.在序列挖掘阶段借鉴Prefix Span算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描.实验结果表明,PXFP算法取得了比Prefix Span算法更高的时间和空间效率. XML documents are semi-structured data, and XML frequent path mining can be divided into two steps： XML document serialization and sequence mining. The existing serialization method expresses the XML document as a set of Xpath paths with a plenty of node redundancy. Algorithms based on Apriori require multiple scanning of the database and can generate a large number of candidate sets. The PrefixSpan algorithm generates a large number of projection databases, occupying a lot of memory space. In view of the shortcomings of the existing algorithms used in XML frequent path mining, this paper proposes an efficient mining algorithm called Prefix-based XML Frequent Path Mining Algorithm （PXFP）. The PXFP algorithm traverses the XML document tree in a breadth-first manner and represents each node as ＂node： parent node＂, which reduces the node redundancy. The PXFP does not generate the projection database, but only gets the sub-node of the prefix, and then increases the length of the frequent pattern by the position information of the frequent sub-path, which reduces scanning the database. The experimental results show that the PXFP algorithm achieves higher time and space efficiency than the PrefixSpan algorithm.

作者张洁毛国君

机构地区中央财经大学信息学院

出处《计算机系统应用》 2018年第1期78-85,共8页 Computer Systems & Applications

基金国家自然科学基金(61273293)

关键词 XML频繁路径挖掘序列化位置信息前缀 XML frequent path mining serialization location information prefix

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1张坤,朱扬勇.无重复投影数据库扫描的序列模式挖掘算法[J].计算机研究与发展,2007,44(1):126-132. 被引量：17
2张利军,李战怀,王淼.基于位置信息的序列模式挖掘算法[J].计算机应用研究,2009,26(2):529-531. 被引量：12
3刘栋,尉永清,薛文娟.基于Map Reduce的序列模式挖掘算法[J].计算机工程,2012,38(15):43-45. 被引量：2
4吴信东,谢飞,黄咏明,胡学钢,高隽.带通配符和One-Off条件的序列模式挖掘[J].软件学报,2013,24(8):1804-1815. 被引量：23
5刘端阳,冯建,李晓粉.一种基于逻辑的频繁序列模式挖掘算法[J].计算机科学,2015,42(5):260-264. 被引量：9
6雷向欣,杨智应,黄少寅,胡运发.XML数据流分页频繁子树挖掘研究[J].计算机研究与发展,2012,49(9):1926-1936. 被引量：2
7李巍,李雄飞,郭建芳.XML空间频繁变化结构挖掘方法[J].计算机学报,2013,36(2):317-326. 被引量：1

二级参考文献83

1朱永泰,王晨,洪铭胜,汪卫,施伯乐.ESPM——频繁子树挖掘算法[J].计算机研究与发展,2004,41(10):1720-1727. 被引量：18
2雷向欣,胡运发,杨智应,刘勇,张凯.基于互关联后继树的XML索引技术[J].计算机研究与发展,2005,42(7):1261-1271. 被引量：6
3邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
4刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
5赵传申,孙志挥,张净.基于投影分支的快速频繁子树挖掘算法[J].计算机研究与发展,2006,43(3):456-462. 被引量：14
6马海兵,李荣陆,胡运发.用模式增长方法挖掘嵌入式频繁子树[J].模式识别与人工智能,2006,19(2):208-214. 被引量：1
7王涛.在有噪音的环境中挖掘序列模式精简基[J].华中科技大学学报（自然科学版）,2006,34(6):36-38. 被引量：1
8HANJ KAMBERM 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001..
9R Agrawal,R Srikant.Mining sequential patterns[C].In:Proc of the 11th Int'l Conf on Data Engineering (ICDE95).Los Alamitos,CA:IEEE Computer Society Press,19953-14
10R Srikant,R Agrawal.Mining sequential patterns:Generalization and performance improvements[C].In:Proc of the 5th Int'l Conf on Extending Database Technology (EDBT96).Berlin:Springer-Verlag,19963-17

共引文献50

1赵静,李俊,龙春,万巍,杨帆.基于频繁项集挖掘的长周期异常行为检测[J].计算机应用研究,2020,37(S02):221-223. 被引量：2
2王伟娜,李陶深,陈庆锋.基于投影位置的序列模式挖掘算法[J].华中科技大学学报（自然科学版）,2012,40(S1):104-107.
3熊赟,邱伯仁,张坤,朱扬勇.Gen-Cluster:一个基因表达数据的高维聚类算法[J].复旦学报（自然科学版）,2008,47(2):135-146. 被引量：2
4陈卓,杨炳儒,宋威,宋泽锋.序列模式挖掘综述[J].计算机应用研究,2008,25(7):1960-1963. 被引量：24
5王虎,丁世飞.序列模式挖掘研究与发展[J].计算机科学,2009,36(12):14-17. 被引量：33
6吴海燕,朱靖君,高国柱,程志锐.基于会话分类的Web用户访问模式挖掘研究[J].小型微型计算机系统,2010,31(9):1784-1789.
7公伟,刘培玉,贾娴.基于改进PrefixSpan的序列模式挖掘算法[J].计算机应用,2011,31(9):2405-2407. 被引量：12
8刘佳新.一种基于频繁序列树的增量式序列模式挖掘算法[J].计算机与现代化,2012(2):8-10. 被引量：1
9秦晓薇,刘燕.序列模式挖掘算法的分析[J].赤峰学院学报（自然科学版）,2012,28(1):34-36.
10刘佳新.基于频繁序列树的交互式序列模式挖掘算法[J].计算机技术与发展,2012,22(5):64-66. 被引量：1

1谭维智.互联网时代教育的时间逻辑[J].党政干部参考,2017,0(24):42-43.
2王晓雪,黄世桓,宁建男.类Apriori算法在高校学生学习行为模式下的应用[J].福建电脑,2017,33(12):95-96.
3吴玉珍,李小龙,刘波,谭永滨.时空轨迹频繁模式挖掘研究进展[J].江西科学,2017,35(6):947-951.
4Mukti Advani,Sobhana Pamaik,Pumima Parida.Pedestrian Serviceability Index Including Pedestrians on Vehicle-Path[J].Journal of Traffic and Transportation Engineering,2017,5(6):328-341.
5李晓静.基于概率神经网络与多重分形的海温预测模型[J].统计与决策,2017,33(18):84-87. 被引量：2
6汪宏海.一种低功耗的WSN数据多节点联合预测冗余控制模型[J].安阳师范学院学报,2017(5):30-37.
7周洋,陈哲,孙强.铁路光传送网网络节点冗余方式研究[J].铁道通信信号,2017,53(11):70-73.
8赵一鸣.知识图谱是一种知识组织系统吗?[J].图书情报知识,2017,34(5). 被引量：16
9田昊宇,马义.Native XML数据库在电子病历存储中的应用分析[J].软件,2017,38(10):202-206.
10柯梦琳.职业教育课程与教学论中的程序性知识和程序性学习任务[J].温州职业技术学院学报,2017,17(4):26-30. 被引量：3

计算机系统应用

2018年第1期

浏览历史

内容加载中请稍等...

基于序列前缀技术的XML频繁路径挖掘算法

参考文献7

二级参考文献83

共引文献50

相关作者

相关机构

相关主题

浏览历史