一种并行XML数据库分片策略被引量：7

A Data Placement Strategy for Parallel XML Databases

下载PDF

导出

摘要主要研究XML文档的并行数据分片策略,以便能够并行处理XML查询.为了描述XML数据分片,提出了媒介节点的概念.一组媒介节点的集合可以将一棵XML数据树分割成一棵根树和一组子树的集合:根树将在所有站点中复制;而子树集合则可以根据用户查询的工作负载被均匀地分片到各个站点中.对于同一棵XML数据树,会有很多种媒介节点的集合;而不同的媒介节点集合会产生不同的数据分片结果.然后,依据各个数据分片中的用户查询工作量是否均衡,来衡量一个分片的好坏.选择一组最佳的媒介节点集合是一个NP-hard问题.为了解决此问题,设计了一组启发式优化规则.基于这一思想,提出并实现了一种基于媒介节点的XML数据分片算法WIN(workload-awareintermediarynodesdataplacementstrategy).大量实验结果证明:WIN算法的性能要优于以往的并行XML数据分片策略. This paper targets on parallel XML document partitioning strategies to process XML queries in parallel To describe the problem of XML data partitioning, a concept, intermediary node, is presented in this paper. By a set of intermediary nodes, an XML data tree can be partitioned into a root-tree and a set of sub-trees. While the root-tree is duplicated over all the nodes, the set of the sub-trees can be evenly partitioned over all the nodes based on the workload of user queries. For the same XML data tree, there are a number of intermediary nodes sets, and different intermediary nodes sets will generate different partitions. It can be evaluated if a partitioning is good based on the workload of user queries. It is obviously an NP hard problem to choose an optimal partitioning. To solve this problem, this paper proposes a set of heuristic rules. Based on the idea described above, this paper designs and implements an XML data partitioning algorithm, WIN, and the extensive experimental results show that its speedup and scaleup performances outperform the existing strategies.

作者王国仁汤南于亚新孙冰于戈

机构地区东北大学信息科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2006年第4期770-781,共12页 Journal of Software

基金国家自然科学基金国家教育部博士点基金~~

关键词并行数据库 XML文档工作负载数据分片媒介节点 parallel database XML document workload data partitioning intermediary node

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1Lomet DB,Salzberg B.The HB-Tree:A multiattribute indexing method with good guaranteed performance.ACM Trans.on Database Systems,1990,15(4):625-658.
2Berchtold S,Keim DA,Kriegel H.The x-tree:An index struct for high-dimensional data.In:Vijayaraman TM,Buchmann AP,Mohan C,Sarda NL,eds.Proc.of the 22nd VLDB Conf.Bombay:Morgan Kaufmann Publishers,1996.28-30.
3Mehta M,DeWitt DJ.Data placement in shared-nothing parallel database systems.VLDB Journal,1997,6(1):53-72.
4He Z,Yu JX.Declustering and object placement in parallel OODBMS.In:Roddick JF,ed.Proc.of the 10th Australasian Database Conf.,ADC'99.Auckland,1999.18-21.
5Ghandeharizadeh S,Wilhite D,Lin K,Zhao X.Object placement in parallel object-oriented database systems.In:Agrawal R,Dittrich KR,eds.Proc.of the 10th Int'l Conf.on Data Engineering.Houston:IEEE Computer Society,1994.253-262.
6Berglund A,Boag S,Chamberlin D,Fernández MF,Kay M,Robie J,Siméon J.XML path languages (XPath),ver 2.0,W3C Working Draft,2001.Technical Report,WD-xpath20-20011220,W3C,2001.http://www.w3.org/TR/WD-xpath20-20011220
7Boag S,Chamberlin D,Fernández MF,Florescu D,Robie J,Siméon J.XQuery 1.0:An XML query language,W3C working draft,2001.Technical Report,WD-xquery-20010607.World Wide Web Consortium.
8Yu Y,Wang G,Yu G,Wu G,Hu J,Tang N.Data placement and query processing based on RPE parallelisms.In:Voas J,ed.Proc.of the IEEE COMPSAC 2003 Conf.Dallas:IEEE Computer Society,2003.151-157.
9Chan CY,Garofalakis M,Rastogi R.RE-Tree:An efficient index structure for regular expressions.VLDB Journal,2003,12(2):102-119.
10Chung C,Min J,Shim K.APEX:An adaptive path index for XML data.In:Halevy AY,Ives ZG,Doan AH,eds.Proc.of the 2002 ACM SIGMOD Conf.Madison:ACM,2002.121-132.

同被引文献62

1王静,孟小峰,王珊.基于区域划分的XML结构连接[J].软件学报,2004,15(5):720-729. 被引量：35
2汤南,于亚新,王国仁,于戈.一种并行XML数据分片算法的设计与实现[J].小型微型计算机系统,2004,25(7):1164-1169. 被引量：3
3陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
4汪锦岭,金蓓弘,李京,邵丹华.基于本体的发布/订阅系统的数据模型和匹配算法[J].软件学报,2005,16(9):1625-1635. 被引量：23
5汪锦岭,金蓓弘,李京.一种高效的RDF图模式匹配算法[J].计算机研究与发展,2005,42(10):1763-1770. 被引量：13
6张宏,佟玉军.中间件分类及标准[J].企业标准化,2005(11):20-21. 被引量：3
7赵君,张春海,李华.基于XML中间件的分布式数据库的数据分片策略[J].计算机工程与设计,2006,27(3):466-468. 被引量：11
8徐晓华,陈崚.一种自适应的蚂蚁聚类算法[J].软件学报,2006,17(9):1884-1889. 被引量：55
9邱方亮,王润孝,王东勃,姜晓鹏.基于XML和Web服务的异构数据集成研究与应用[J].组合机床与自动化加工技术,2006(8):107-109. 被引量：2
10李丽香,彭海朋,杨义先,王向东.基于混沌蚂蚁群算法的Lorenz混沌系统的参数估计[J].物理学报,2007,56(1):51-55. 被引量：26

引证文献7

1李晔,陈晓,王劲林.面向移动网的可分层Web服务自适应发布方法[J].计算机工程与应用,2008,44(19):1-3.
2刘波,杨路明,谢东,邓云龙.自适应的混沌蚁群聚类XML分片模型[J].小型微型计算机系统,2008,29(12):2319-2323.
3蒋勇,谭怀亮,李光文.基于XML中间件的分布式异构数据库的数据分片策略研究[J].计算机应用与软件,2009,26(11):144-146. 被引量：1
4艾杰,张序,艾中良.基于MapReduce的语义发布/订阅系统[J].计算机工程与设计,2011,32(12):4039-4043.
5李朝奎,吴柏燕,高振记,冯志元,李拥.流域水环境风险评估预警系统中间件的设计与实现[J].环境工程技术学报,2012,2(5):396-402. 被引量：2
6顾进广,忻役,李尧尧.任务抢占策略在XML多核查询中的应用[J].湖北第二师范学院学报,2012,29(8):17-20.
7吴钢,李尧尧,顾进广.基于任务抢占与数据分区的XML多核查询优化[J].工业控制计算机,2013,26(9):94-96.

二级引证文献3

1徐爱萍,宋先明,徐武平.分布式异构数据库集成系统研究与实现[J].计算机工程与科学,2015,37(10):1909-1916. 被引量：17
2张艳军,秦延文,张云怀,曾咺,王丽婧.三峡库区水环境风险评估与预警平台总体设计与应用[J].环境科学研究,2016,29(3):391-396. 被引量：18
3张玉娟,史绍雨,孙晶,刘桂艳,艾波.基于分布式数据库的海洋动力环境数据云存储[J].海洋预报,2017,34(2):72-79. 被引量：3

1张洪,路松峰,赵友桥,胥永康,胡和平.数据安全存储的分片策略模型研究[J].计算机工程与应用,2012,48(18):66-70. 被引量：3
2于亚新,王国仁,于戈.并行XML数据库系统中数据分片策略的研究[J].计算机研究与发展,2003,40(10):1499-1508. 被引量：6
3罗光宣.如何编程判断有向图是否是一棵根树[J].电脑爱好者,2001(8):86-87.
4章勤,戴飞.Peer-to-Peer流媒体系统中容错机制的研究[J].华中科技大学学报（自然科学版）,2005,33(3):43-48.
5师德清.MongoDB数据库在生产环境中的分片策略研究[J].信息与电脑（理论版）,2011(10):163-164. 被引量：1
6张建英,孙永洁,王秀坤.基于语义的通用数据抽取方法[J].计算机科学,2010,37(3):178-181. 被引量：1
7宋晓龙,廉玉忠,吴世忠.基于有根树的多点传送密钥分配技术分析[J].通信学报,2002,23(6):110-115. 被引量：3
8赵君,张春海,李华.基于XML中间件的分布式数据库的数据分片策略[J].计算机工程与设计,2006,27(3):466-468. 被引量：11
9康琪,马军.有向标记根树之间的语义编辑距离[J].模式识别与人工智能,2011,24(6):816-824.
10汤南,于亚新,王国仁,于戈.一种并行XML数据分片算法的设计与实现[J].小型微型计算机系统,2004,25(7):1164-1169. 被引量：3

软件学报

2006年第4期

浏览历史

内容加载中请稍等...

一种并行XML数据库分片策略被引量：7

参考文献18

同被引文献62

引证文献7

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种并行XML数据库分片策略 被引量：7

参考文献18

同被引文献62

引证文献7

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种并行XML数据库分片策略被引量：7