FusionDB:基于分布式查询引擎和HDFS的SPARQL查询处理系统被引量：1

FusionDB:Evaluating SPARQL Queries on Distributed Query Engine and HDFS

下载PDF

导出

摘要近年来,互联网上的RDF三元组数量增长迅速,传统的单机SPARQL查询处理技术已不能满足实际需要.现有的分布式SPARQL查询处理系统可以分为2类,基于Hadoop的,或是基于数据库集群的.前者主要采用Map?Reduce来处理查询,效率较低;后者则继承了传统数据库集群的缺陷,可扩展性较差.提出一个新颖的SPARQL查询处理系统FusionDB.该系统采用分布式查询处理引擎和HDFS,这样既可以受益于传统的分布式数据库技术,如分布式连接、流水线、负载均衡等,又从新兴的Hadoop技术中得到了良好的容错能力和高可扩展性.为了进一步加速查询处理的效率,FusionDB还在HDFS文件上增加了注入式索引.实验表明,相比于传统的系统,FusionDB在性能上具有明显的优势. Recently,the volume of RDF triples in Internet is growing rapidly.Traditional centralized SPARQL evaluating approaches cannot handle such large-volume RDF data and do not meet the practical requirements.Existing distributed SPARQL processing systems can be categorized into two classes,i.e.Hadoop based and DB cluster based.The efficiency of the Hadoop based approaches is questionable because they evaluate SPARQL queries through a set of Map?Reduce jobs.On the other hand,the second class of approaches inherits the property of low scalability from the DB clusters.This paper proposes a novel system,named FusionDB,which is built on distributed query engine and HDFS.Therefore,FusionDB can benefit from both DB clusters and Hadoop.It can adopt the techniques in DB clusters,such as distributed join,streamline,and workload balancing.It also naturally obtains the ability of high scalability from Hadoop.To improve the query evaluation efficiency,we further build Trojan index over HDFS.As illustrated by our experimental study,the performance of FusionDB defeats the competitors markedly.

作者高阳何龙侯佳佳陈晋川杜小勇

机构地区中国人民大学信息学院数据工程与知识工程教育部重点实验室(中国人民大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第S1期139-142,共4页 Journal of Computer Research and Development

基金中国人民大学预研委托(团队基金)项目(14XNLQ06) 异构大数据分析挖掘整合技术北京市工程实验室基金项目

关键词 SPARQL 查询重写分布式查询引擎 HDFS 索引 SPARQL query rewriting distributed query engine HDFS Index

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Wikipedia.Linked Open Data. http://de.wikipedia.org/wiki/Linked_Open_Data . 2015
2Gurajada S,Seufert S,Miliarak I,et al.TriAD:A distributed shared-nothing rdf engine based on asynchronous message passing. Proc of ACM SIGMOD 2014 . 2014
3Apache Impala. http://impala.io/overview.html . 2015
4Facebook Presto. https://prestodb.io/overview.html . 2015
5Wu Buwen,Zhou Yongluan,Yuan Pingpeng,et al.Scalable sparql querying using path partitioning. Proc of Int Conf on Data Engineering . 2015
6杜方,陈跃国,杜小勇.RDF数据查询处理技术综述[J].软件学报,2013,24(6):1222-1242. 被引量：64
7Huang J,Abadi D,Ren K.Scalable SPARQL querying of large RDF graphs. Proceedings of the VLDB Endowment . 2011
8Mohammad Farhan Husain,James McGlothlin,Mohammad Mehedy Masud.Heuristics-Based Query Processing for Large RDF Graphs Using Cloud Computing. IEEE Transactions on Knowledge and Data Engineering . 2011
9Jens Dittrich,Jorge-Arnulfo Quiané-Ruiz,Alekh Jindal,Yagiz Kargin,Vinay Setty,J?rg Schad.Hadoop++: making a yellow elephant run like a cheetah (without it even noticing). Proceedings of the VLDB Endowment . 2010
10Bin Shao,Haixun Wang,Yatao Li.Trinity:A Distributed Graph Engine on a Memory Cloud. ACM SIGCOMM . 2013

二级参考文献3

1李曼,杜小勇,王珊.语义Web环境中本体库管理系统体系结构研究[J].计算机研究与发展,2006,43(z3):39-45. 被引量：2
2吴鸿汉,瞿裕忠.RDF数据浏览的研究综述[J].计算机科学,2009,36(2):5-10. 被引量：2
3李慧颖,瞿裕忠.KREAG:基于实体三元组关联图的RDF数据关键词查询方法[J].计算机学报,2011,34(5):825-835. 被引量：14

共引文献65

1孙涛,杨丽萍.语义网环境下的知识集成系统设计[J].现代计算机,2014,20(8):16-19.
2李国鼎,冯志勇,饶国政,王鑫.基于BSP的SPARQL基本图模式查询算法[J].计算机工程,2014,40(9):37-41. 被引量：2
3谭威,王防修,石文文,付威威.基于批量提交数据的快速查询算法研究与设计[J].武汉轻工大学学报,2014,33(3):75-79.
4史云放,武东英,刘胜利,高翔.基于本体的网络攻防博弈知识库构建方法研究[J].计算机应用研究,2014,31(11):3460-3464. 被引量：1
5曹云,王东.大数据物流在“丝绸之路经济带”中的应用研究[J].开发研究,2014(5):22-25. 被引量：5
6曹彦婷.基于空间压缩的外存字符串词典索引算法研究[J].重庆师范大学学报（自然科学版）,2014,31(6):107-115.
7罗凌云,史淼,阳小华,刘志明.基于RDF/XML的微博知识表达与语义检索系统[J].南华大学学报（自然科学版）,2014,28(4):56-60. 被引量：1
8张雪,申文明,王昌佐,孙中平,初东,付卓.生态环境数据资源集成与共享服务系统实现[J].环境工程技术学报,2015,5(1):46-52. 被引量：4
9李小涛,胡晓惠,郭晓利,卢卫娜.基于元数据的复杂信息共享技术[J].系统工程与电子技术,2015,37(3):700-706. 被引量：9
10冷泳林,申华,鲁富宇.基于P-Rank的RDF有向图的分布式存储[J].重庆理工大学学报（自然科学）,2015,29(1):91-95. 被引量：2

同被引文献7

1汪锦岭,金蓓弘,李京,邵丹华.基于本体的发布/订阅系统的数据模型和匹配算法[J].软件学报,2005,16(9):1625-1635. 被引量：23
2胡昔祥.基于语义的发布订阅系统匹配算法研究[J].浙江大学学报（工学版）,2009,43(1):63-68. 被引量：2
3冯锡炜,汪俭华,冯瑶,林培光.发布/订阅系统语义Web匹配算法[J].北京科技大学学报,2013,35(4):544-550. 被引量：4
4龚燕,刘雅奇,董豪豪.典型战术战斧巡航导弹的组成、应用及发展趋势浅析[J].飞航导弹,2017(10):45-48. 被引量：13
5孙亚楠,钟选明,王俐云,李希媛.天基信息支持远程精确打击作战及其体系建设的需求[J].战术导弹技术,2018(5):13-18. 被引量：16
6董龙明,高天成,邱瑞波,马连淼.基于语义发布订阅系统的战场态势实时分发技术[J].火力与指挥控制,2017,42(4):110-113. 被引量：10
7郑明,刘冠邦,张昕,田振兴.美军时敏目标杀伤链[J].指挥信息系统与技术,2020,11(2):59-63. 被引量：18

引证文献1

1张书瑞,杨凡德.面向远程精确打击的天基信息精准服务研究[J].现代防御技术,2022,50(6):59-67.

1王翠,王汝传,黄海平,孙力娟.基于统计模型的传感器网络查询系统的研究与设计[J].南京邮电大学学报（自然科学版）,2007,27(1):75-80.
2段寿建,甘健侯.基于RDF、OWL的知识表示及其转换研究与实现[J].保山师专学报,2006,25(2):68-71.
3张迎红,罗志武.多源数据库集成系统中查询技术的研究[J].辽宁大学学报（自然科学版）,1995,22(3):65-68. 被引量：1
4晏明春,方茂华,陈红梅.基于内存的数据立方查询处理[J].计算机工程,2004,30(8):75-76.
5周军锋,孟小峰.XML关键字查询处理研究[J].计算机学报,2012,35(12):2459-2478. 被引量：25
6刘慧芳.校园网格资源描述与发现[J].计算机光盘软件与应用,2011(22):52-54.
7李健全.浅谈分布式电力监测中通用串行总线的运用[J].中国科技信息,2005(13):59-59.
8樊秋实,周敏奇,周傲英.基线与增量数据分离架构下的分布式连接算法[J].计算机学报,2016,39(10):2102-2113. 被引量：6
9葛茂松,张国忠,富春岩,吴铁峰,陈新,郑佳昕,张东海,周虹,支援,赵佳彬.一种适用于多跳无线网络的基于分组的分布式连接优化策略研究[J].佳木斯大学学报（自然科学版）,2016,34(6):914-916.
10李璞,肖宝,王惠.一种面向结构化数据源的语义标注和挖掘方法[J].南阳师范学院学报,2016,15(6):22-26.

计算机研究与发展

2015年第S1期

浏览历史

内容加载中请稍等...

FusionDB:基于分布式查询引擎和HDFS的SPARQL查询处理系统被引量：1

参考文献11

二级参考文献3

共引文献65

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

FusionDB:基于分布式查询引擎和HDFS的SPARQL查询处理系统 被引量：1

参考文献11

二级参考文献3

共引文献65

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

FusionDB:基于分布式查询引擎和HDFS的SPARQL查询处理系统被引量：1