基于多谓词选择的海量XML数据并行查询方法被引量：3

Method of Parallel Query for Massive XML Data Based on Multi-predicate Selectivity

下载PDF

导出

摘要为了解决海量XML数据查询的问题,提出了MapReduce编程模型下多谓词选择的查询处理方法.该方法并行查询海量XML数据,产生的并行查询结果满足用户给定的多谓词查询要求.提出海量XML数据的存储方法,将海量XML数据划分为众多XML数据块存储到HDFS中.提出MapReduce编程模型下基于多谓词选择的Map逻辑算法和Reduce逻辑算法,实现海量XML数据的并行查询处理.进一步提出基于多谓词选择的MapReduce查询优化方法,减少系统的数据传输量,提高了系统的性能.最后,通过实验验证了所提方法的有效性. In order to resolve the problem of query for massive XM L data,a processing method of parallel query for massive XM L data based on multi-predicate selectivity under M apReduce programming model is proposed. The produced parallel query results can satisfy query request of user＇s given multi-predicate selectivity. The storage method of massive XM L data is proposed. The massive XM L data is partitioned into many XM L data blocks and loaded on HDFS. The M ap logic algorithm and the Reduce logic algorithm based on multi-predicate selectivity under M apReduce programming model are proposed,and they can realize parallel query processing for massive XM L data. Furthermore,a method of query optimization using M apReduce based on multi-predicate selectivity is proposed. The method can reduce the amount of data transmission and improve the performance of the system. Finally,the efficiency and effectiveness of the approach are also demonstrated by experimental results.

作者闫威马宗民

机构地区辽宁大学计算中心东北大学信息科学与工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2015年第7期1415-1420,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61370075 60873010)资助辽宁大学青年科研基金项目(2012LDQN19)资助

关键词海量XML数据 MapReduce编程模型多谓词选择并行查询 massive XM L data M apReduce programming model multi-predicate selectivity parallel query

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35
2韩希先,李建中,高宏.PAA:海量数据上一种有效的近似聚集查询算法[J].计算机研究与发展,2014,51(1):41-53. 被引量：2
3闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
4郭朝鹏,王智,韩峰,张一川,宋杰.HaoLap:基于Hadoop的海量数据OLAP系统[J].计算机研究与发展,2013,50(S1):378-383. 被引量：5

二级参考文献50

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2Sebastiani F. Text Categorization[Z]. Encyclopedia of Database Technologies and Applications. 2005..683-687.
3Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TF1DF for Text Categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1997.
4Yang Y. An Evaluation of Statistical Approaches to Text Categorization[J]. Journal of Information Retrieval, 1999, 1 (1/2) :67-88.
5Rocchio J J Jr. Relevance Feedback in Information Retrieval [M]. Salton G, ed. The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall, Inc. , Englewood Cliffs, New Jersey, 1971 : 313-323.
6Tzeras K, Hartmann S. Automatic Indexing Based on Bayesian Inference Networks[C]//Proc. 16th ACM Int. SIGIR Conference. 1993: 22-34.
7Masand B, Lino G, Waltz D. Classifying News Stories Using Memory Based Reasoning[C]//15th ACM SIGIR Conference. 1992:59-65.
8Apte C, Damerau F, Weiss S. Automated Learning of Decision Rules for Text Categorization[J]. ACM Trans. on Information Systems, 1994,12(3) : 233-251.
9Joachims T. Text Categorization with Support Vector Machines:Learning with Many Relevant Features [C]//Proc. 10th European Conference on Machine Learning (ECML). 1998:137-142.
10Salton G, Buckley C. Term Weighting Approaches in Automatic Text Retrieval [J]. Information Processing and Management, 1988,24(5) :513-523.

共引文献59

1李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
2张广弟,汪秀兵,胡亚磊.基于hadoop的DEM格网建立研究[J].科技视界,2012(28):95-95. 被引量：1
3王博,陈莉君.Hadoop远程过程调用机制的分析和应用[J].西安邮电学院学报,2012,17(6):74-77. 被引量：10
4赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
5赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
6陈湘涛,张超,韩茜.基于Hadoop的并行共享决策树挖掘算法研究[J].计算机科学,2013,40(11):215-221. 被引量：6
7田祎,刘爱军,李巍.基于本体的Deep Web查询接口语义扩展[J].荆楚理工学院学报,2013,28(4):33-36.
8王静宇,赵伟燕.基于Hadoop平台的TFIDF算法并行化研究[J].计算机工程与科学,2014,36(6):1018-1022. 被引量：2
9余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
10黄黎,顾筠.基于Hadoop平台的并行化数据分类算法研究[J].制造业自动化,2014,36(14):5-9. 被引量：4

同被引文献20

1金仙力,马华东.基于OCL的服务构件特征语义描述模型[J].计算机研究与发展,2007,44(12):2112-2121. 被引量：3
2罗军舟,金嘉晖,宋爱波,东方.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21. 被引量：823
3王怀宇,李景丽.网络海量数据中隐私泄露检测方法仿真[J].计算机仿真,2014,31(6):429-432. 被引量：10
4朱命冬,申德荣,解宁,于戈,寇月,聂铁铮.面向关联关系数据的分布式相似性查询方法[J].计算机科学与探索,2014,8(7):778-789. 被引量：3
5侯荣军,房俊,张建静.一种流数据实时写入保障下的数据查询方法[J].计算机应用研究,2014,31(9):2736-2740. 被引量：7
6李重文,邓腾彬,马世龙.基于分段极值的时间序列数据查询显示方法[J].计算机工程,2014,40(9):27-31. 被引量：4
7刘淑英.云计算中基于随机游走的数据查询方法研究[J].微型电脑应用,2014,30(9):30-33. 被引量：3
8朱涛.一种基于增量归集的大数据量的数据查询方法[J].电子世界,2014(17):71-72. 被引量：2
9李华.医疗应用服务中云计算的数据查询方法研究[J].计算机技术与发展,2015,25(1):202-206. 被引量：2
10彭良睿,李学明.一种基于树型结构的P2P系统高维数据检索方法[J].计算机应用研究,2015,32(3):842-845. 被引量：8

引证文献3

1顾成喜,顾才东,龚伟.传感网络中入侵数据查询方法改进研究仿真[J].计算机仿真,2017,34(2):314-317.
2张虹.数据库中工业产品资源信息准确定位仿真[J].计算机仿真,2017,34(10):406-409. 被引量：1
3金仙力,马凯旋.基于MapReduce的OCL的并行查询方法[J].计算机应用与软件,2018,35(7):21-26. 被引量：2

二级引证文献3

1张国华,叶苗,陆霞,吉晓香,梁德鸿.基于线程与分布式排序对比实验的设计与研究[J].实验技术与管理,2020,37(8):186-188. 被引量：1
2张国华,叶苗,王自然,周婷婷.大数据Hadoop框架核心技术对比与实现[J].实验室研究与探索,2021,40(2):145-148. 被引量：8
3韩涛,聂小华,段世慧,常亮.结构强度试验连接件仿真模型数据库设计研究[J].工程与试验,2023,63(1):93-95.

1王意洁,王勇军,胡守仁.面向对象数据库的并行查询处理[J].计算机科学,2000,27(2):43-47. 被引量：2
2宋磊,陈虹,夏芳,沈卫超.基于数据子集的数据访问性能优化[J].计算机工程与科学,2009,31(A01):256-259.
3夏秀峰,张羽.基于时间序列的PDM文件数据块分布算法[J].计算机工程与设计,2015,36(12):3264-3268. 被引量：2
4赵越,王意洁,王媛,李小勇.一种高效的不确定数据流并行Skyline查询处理方法[J].计算机研究与发展,2013,50(S2):132-139. 被引量：3
5Intranet上异构数据库的设计与实现[J].管理观察,1998(11):58-59.
6王宇翔,罗军舟,宋爱波,东方.Partition-Based Online Aggregation with Shared Sampling in the Cloud[J].Journal of Computer Science & Technology,2013,28(6):989-1011. 被引量：2
7俞志斌,周彦晖.基于关键字的云加密数据隐私保护检索[J].计算机科学,2015,42(S1):365-369 401. 被引量：8
8姚领众,邢艳辉,宋瀚涛,杨楠,郭贵锁,孙丹.Intranet上异构数据库的设计与实现[J].Journal of Beijing Institute of Technology,1998,7(1):92-99.
9刘一鸥.浅谈网络的存储技术[J].商情,2010(36):114-114.
10王波涛,赵凯利,常立东,李睿,黄山,李静,李响.基于Storm的连续范围查询优化技术[J].计算机工程与科学,2017,39(1):1-14. 被引量：1

小型微型计算机系统

2015年第7期

浏览历史

内容加载中请稍等...

基于多谓词选择的海量XML数据并行查询方法被引量：3

参考文献4

二级参考文献50

共引文献59

同被引文献20

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多谓词选择的海量XML数据并行查询方法 被引量：3

参考文献4

二级参考文献50

共引文献59

同被引文献20

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多谓词选择的海量XML数据并行查询方法被引量：3