期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
MapReduce连接查询的I/O代价研究 被引量:9
1
作者 宋杰 李甜甜 +2 位作者 朱志良 鲍玉斌 于戈 《软件学报》 EI CSCD 北大核心 2015年第6期1438-1456,共19页
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce... 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于Map Reduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣. 展开更多
关键词 连接查询 MAPREDUCE i/o代价模型 查询优化
下载PDF
一个块同步并行(BSP)的改进I/O代价模型
2
作者 徐淑頲 孙永强 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第9期1280-1284,共5页
提出了一个改进的 BSP的 I/ O代价模型 ,不但易于实现 ,而且利用该模型能减少 I/ O、通信及同步时间 ,显著地提高 BSP程序的运行效率 .给出了在这两种模型下实现并行排序算法的时间代价比较 .
关键词 快同步并行模型 i/o性能模型 并行排序算法 i/o代价模型 并行体系结构 并行程序设计
下载PDF
基于MapReduce的连接聚集查询算法研究 被引量:7
3
作者 陈勇旭 陈梦杰 +1 位作者 刘雪冰 宋杰 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期306-311,共6页
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有... 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系. 展开更多
关键词 海量数据 连接聚集查询 MAPREDUCE i/o代价 算法优化
下载PDF
基于MapReduce的多元连接优化方法 被引量:3
4
作者 李甜甜 于戈 +1 位作者 郭朝鹏 宋杰 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期467-478,共12页
多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接... 多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的"木桶效应",通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.该研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接、社交网络中社团发现的链式连接等应用的性能. 展开更多
关键词 多元连接 执行计划 i/o代价 性能优化 MapReduce编程模型 负载均衡
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部