期刊文献+
共找到11,317篇文章
< 1 2 250 >
每页显示 20 50 100
基于异常检测模型的异构环境下MapReduce性能优化 被引量:3
1
作者 侯佳林 王佳君 聂洪玉 《计算机应用》 CSCD 北大核心 2015年第9期2476-2481,共6页
针对"落伍者"的选择问题,提出利用故障诊断领域内通常使用的异常检测模型来选择"落伍者"的方法。首先,利用异常检测算法来发现集群中的"慢节点";然后改进MapReduce任务分配算法和推测执行算法,不再给&qu... 针对"落伍者"的选择问题,提出利用故障诊断领域内通常使用的异常检测模型来选择"落伍者"的方法。首先,利用异常检测算法来发现集群中的"慢节点";然后改进MapReduce任务分配算法和推测执行算法,不再给"慢节点"分配任务并将"慢节点"中的任务分配至有空闲任务槽的正常节点中。在改进的推测执行算法中,因相同网段内的节点通常物理邻近,可提高数据传输速度,首次将"慢节点"中的任务分配至同网段的正常节点中,以便数据传输。实例验证结果表明,使用异常检测算法后可迅速检测出异常节点,且与Hadoop-LATE算法相比,处理相同任务量可缩短集群17%的任务处理时间,说明所提算法在集群整体性能优化中表现优异。 展开更多
关键词 异常检测 mapreduce性能优化 推测执行 异构环境
下载PDF
基于应用程序的MapReduce性能优化 被引量:4
2
作者 高莉莎 刘正涛 应毅 《计算机技术与发展》 2015年第7期96-99,106,共5页
针对MapReduce框架执行效率不佳的问题,对MapReduce性能优化的多个方案进行了研究。首先阐述了云计算的定义、特征以及专用批处理Paa S平台Hadoop的组成,之后简单介绍了MapReduce框架和MapReduce框架下的应用程序开发,接着着重讨论了Map... 针对MapReduce框架执行效率不佳的问题,对MapReduce性能优化的多个方案进行了研究。首先阐述了云计算的定义、特征以及专用批处理Paa S平台Hadoop的组成,之后简单介绍了MapReduce框架和MapReduce框架下的应用程序开发,接着着重讨论了MapReduce性能优化的三个主流方向:系统实现优化、参数调优、应用程序优化。并从应用程序着手,提出多个解决方法,进行了in-Map Reduce优化算法、脚本语言/编译语言对比、小文件预处理优化等多个实验,最后对优化技术和实验数据进行了分析。实验结果表明,优化应用程序是提高MapReduce性能的有效手段。 展开更多
关键词 mapreduce 应用程序 性能优化 in-Map REDUCE 小文件优化
下载PDF
基于云平台的MapReduce性能优化策略 被引量:2
3
作者 李立耀 赵少卡 许华荣 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第5期752-758,共7页
设计了基于云平台架构的M印Reduce性能优化策略,全面考虑MapReduce作业过程中的数据传输与数据处理流程,将虚拟网络拓扑结构的设计描述成一个优化问题,并构建模型实现了通信代理数量、通信代理的放置位置以及虚拟机与通信代理之间的映... 设计了基于云平台架构的M印Reduce性能优化策略,全面考虑MapReduce作业过程中的数据传输与数据处理流程,将虚拟网络拓扑结构的设计描述成一个优化问题,并构建模型实现了通信代理数量、通信代理的放置位置以及虚拟机与通信代理之间的映射关系,以解决目前大多数研究只单方面考虑平台的数据处理或数据传输性能的缺陷.实验结果表明,与随机匹配策略和贪心策略相比,本方案优化了云计算系统的虚拟网络拓扑结构,减少了数据传输与处理的时间总开销,显著地提高了大数据处理的整体性能. 展开更多
关键词 云计算 虚拟网络 mapreduce 优化部署
下载PDF
面向DNS日志的MapReduce性能优化技术研究 被引量:1
4
作者 刘鹤煜 张棪 +2 位作者 杨兴华 崔华俊 谭倩 《智能计算机与应用》 2018年第2期73-77,共5页
DNS日志是互联网中重要的访问日志,数量巨大且承载着大量信息,需要借助大数据技术进行处理和分析。现网DNS日志数据量大,且数据倾斜现象严重,对MapReduce的性能有较为严重的影响。基于上述问题,采用小文件合并方法优化分片,缓解Map端的... DNS日志是互联网中重要的访问日志,数量巨大且承载着大量信息,需要借助大数据技术进行处理和分析。现网DNS日志数据量大,且数据倾斜现象严重,对MapReduce的性能有较为严重的影响。基于上述问题,采用小文件合并方法优化分片,缓解Map端的数据倾斜问题,并实现动态设置分片大小,提高MapReduce作业执行效率。该方法有效均衡了Map任务的负载,从而提高了数据倾斜情况下的MapReduce作业的执行效率和资源利用率。实验表明,使用该方法可以有效缩短MapReduce作业的执行时间。 展开更多
关键词 DNS日志 数据倾斜 mapreduce 性能优化
下载PDF
Hadoop MapReduce短作业执行性能优化 被引量:28
5
作者 顾荣 严金双 +2 位作者 杨晓亮 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1270-1280,共11页
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在... Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%. 展开更多
关键词 mapreduce 并行计算 短作业 性能优化 大数据处理
下载PDF
基于内存优化配置的MapReduce性能调优 被引量:6
6
作者 罗永刚 陈兴蜀 杨露 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第1期102-111,共10页
MapReduce作业性能与内存配置存在极大的相关性,针对准确预测作业内存困难问题,根据Java虚拟机(JVM)的分代内存管理特点,提出了一种分代内存预测方法.首先使用回归模型对年轻代与垃圾回收平均时间的关系进行建模,将寻找合理年轻代内存... MapReduce作业性能与内存配置存在极大的相关性,针对准确预测作业内存困难问题,根据Java虚拟机(JVM)的分代内存管理特点,提出了一种分代内存预测方法.首先使用回归模型对年轻代与垃圾回收平均时间的关系进行建模,将寻找合理年轻代内存大小的问题转换为一个受约束的非线性优化问题,并设计搜索算法来求解该优化问题.文中还建立MapReduce作业的Map任务和Reduce任务性能与内存的关系模型,求解最佳性能的内存需求,从而获得Map任务和Reduce任务的年长代内存大小;使用聚类算法预测JVM晋升对象阈值,优化JVM配置,减少了JVM的垃圾回收暂停时间.实验结果表明,文中提出的方法能准确预测作业的内存需求,显著提升作业运行性能. 展开更多
关键词 大数据 mapreduce 垃圾回收 内存分配 性能优化
下载PDF
基于动态获取高频率键的MapReduce性能优化算法
7
作者 李建江 滑水亮 +1 位作者 吴杰 张凯 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第12期1059-1065,共7页
在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提... 在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提出在环形内存缓冲之前添加哈希表,并将高频率键存储在哈希表中。该算法通过采样来实现,有额外开销并且统计出的高频率键并不一定准确。该文提出一种基于动态获取高频率键的MapReduce性能优化算法,通过在环形内存缓冲之前增加计数Bloom过滤器(counting Bloom filter,CBF)和哈希表,将高频率键动态地存储在哈希表中。该算法获得的高频率键更准确,同时大大减少了数据排序和磁盘I/O的开销。实际测试结果表明:该算法明显提高了作业的执行速度,比原始MapReduce提高17.04%,比FB算法提高9.31%。 展开更多
关键词 mapreduce 高频率键 性能优化 计数Bloom过滤器
原文传递
高强度混凝土结构施工技术及性能优化
8
作者 宫钦寿 《山西建筑》 2025年第2期104-106,111,共4页
结合工程案例,介绍了高强度混凝土材料的特性表现,从强度提升、收缩变形、抗渗性能、抗裂性能等方面论述了高强度混凝土结构的优化策略,从配合设计、搅拌工艺、浇筑及养护技术等方面探讨了施工技术的改进措施,从而保证高强度混凝土结构... 结合工程案例,介绍了高强度混凝土材料的特性表现,从强度提升、收缩变形、抗渗性能、抗裂性能等方面论述了高强度混凝土结构的优化策略,从配合设计、搅拌工艺、浇筑及养护技术等方面探讨了施工技术的改进措施,从而保证高强度混凝土结构的整体性能和施工质量。 展开更多
关键词 高强度混凝土 性能优化 配合比 复合养护
下载PDF
基于MapReduce平台的大数据查询与处理优化算法
9
作者 何健 《电脑编程技巧与维护》 2024年第5期107-109,共3页
基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用... 基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用改进RSJ的分布式缓存表连接算法滤除不满足连接条件的数据。仿真实验表明,运用MapReduce并行计算框架和RSJ表连接算法进行数据处理,可减少Map端输出的数据量,缩短网络数据传输与处理时长,实现海量化大数据查询与处理的优化目标。 展开更多
关键词 mapreduce并行运算处理 表连接算法 大数据查询与处理 优化
下载PDF
MapReduce计算模式的性能优化设计及其应用 被引量:2
10
作者 申玲艳 《信息与电脑》 2016年第14期49-50,共2页
笔者为提高MapReduce编程模型的执行效率,提出了优化Map输出结果传输的思想和MapReduce编程模型的自身容错机制。实验证明,优化后的方法基本上达到了预期的效果,可以有效提高MapReduce模型的工作效率。
关键词 mapreduce 性能优化 REDUCE
下载PDF
黄精多糖提取工艺优化及其吸湿、保湿性能研究 被引量:2
11
作者 程茜菲 张玩涛 +5 位作者 王飞娟 李娟花 彭修娟 王静 韩文冬 刘峰 《中国野生植物资源》 CSCD 2024年第2期20-25,共6页
目的:优化黄精多糖提取工艺,并研究其吸湿保湿性能、探索其护肤功能。方法:采用热回流法结合正交进行黄精多糖提取工艺优化;以黄精多糖为实验对象,采用重量法进行吸湿性(相对湿度分别为43%和81%)、保湿性试验,并对吸湿曲线进行模型拟合... 目的:优化黄精多糖提取工艺,并研究其吸湿保湿性能、探索其护肤功能。方法:采用热回流法结合正交进行黄精多糖提取工艺优化;以黄精多糖为实验对象,采用重量法进行吸湿性(相对湿度分别为43%和81%)、保湿性试验,并对吸湿曲线进行模型拟合;将黄精多糖添加到市售面霜中进行皮肤水分测试。结果:实验表明黄精多糖最佳提取工艺条件为:料液比1∶25(g/mL),提取时间是150 min,提取次数为1次;黄精多糖在不同相对湿度下的吸湿均符合双指数模型;置于干硅胶环境下48 h,黄精多糖保湿率为14.00%。结论:黄精多糖具有良好的保湿性,在护肤品开发中具有一定的应用价值。 展开更多
关键词 黄精多糖 提取工艺优化 吸湿保湿性能
下载PDF
MapReduce优化技术综述 被引量:30
12
作者 黄山 王波涛 +2 位作者 王国仁 于戈 李佳佳 《计算机科学与探索》 CSCD 2013年第10期865-885,共21页
作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引... 作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引、连接、迭代计算、科学计算及调度算法方面的优化技术,分析了MapReduce技术研究的挑战性问题,指出了未来研究方向。 展开更多
关键词 mapreduce 列存储 索引 连接 迭代 科学计算 调度算法 优化
下载PDF
甘蔗健康种苗双芽段槽带式种植机排种性能优化研究 被引量:1
13
作者 牛钊君 刘信鹏 +3 位作者 葛畅 韦丽娇 李明 张坚敏 《农机化研究》 北大核心 2024年第8期142-150,共9页
甘蔗健康种苗种植技术是提高单产水平和品质、降低生产成本的有效措施之一,而目前国内甘蔗种植装备不成熟,直接限制了这一技术的推广和应用。为此,以有序排列的甘蔗健康种苗双芽段蔗种为研究对象,对团队研发的2CZD-2A型半自动双芽甘蔗... 甘蔗健康种苗种植技术是提高单产水平和品质、降低生产成本的有效措施之一,而目前国内甘蔗种植装备不成熟,直接限制了这一技术的推广和应用。为此,以有序排列的甘蔗健康种苗双芽段蔗种为研究对象,对团队研发的2CZD-2A型半自动双芽甘蔗种植机排种性能进行优化,设计了高频电磁振动自动喂入器与仿形排种同步驱动器。利用Solid Edge ST5三维软件建模进行仿真分析,建立试验台进行多因素正交组合试验,采集数据并利用SPSS进行处理建立回归方程,运用Design Expert绘制响应曲面,分析因素之间交互作用,利用MatLab进行参数优化,最终进行田间试验验证。研究结果表明:同步驱动机构增加了排种均匀度,当带轮转速为10r/s、振动幅度为18.5mm、行进速度为0.65m/s时,排种均匀度达到94.18%,与优化结果偏差小于5%,满足设计要求;高频振动与动力源振动无干涉,验证了振动器梳理方案的可行性,可为全自动种植机的研发提供参考。 展开更多
关键词 甘蔗健康种苗 双芽段种植机 排种性能 优化
下载PDF
一种优化MapReduce系统能耗的数据布局算法 被引量:8
14
作者 宋杰 王智 +1 位作者 李甜甜 于戈 《软件学报》 EI CSCD 北大核心 2015年第8期2091-2110,共20页
在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗... 在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗优化方法多采用负载集中和节点开关算法,但由于MapReduce任务的特点,集群节点不仅要完成运算,还需要存储数据,因此,传统方法难以应用到MapReduce集群.提出了良好的数据布局可以优化集群能耗.基于此,首先定义了数据布局的能耗优化目标,并提出相应的数据布局算法;接着,从理论上证明该算法能够实现数据布局的能耗优化目标;最后,在异构集群中部署3种数据布局不同的MapReduce系统,通过对比三者在执行CPU密集型、I/O密集型和交互型这3种典型运算时的集群能耗,验证了所提出的数据布局算法的能耗优化效果.理论和实验结果均表明,所提出的布局算法能够有效地降低MapReduce集群的能耗.上述工作都将促进高能耗计算和大数据分析的应用. 展开更多
关键词 能耗优化 mapreduce 数据布局 大数据
下载PDF
一种优化MapReduce系统能耗的任务分发算法 被引量:12
15
作者 宋杰 徐澍 +2 位作者 郭朝鹏 鲍玉斌 于戈 《计算机学报》 EI CSCD 北大核心 2016年第2期323-338,共16页
MapReduce是一种典型的分布式计算模型,一经提出就被迅速应用到大数据处理系统中.文中认为MapReduce系统在能耗方面存在优化空间.对于一个分布式并行计算系统,任务的并行性对任务执行性能影响显著,并行性保证方法在优化性能的前提下还... MapReduce是一种典型的分布式计算模型,一经提出就被迅速应用到大数据处理系统中.文中认为MapReduce系统在能耗方面存在优化空间.对于一个分布式并行计算系统,任务的并行性对任务执行性能影响显著,并行性保证方法在优化性能的前提下还应该考虑系统能耗.在MapReduce系统中,传统的Map任务分发算法采用"小任务多次分发的策略",这种策略虽然保证了并行性,但会浪费节点的处理能力,消耗额外的能量;而Reduce任务分发算法尚不能保证Reduce任务间的并行性.文中提出通过动态地调整Map任务和Reduce任务大小,也即任务处理数据量的规模来保证任务并行性,降低MapReduce系统的整体能耗.文中通过实验证明该方法能够有效地降低典型MapReduce作业的能耗. 展开更多
关键词 mapreduce 能耗 能耗优化 任务分发 并行性 云计算 大数据
下载PDF
基于共享的MapReduce多查询优化技术 被引量:7
16
作者 赵保学 李战怀 +3 位作者 陈群 潘巍 姜涛 金健 《计算机应用研究》 CSCD 北大核心 2013年第5期1405-1409,共5页
为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一... 为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一组查询的整体执行计划。通过与Hive和Pig的对比,验证了该方法能够在保证准确性的情况下有效地减少执行步数,提高查询执行的效率。 展开更多
关键词 查询优化 mapreduce 查询共享 执行计划
下载PDF
斯特林机帽式密封性能分析及回归参数优化设计 被引量:1
17
作者 杨东亚 张海龙 +2 位作者 王学霖 王锋 高贵 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第3期287-300,共14页
为改善斯特林机活塞杆帽式密封性能,首先采用数值仿真分析了5 MPa工质压力下其静、动态力学特性,从而获取了O型圈内径尺寸L_(N)、C型环径向壁厚T和装配过盈量S这3个关键结构参数对密封性能的影响规律。在此基础上,利用回归设计法以配伍... 为改善斯特林机活塞杆帽式密封性能,首先采用数值仿真分析了5 MPa工质压力下其静、动态力学特性,从而获取了O型圈内径尺寸L_(N)、C型环径向壁厚T和装配过盈量S这3个关键结构参数对密封性能的影响规律。在此基础上,利用回归设计法以配伍面最大接触压力平稳且密封可靠为优化目标,对密封结构的上述3个关键参数进行优化设计以确定其最佳匹配方案,最后通过密封试验台验证了本文优化设计方法的准确性和普适性。结果表明:活塞杆与C型环密封面中间区域上最大接触压力随L_(N)和S的增大而增大,但随T的增大而减小;通过估计回归系数和方差分析(ANOVA)发现,L_(N)对密封性能影响最为显著、S次之、T影响最小;L_(N)和T、L_(N)和S交互项对响应显著,而T和S交互项对响应不显著;当L_(N)为13.745 mm、T为0.40 mm和S为0.020 mm时,优化密封件对应的正行程最大接触压力为9.01 MPa、回程为9.75 MPa,较工程在用密封件(L_(N)=13.780 mm、T=0.50 mm、S=0 mm)最大接触压力分别降低了14.7%和25.5%。实验进一步验证了优化密封件的密封性能和使用寿命均优于工程在用密封件,并且在不同工质压力下优化密封件的接触压力均匀性更好,减摩延寿效果显著,充分证明本文性能分析与优化设计方法准确有效。 展开更多
关键词 斯特林机 帽式密封 性能分析 参数优化 回归设计
下载PDF
Spark DAG优化MapReduce协同过滤算法 被引量:3
18
作者 廖彬 张陶 +3 位作者 于炯 国冰磊 张旭光 刘炎 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第3期46-56,共11页
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析... 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。 展开更多
关键词 协同过滤 mapreduce SPARK 算法优化 能耗优化
下载PDF
基于SDN的MapReduce带宽优化设计 被引量:4
19
作者 杨军 吕璐 +2 位作者 徐冠 王曼 戴彬 《计算机应用研究》 CSCD 北大核心 2016年第10期3109-3113,共5页
在实际Hadoop系统中,如何使作业完成时间最短成为了一个NP完全问题,导致这个问题的主要原因是MapReduce计算过程中大量的数据从Map节点向Reduce节点进行迁移,容易造成网络拥塞,使得数据迁移时间过长。软件定义网络(SDN)实现了路由控制... 在实际Hadoop系统中,如何使作业完成时间最短成为了一个NP完全问题,导致这个问题的主要原因是MapReduce计算过程中大量的数据从Map节点向Reduce节点进行迁移,容易造成网络拥塞,使得数据迁移时间过长。软件定义网络(SDN)实现了路由控制和数据转发的分离,同时使交换机能够对网络中的数据进行灵活处理,使控制器能够知晓全局网络拓扑结构,其集中式管理模式为Hadoop进行性能优化带来了可能性。利用SDN对网络的灵活控制,让Map中间值在Open Flow交换机上进行数据合并,减少数据流量和数据迁移时间,提高Hadoop工作效率。 展开更多
关键词 软件定义网络 mapreduce 带宽优化 中间值合并
下载PDF
基于Spark的MapReduce相似度计算效率优化 被引量:3
20
作者 廖彬 张陶 +2 位作者 于炯 国冰磊 刘炎 《计算机科学》 CSCD 北大核心 2017年第8期46-53,共8页
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法... 随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。 展开更多
关键词 相似度计算 mapreduce Spark优化 能耗优化
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部