期刊文献+
共找到127篇文章
< 1 2 7 >
每页显示 20 50 100
基于Hadoop的港口物流大数据应用研究 被引量:2
1
作者 王妍妍 王艳宁 +1 位作者 刘佳新 任家东 《燕山大学学报》 CAS 北大核心 2023年第3期216-220,228,共6页
物流大数据已经成为港口关键的生产要素,分析和利用大数据可有效控制经营风险,促进港口的健康可持续发展。本文基于Hadoop设计快速DBSCAN密度聚类算法,引入熵优化DBSCAN算法的核心点选择。在HDFS分布式文件系统中对大数据分块,采用Map... 物流大数据已经成为港口关键的生产要素,分析和利用大数据可有效控制经营风险,促进港口的健康可持续发展。本文基于Hadoop设计快速DBSCAN密度聚类算法,引入熵优化DBSCAN算法的核心点选择。在HDFS分布式文件系统中对大数据分块,采用Map对各个数据块完成初始聚类,并在Reduce上基于核心点扩展类融合形成最终聚类结果,以此提高大数据应用的效率。通过应用大数据对港口企业进行全面管理,为企业决策提供有效支持。 展开更多
关键词 大数据 hadoop系统 MAPREDUCE模型 DBSCAN算法
下载PDF
Visualized Analysis Model for Hadoop Business Data
2
作者 Zhongxi Wang 《Journal of Computer and Communications》 2018年第7期14-21,共8页
With the social development, we are stepping into an information technology world. In such a world, our life is getting more and more diversified and rich because of e-business. E-business not only provides us conveni... With the social development, we are stepping into an information technology world. In such a world, our life is getting more and more diversified and rich because of e-business. E-business not only provides us convenience but also large amounts of business data. However, how shall we better store, manage and use these business data has become a major field being studied by e-business. With the rapid growth of data volume, the relational database system cannot meet the requirements of the current status. In this paper, focusing on the visualized analysis model of Hadoop business data, it analyzed the business data in terms of the visualized platform, database and analysis model etc. Depending on the analysis, offline-data analysis and data visualization for Hive database will be greatly improved, so that references and suggestions can be provided for the visualized analysis model of Hadoop business data. 展开更多
关键词 hadoop BUSINESS DATA VISUALIZATION ANALYSIS model
下载PDF
基于Hadoop与局部异常因子的用电行为检测方法 被引量:2
3
作者 尤向前 高盼 《科技创新与应用》 2023年第21期73-76,共4页
随着智能电网建设的不断发展,电力数据具备海量、多样性、价值密度低等大数据特点,针对异常用电行为挖掘困难,提出一种基于Hadoop和局部异常因子的用电行为检测方法,通过对用电大数据进行特征提取,根据异常用电行为规律和特征,设定异常... 随着智能电网建设的不断发展,电力数据具备海量、多样性、价值密度低等大数据特点,针对异常用电行为挖掘困难,提出一种基于Hadoop和局部异常因子的用电行为检测方法,通过对用电大数据进行特征提取,根据异常用电行为规律和特征,设定异常用电行为判决条件,通过局部异常因子算法计算各用电数据点的离群性,将计算模型与Hadoop分布式大数据平台结合应用,最终确定异常用电用户。实验结果表明,该方法可有效提高电力大数据异常用电行为挖掘效率。 展开更多
关键词 hadoop 大数据 异常因子 数据挖掘 计算模型
下载PDF
基于Hadoop的油田勘探开发云平台数据存储模型研究与应用 被引量:1
4
作者 李真 彭运星 吴彬彬 《现代工业经济和信息化》 2023年第6期65-67,共3页
在物联网、移动互联网、云计算等信息技术的引擎带动下,大数据得到了迅猛的发展,攀升规模让人目不暇接,大数据的挖掘已经成为各个领域的焦点。在云平台开源项目Apache的构建中,Hadoop是重要的功能载体。基于Hadoop框架的应用,计算机集... 在物联网、移动互联网、云计算等信息技术的引擎带动下,大数据得到了迅猛的发展,攀升规模让人目不暇接,大数据的挖掘已经成为各个领域的焦点。在云平台开源项目Apache的构建中,Hadoop是重要的功能载体。基于Hadoop框架的应用,计算机集群得以快捷地实现。在油田勘探开发中越来越多的数据被挖掘出来,传统的Javs EE技术严重滞后于现代油田勘探开发功能需要,新的技术整合势在必行。根据分布式文件系统HDFS,依托Hadoop构建云平台数据存储结构模型,在油田勘探开发作业中真正实现了数据存储和查询的统一性,以及超强的灾备和预警能力,不仅显著提高了多表联合查询效率,真正意义上实现了数据资源的共享。 展开更多
关键词 hadoop 油田勘探 云平台 数据存储模型 研究与应用
下载PDF
Hadoop平台中MapReduce调度算法研究 被引量:11
5
作者 徐焕良 翟璐 +1 位作者 薛卫 任守纲 《计算机应用与软件》 CSCD 2015年第5期1-6,16,共7页
MapReduce是一种新型的并行计算框架,在计算速度,容错性,可靠性等方面具有优势,因此得到了广泛的商业应用与科学研究。而调度算法作为MapReduce的核心组成部分,它的优劣成为了直接影响MapReduce性能的关键因素,因而得到了很大的关注。... MapReduce是一种新型的并行计算框架,在计算速度,容错性,可靠性等方面具有优势,因此得到了广泛的商业应用与科学研究。而调度算法作为MapReduce的核心组成部分,它的优劣成为了直接影响MapReduce性能的关键因素,因而得到了很大的关注。在介绍和分析MapReduce并行计算模型的基础上,介绍了几种相关的模型改进,并基于Hadoop平台,重点研究了MapReduce的常用调度算法及改进算法。通过对比分析,就MapReduce未来的发展进行了进一步的探讨,为其调度算法的改进提供有效的方法。 展开更多
关键词 云计算 并行计算模型 hadoop MAPREDUCE 调度算法
下载PDF
基于Hadoop的MapReduce模型的研究与改进 被引量:36
6
作者 李玉林 董晶 《计算机工程与设计》 CSCD 北大核心 2012年第8期3110-3116,共7页
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通... 针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 展开更多
关键词 MAPREDUCE模型 hadoop 数据倾斜 云计算 并行编程
下载PDF
Hadoop平台下基于资源预测的Delay调度算法 被引量:6
7
作者 魏晓辉 付庆午 李洪亮 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第1期101-106,共6页
针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相... 针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相近的同时,将作业平均运行效率提高28.8%,明显提高了Mapreduce作业的执行效率. 展开更多
关键词 hadoop平台 MAPREDUCE模型 资源调度 资源预测 Delay调度
下载PDF
基于Hadoop的云环境下作物生长模型算法的实现与测试 被引量:11
8
作者 赵青松 陈林 +2 位作者 孙波 朱艳 姜海燕 《农业工程学报》 EI CAS CSCD 北大核心 2013年第8期179-186,共8页
为了提高作物生长模型的计算速度,该文提出了云环境下作物生长模型算法的实现方案。综合分析了作物生长模型和子模型之间的数据依赖关系,以及不同并行计算方法的特点。以云计算基础架构开源软件Hadoop为基础,设计云环境下作物生长模型... 为了提高作物生长模型的计算速度,该文提出了云环境下作物生长模型算法的实现方案。综合分析了作物生长模型和子模型之间的数据依赖关系,以及不同并行计算方法的特点。以云计算基础架构开源软件Hadoop为基础,设计云环境下作物生长模型处理方案。以小麦生长模型WheatGrow为测试对象,在真实云环境下,验证了该方案的有效性。研究表明,在处理作物生长模型这类具有复杂数据依赖关系问题时,当区域数据点较多,需采用数据并行计算方法;且区域数据点越多,加入计算的计算结点越多,越能体现出MapReduce在并行计算上具有的可扩展性。研究可为促进作物生长模型和数字农业的发展提供参考。 展开更多
关键词 农作物 并行算法 模型 云计算 hadoop
下载PDF
基于R+Hadoop的中药材大数据的分析及预测 被引量:10
9
作者 朱昶胜 王莎莎 王永贤 《兰州理工大学学报》 CAS 北大核心 2017年第1期98-103,共6页
Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务... Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务平台"药材盈"采集的大数据为例,通过采用Hadoop集群并行处理中药材文本数据、RHadoop进行预处理并获取样本数据、R语言对样本数据建模,获得较为可靠的预测中药材市场价格的模型,对中药材市场价格的变化规律及影响因素进行分析和预测.采用线性模型和决策树模型对中药材大数据进行建模,并通过实验验证和比较得到预测中药材市场价格的最佳模型. 展开更多
关键词 中药材 R语言 数据建模 hadoop技术 决策树
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
10
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop MAPREDUCE hadoop分布式文件系统 Sqoop
下载PDF
基于Hadoop的海量网格数据建模 被引量:4
11
作者 胡志刚 梁晓扬 《计算机系统应用》 2010年第10期191-194,17,共5页
针对网格实验的实际需要和现有网格仿真工具存在的不足,提出了一种结合Hadoop技术进行海量网格数据建模的方法。利用提出的建模方法,研究人员可以从海量数据中挖掘出实验所需核心数据,并建立这些数据所满足的数学模型。在网格仿真实验... 针对网格实验的实际需要和现有网格仿真工具存在的不足,提出了一种结合Hadoop技术进行海量网格数据建模的方法。利用提出的建模方法,研究人员可以从海量数据中挖掘出实验所需核心数据,并建立这些数据所满足的数学模型。在网格仿真实验中使用这些数学模型生成网格负载,将会提高网格仿真实验的准确性和可信度。 展开更多
关键词 网格仿真 hadoop 数学模型
下载PDF
Hadoop分布式文件系统的模型分析 被引量:22
12
作者 王峰 雷葆华 《电信科学》 北大核心 2010年第12期95-99,共5页
Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析... Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的重要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现,并为云计算背景下的分布式文件系统设计提供重要的参考。 展开更多
关键词 hadoop分布式文件系统 系统模型 云计算
下载PDF
基于Hadoop的贝叶斯过滤MapReduce模型 被引量:3
13
作者 曾青华 袁家斌 张云洲 《计算机工程》 CAS CSCD 2013年第11期57-60,64,共5页
传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤Ma... 传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。 展开更多
关键词 云计算 MAPREDUCE模型 hadoop架构 贝叶斯算法 垃圾邮件 反垃圾邮件过滤
下载PDF
基于Hadoop MapReduce模型的应用研究 被引量:69
14
作者 谢桂兰 罗省贤 《微型机与应用》 2010年第8期4-7,共4页
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的... MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 展开更多
关键词 分布式并行计算 hadoop 编程模型 MAPREDUCE
下载PDF
基于Hadoop的时态信息存储与时态关系演算问题研究 被引量:1
15
作者 左亚尧 封朝永 陈磊 《计算机应用研究》 CSCD 北大核心 2014年第5期1390-1395,共6页
面对海量的非结构化时态信息,构建了在分布式环境下的数据存储模型,并在此基础上提出一种基本的时态数据处理方法。使用Hadoop平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储... 面对海量的非结构化时态信息,构建了在分布式环境下的数据存储模型,并在此基础上提出一种基本的时态数据处理方法。使用Hadoop平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;针对分布式处理特征和时态集合数据类型,提出一种在Map/Reduce编程计算模式下进行海量时态信息关系演算的实现方法;通过扩展时态区间关系运算,实现以时态集合为基本时态数据操作对象的交、并等关系运算。以医疗时态数据作为研究实例,表明了所提出的时态数据存储模型和关系演算方案在分布式应用系统下的适用性。 展开更多
关键词 时态信息 hadoop 数据存储模型 时态关系演算 医疗时态数据
下载PDF
基于Hadoop的多关键字排序方法研究 被引量:1
16
作者 周国军 《计算机工程与应用》 CSCD 北大核心 2016年第17期79-83,159,共6页
在单机环境下按多关键字对大数据排序需要较长的执行时间,为了提高按多关键字对大数据排序的效率,根据Hadoop的Map Reduce模型,给出了两种基于Hadoop的多关键字排序方法。方法一在Reduce函数中使用链式基数排序算法按多关键字对大数据... 在单机环境下按多关键字对大数据排序需要较长的执行时间,为了提高按多关键字对大数据排序的效率,根据Hadoop的Map Reduce模型,给出了两种基于Hadoop的多关键字排序方法。方法一在Reduce函数中使用链式基数排序算法按多关键字对大数据并行排序,利用多个节点的计算能力提高排序的效率。方法二通过定义组合键和比较器实现了对记录的多个关键字按字节比较,节省了将字节流反序列化为对象的时间。通过实验测试了两种方法的性能,实验结果表明,两种方法均能取得较高的排序效率和较好的可扩展性。 展开更多
关键词 hadoop MAPREDUCE模型 多关键字排序 基数排序
下载PDF
Hadoop平台下计算能力调度算法的改进与实现 被引量:4
17
作者 戴小平 张宜力 《计算机工程与应用》 CSCD 北大核心 2015年第19期61-65,共5页
在计算能力调度算法中没有全面考虑各资源特征的分配是否满足作业多样的服务要求,提出一种基于优先级的计算能力加权调度算法,根据作业的优先级以及提交时间等因素来计算作业的权重。依据作业的权重对作业队列进行排序并分配空闲的slot... 在计算能力调度算法中没有全面考虑各资源特征的分配是否满足作业多样的服务要求,提出一种基于优先级的计算能力加权调度算法,根据作业的优先级以及提交时间等因素来计算作业的权重。依据作业的权重对作业队列进行排序并分配空闲的slot给队首的作业,从而避免调度陷入局部最优也能更好地满足作业的多样性服务要求。在搭建的Hadoop平台上进行实验表明,改进后的算法能较均衡地分配系统资源减少一些作业的等待时间,并且运行全部作业的用时有所减少。 展开更多
关键词 云计算 作业调度 hadoop 加权 Map Reduce编程模型
下载PDF
基于灰盒模型的Hadoop MapReduce job参数性能分析与预测 被引量:6
18
作者 周世龙 陈兴蜀 罗永刚 《四川大学学报(工程科学版)》 CSCD 北大核心 2014年第S1期146-154,共9页
针对传统使用统计机器学习对Hadoop MapReduce job参数性能预测时完全基于黑盒模型,预测精度不高且不具有扩展性等问题,提出一种结合黑盒和白盒的灰盒预测方法。定性分析了MapReduce job配置参数对job性能的影响;基于局部加权线性回归... 针对传统使用统计机器学习对Hadoop MapReduce job参数性能预测时完全基于黑盒模型,预测精度不高且不具有扩展性等问题,提出一种结合黑盒和白盒的灰盒预测方法。定性分析了MapReduce job配置参数对job性能的影响;基于局部加权线性回归分别对job的map task和reduce task性能进行预测;实现Hadoop调度器模拟器,并利用调度器模拟器对预测的job map task和reduce task进行调度,计算job执行时间,达到预测job性能目的。实验通过对比传统基于黑盒方法的预测效果,表明灰盒模型有更好的预测精度,并且可以完成集群规模变化后的job性能预测。 展开更多
关键词 hadoop 调度器模拟 配置参数 灰盒模型 局部加权线性回归
下载PDF
基于Hadoop集群的多表并行关联算法及应用 被引量:2
19
作者 郑晓薇 马琳 《微型机与应用》 2013年第4期91-93,共3页
针对因特网环境下并行数据库实现多个大数据表关联存在的计算瓶颈,基于Hadoop集群设计了一个并行关联多个大数据表的简便算法MR_Join。以商业网站凡客诚品的销售数据为例进行实验,验证算法的可行性并做出应用实例。实验结果表明,MR_Joi... 针对因特网环境下并行数据库实现多个大数据表关联存在的计算瓶颈,基于Hadoop集群设计了一个并行关联多个大数据表的简便算法MR_Join。以商业网站凡客诚品的销售数据为例进行实验,验证算法的可行性并做出应用实例。实验结果表明,MR_Join算法可以有效地实现大数据表的快速关联,具有显著的并行效率。 展开更多
关键词 hadoop集群 Mapreduce编程模式 MR_Join算法 数据表并行关联
下载PDF
基于Hadoop的电力地理信息系统数据管理 被引量:10
20
作者 林碧英 王艳萍 《计算机应用》 CSCD 北大核心 2014年第10期2806-2811,共6页
针对传统电力地理信息系统(GIS)在存储能力、分析能力和扩展能力上的不足,将云计算技术应用到电力GIS领域,提出利用Hadoop云平台对电力GIS数据进行高效存储和管理的方案。首先对电力GIS各类数据的特点进行了分析,提出了关系型数据库与... 针对传统电力地理信息系统(GIS)在存储能力、分析能力和扩展能力上的不足,将云计算技术应用到电力GIS领域,提出利用Hadoop云平台对电力GIS数据进行高效存储和管理的方案。首先对电力GIS各类数据的特点进行了分析,提出了关系型数据库与非关系型数据库相结合的数据存储策略,并在此基础上设计了基于Hadoop的电力GIS数据管理整体架构、相应的数据模型以及基于MapReduce的数据并行查询分析方法。最后,在单机和集群的环境下,对空间分析与运行数据查询的性能进行了对比与验证。实验结果表明,在数据量达到一定规模时,该方案优势明显,数据分析与查询的平均时间缩短30%以上,具有较高的效率和良好的扩展性。 展开更多
关键词 云计算 hadoop 电力地理信息系统(GIS) 存储模型 并行处理
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部