期刊文献+
共找到130篇文章
< 1 2 7 >
每页显示 20 50 100
基于Hadoop平台的分布式文件云存储系统设计
1
作者 袁宏涛 《软件》 2024年第6期172-174,共3页
数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调... 数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调度,使得Hadoop成为处理大数据问题的理想平台。本文探讨了基于Hadoop平台的分布式文件云存储系统设计,旨在提供一种高效可靠的分布式文件云存储解决方案,以支持大数据时代下的数据存储与处理需求。 展开更多
关键词 hadoop平台 分布式文件云存储系统 系统设计
下载PDF
Performance Improvement through Novel Adaptive Node and Container Aware Scheduler with Resource Availability Control in Hadoop YARN
2
作者 J.S.Manjaly T.Subbulakshmi 《Computer Systems Science & Engineering》 SCIE EI 2023年第12期3083-3108,共26页
The default scheduler of Apache Hadoop demonstrates operational inefficiencies when connecting external sources and processing transformation jobs.This paper has proposed a novel scheduler for enhancement of the perfo... The default scheduler of Apache Hadoop demonstrates operational inefficiencies when connecting external sources and processing transformation jobs.This paper has proposed a novel scheduler for enhancement of the performance of the Hadoop Yet Another Resource Negotiator(YARN)scheduler,called the Adaptive Node and Container Aware Scheduler(ANACRAC),that aligns cluster resources to the demands of the applications in the real world.The approach performs to leverage the user-provided configurations as a unique design to apportion nodes,or containers within the nodes,to application thresholds.Additionally,it provides the flexibility to the applications for selecting and choosing which node’s resources they want to manage and adds limits to prevent threshold breaches by adding additional jobs as needed.Node or container awareness can be utilized individually or in combination to increase efficiency.On top of this,the resource availability within the node and containers can also be investigated.This paper also focuses on the elasticity of the containers and self-adaptiveness depending on the job type.The results proved that 15%–20%performance improvement was achieved compared with the node and container awareness feature of the ANACRAC.It has been validated that this ANACRAC scheduler demonstrates a 70%–90%performance improvement compared with the default Fair scheduler.Experimental results also demonstrated the success of the enhancement and a performance improvement in the range of 60%to 200%when applications were connected with external interfaces and high workloads. 展开更多
关键词 Big data hadoop YARN hadoop distributed file system(HDFS) MapReduce scheduling fair scheduler
下载PDF
New Spam Filtering Method with Hadoop Tuning-Based MapReduce Naïve Bayes
3
作者 Keungyeup Ji Youngmi Kwon 《Computer Systems Science & Engineering》 SCIE EI 2023年第4期201-214,共14页
As the importance of email increases,the amount of malicious email is also increasing,so the need for malicious email filtering is growing.Since it is more economical to combine commodity hardware consisting of a medi... As the importance of email increases,the amount of malicious email is also increasing,so the need for malicious email filtering is growing.Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques,we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering.Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine(SVM),Naïve Bayes,K-Nearest Neighbor(KNN),and Decision Tree)in terms of execution time and accuracy.Malicious email was filtered with MapReduce programming using the Naïve Bayes technique,which is a supervised machine learning method,in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied.According to the results of a comparison of the accuracy and predictive error rates of the two methods,the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method. 展开更多
关键词 hadoop hadoop distributed file system(HDFS) MAPREDUCE configuration parameter malicious email filtering Naïve Bayes
下载PDF
基于Hadoop架构的电力系统连锁故障分布式计算技术 被引量:13
4
作者 刘友波 刘洋 +3 位作者 刘俊勇 李勇 刘挺坚 刁塑 《电力系统自动化》 EI CSCD 北大核心 2016年第7期90-97,共8页
以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop... 以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop分布式文件系统(HDFS)存储调度功能,将事故链解耦为小粒度单一故障场景进行计算,可针对连锁故障仿真的不同复杂度提供跨系统的分布式计算服务,灵活应对计算开始前连锁故障中事故链组合的不可预测性。利用10机、16机系统和某省网实际数据进行技术测试,结果表明所研发系统实现了连锁故障分析应用与数据在计算服务网络中的分离,具备动态调配计算节点资源的能力,能自动适应事件规模为电网连锁故障的仿真分析提供强大计算能力,具有在线应用前景。 展开更多
关键词 连锁故障 分布式计算 hadoop分布式文件系统(HDFS) PSD-BPA
下载PDF
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:12
5
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 hadoop分布式文件系统 小文件 文件关联 预取 缓存
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
6
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop MAPREDUCE hadoop分布式文件系统 Sqoop
下载PDF
Hadoop数据存储分析技术在风电并网系统中的应用 被引量:13
7
作者 韩平平 张祥民 +1 位作者 丁明 张晓安 《电力系统及其自动化学报》 CSCD 北大核心 2018年第1期43-50,共8页
随着风电规模的不断扩大,现有数据处理方案将难以适应风电并网环境对海量数据高效存储分析的要求。本文将分布式系统基础架构Hadoop应用于风电数据的存储和分析,给出了基于分布式文件系统HDFS的风电数据存储方案。将均方根RMS转化算法... 随着风电规模的不断扩大,现有数据处理方案将难以适应风电并网环境对海量数据高效存储分析的要求。本文将分布式系统基础架构Hadoop应用于风电数据的存储和分析,给出了基于分布式文件系统HDFS的风电数据存储方案。将均方根RMS转化算法基于并行计算框架MapReduce实现,对存储于HDFS的低电压穿越LVRT测试数据进行分析计算。通过存储耗时对比实验,验证了HDFS在存储LVRT数据方面的高效性。通过RMS算法计算耗时对比实验,验证了MapReduce算法在分析计算LVRT数据方面的优越性。算例结果表明,将Hadoop数据存储分析技术应用于风电并网系统是可行的。 展开更多
关键词 hadoop 分布式文件系统 MAPREDUCE 低电压穿越 存储耗时 计算耗时
下载PDF
Hadoop分布式文件系统的模型分析 被引量:22
8
作者 王峰 雷葆华 《电信科学》 北大核心 2010年第12期95-99,共5页
Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析... Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的重要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现,并为云计算背景下的分布式文件系统设计提供重要的参考。 展开更多
关键词 hadoop分布式文件系统 系统模型 云计算
下载PDF
基于Hadoop架构的分布式计算和存储技术及其应用 被引量:27
9
作者 田秀霞 周耀君 +1 位作者 毕忠勤 彭源 《上海电力学院学报》 CAS 2011年第1期70-74,共5页
介绍了Hadoop架构的主要构成,通过一个实例详细阐述了Hadoop架构的MapReduce实现机制;开发了一个基于Hadoop架构职工工资统计应用实例,并根据该实例分析了其在单节点模式、伪分布模式和完全分布模式应用中的运行效率.
关键词 hadoop架构 MapReduce机制 分布式文件系统
下载PDF
分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析 被引量:19
10
作者 许春玲 张广泉 《苏州大学学报(工科版)》 CAS 2010年第4期5-9,19,共6页
对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对N... 对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对NameNode的依赖,随着集群的扩大,NameNode的性能成为系统瓶颈,并提出了解决方向。 展开更多
关键词 hadoop HDFS HDFS BOTTLENECK 分布式文件系统
下载PDF
基于Hadoop的海运业分布式搜索引擎的应用研究 被引量:3
11
作者 陈宁 柴向阳 孙勇 《西安工程大学学报》 CAS 2015年第1期73-77,共5页
针对海运业务系统越来越复杂,区域间数据交换日益频繁,致使海运企业无法高效、稳定地使用传统体系处理业务信息的问题,采用Map/Reduce分布式计算模型以及分布式文件系统,设计了一个基于Hadoop的分布式搜索引擎.该搜索引擎能够使海运企... 针对海运业务系统越来越复杂,区域间数据交换日益频繁,致使海运企业无法高效、稳定地使用传统体系处理业务信息的问题,采用Map/Reduce分布式计算模型以及分布式文件系统,设计了一个基于Hadoop的分布式搜索引擎.该搜索引擎能够使海运企业在合理时间内获取、管理、处理业务信息.通过该分布式搜索引擎,可以高效、稳定地满足海运企业日益繁重的庞大的业务需求. 展开更多
关键词 海运业 hadoop MAP/REDUCE 分布式文件系统 搜索引擎
下载PDF
基于Hadoop的地震属性数据存储结构 被引量:2
12
作者 朱丽萍 王显灿 +2 位作者 李洪奇 王建东 王小朋 《信息技术》 2017年第6期170-173,共4页
地震属性分析在储层评价、地层岩性解释等方面有着重要的作用。单机环境地震属性分析计算比较耗时,使用Hadoop分布式并行计算框架,可以缩短计算时间。单一地震属性以SEGY格式独立保存,多种地震属性上传至HDFS时被分发至不同节点,而计算... 地震属性分析在储层评价、地层岩性解释等方面有着重要的作用。单机环境地震属性分析计算比较耗时,使用Hadoop分布式并行计算框架,可以缩短计算时间。单一地震属性以SEGY格式独立保存,多种地震属性上传至HDFS时被分发至不同节点,而计算时通常使用多种地震属性共同参与计算,增加了节点之间的数据传递的开销。通过改变地震属性数据组织形式,抽取同一坐标地震属性进行组合,并把坐标位置相邻的地震属性组合到一个文件中,减少集群节点间不必要的数据传递。实验表明相比于传统方法,使用MapReduce完成地震属性分析相关计算用时明显减少,并且计算用时随着集群中节点数目的增加而减少。 展开更多
关键词 hadoop 分布式文件系统 地震属性 文件格式
下载PDF
基于Hadoop架构的国产化分布式集群平台 被引量:5
13
作者 刘皊皊 张永伟 《指挥信息系统与技术》 2017年第4期33-37,共5页
面对军事信息系统在大数据时代的海量数据分析及数据安全需求,传统的集中式处理平台已无法满足数据增长对存储和计算能力的要求,分布式处理平台应运而生。鉴于国产化软硬件在军事信息系统中的重要地位,大数据与国产化平台相结合成为军... 面对军事信息系统在大数据时代的海量数据分析及数据安全需求,传统的集中式处理平台已无法满足数据增长对存储和计算能力的要求,分布式处理平台应运而生。鉴于国产化软硬件在军事信息系统中的重要地位,大数据与国产化平台相结合成为军事信息系统发展的必然趋势。介绍了Hadoop架构的主要组成,分析了分布式计算框架和Hadoop分布式文件系统(HDFS)的实现机制,梳理了国产化软硬件发展状况,探讨了国产化分布式集群平台迁移技术,以期对大数据和国产化软硬件结合应用提供借鉴。 展开更多
关键词 hadoop分布式文件系统 分布式计算框架 国产软硬件
下载PDF
基于Hadoop的云计算模型 被引量:27
14
作者 林清滢 《现代计算机》 2010年第7期114-116,121,共4页
Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现... Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤。 展开更多
关键词 云计算 hadoop HDFS MAP/REDUCE
下载PDF
基于Hadoop分布式文件系统的单点问题的研究 被引量:2
15
作者 宋继红 李梦楠 郝得智 《软件工程师》 2014年第12期9-10,6,共3页
从Hadoop分布式文件系统的架构出发,对Name Node节点存在的单点问题进行了分析与研究。在这个前提下,针对单点内存瓶颈问题,提出了一个小文件归并算法。此算法以Hadoop为基础,利用Hadoop分布式文件系统的特点,将归并后生成的大文件序列... 从Hadoop分布式文件系统的架构出发,对Name Node节点存在的单点问题进行了分析与研究。在这个前提下,针对单点内存瓶颈问题,提出了一个小文件归并算法。此算法以Hadoop为基础,利用Hadoop分布式文件系统的特点,将归并后生成的大文件序列化到Hadoop分布式文件系统,很好地解决了小文件过多时Name Node单点内存瓶颈问题,并提高了系统的性能和可靠性。 展开更多
关键词 hadoop 小文件归并 分布式文件系统
下载PDF
基于Hadoop分布式文件系统的模型分析 被引量:1
16
作者 郭强 《电脑知识与技术(过刊)》 2016年第6X期229-230,233,共3页
Hadoop分布式文件系统利用Google文件系统的原理开发和设计的,并在相关的一些领域得到了应用,在学界引起了极大的关注。本文将从Hadoop分布式文件系统架构的入手,通过对模型各模块进行分析,并将其与传统的分布式文件系统进行比较,总结出... Hadoop分布式文件系统利用Google文件系统的原理开发和设计的,并在相关的一些领域得到了应用,在学界引起了极大的关注。本文将从Hadoop分布式文件系统架构的入手,通过对模型各模块进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、可靠性高、可扩展性、容错性能好、低成本等面向云计算领域的重要优势。Hadoop能为用户提供一个可以轻松使用的分布式计算平台,使用户可以轻松地在该平台上开发应用程序并能够处理海量数据,本文通过对布式文件系统的模型分析将有助于云计算背景下的分布式文件系统设计与开发。 展开更多
关键词 基于hadoop分布式文件系统 系统模型 云计算
下载PDF
基于Hadoop平台的分布式重删存储系统 被引量:16
17
作者 刘青 付印金 +1 位作者 倪桂强 梅建民 《计算机应用》 CSCD 北大核心 2016年第2期330-335,共6页
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop... 针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。 展开更多
关键词 重复数据删除 分布式存储 hadoop HBASE hadoop分布式文件系统
下载PDF
单机下Hadoop小文件处理性能分析 被引量:9
18
作者 袁玉 崔超远 +1 位作者 乌云 陈祝红 《计算机工程与应用》 CSCD 2013年第3期57-60,共4页
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Had... Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。 展开更多
关键词 hadoop hadoop的分布式文件系统(HDFS) MAPREDUCE 小文件处理 文件输入格式
下载PDF
Hadoop平台下的并行Web日志挖掘算法 被引量:6
19
作者 周诗慧 殷建 《计算机工程》 CAS CSCD 2013年第6期43-46,共4页
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算... 当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。 展开更多
关键词 hadoop框架 WEB挖掘 WEB日志 MapReduce编程模式 hadoop分布式文件系统 并行FP-growth算法
下载PDF
Hadoop中处理小文件的四种方法的性能分析 被引量:8
20
作者 李三淼 李龙澍 《计算机工程与应用》 CSCD 北大核心 2016年第9期44-49,共6页
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input ... Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input Format输入格式、Sequence File技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。 展开更多
关键词 hadoop 小文件处理 hadoop的分布式文件系统(HDFS) MAPREDUCE 大数据
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部