期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
Study of Smart Grid Marketing System Architecture Based on Hadoop Platform of Cloud Computing
1
作者 Yu Song Maomao Wu Li Yang 《通讯和计算机(中英文版)》 2012年第7期741-743,共3页
关键词 营销系统 架构 平台 电网 智能 计算 电力营销 共享存储
下载PDF
Hadoop和Spark在实验室中部署与性能评估 被引量:14
2
作者 薛志云 何军 +1 位作者 张丹阳 曹维焯 《实验室研究与探索》 CAS 北大核心 2015年第11期77-81,共5页
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了... 随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 展开更多
关键词 大数据 分布式计算 hadoop YARN spark
下载PDF
基于Hadoop与Spark的大数据处理平台的构建研究 被引量:9
3
作者 刘萍 《通化师范学院学报》 2018年第6期83-88,共6页
随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spar... 随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spark框架与MapReduce类似,也是一个分布式计算平台.而相比于MapReduce,Spark的速度更快且提供的功能更丰富.Spark只是一个计算平台,本身并没有提供分布式存储和管理,Spark的计算依赖于Hadoop生态系统中的分布式文件系统HDFS,以及集群资源管理器Hadoop Yarn.因此将Spark与Hadoop相结合来构建大数据处理平台,可提高算法运行效率和处理规模.本研究搭建了Hadoop集群和Spark集群,完成了大数据处理平台的构建.最后在搭建好的集群上运行了实现单词词频统计的Word Count程序,验证了大数据处理平台搭建的成功. 展开更多
关键词 spark 大数据处理平台 hadoop
下载PDF
基于Hadoop平台的Spark框架研究 被引量:14
4
作者 陈虹君 《电脑知识与技术(过刊)》 2014年第12X期8407-8408,共2页
Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨... Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。 展开更多
关键词 大数据 hadoop spark 机器学习 图计算 实时处理
下载PDF
基于Hadoop与Spark的高校校园大数据平台研究 被引量:9
5
作者 刘萍 《软件工程》 2018年第5期15-18,共4页
对校园大数据分析是校园信息化发展的新思路。Hadoop是Apache基金会开发的分布式系统基础架构,它是集分布式计算、存储和管理为一体的生态系统。目前流行的Spark框架是与Hadoop生态系统中的MapReduce类似的一个分布式计算平台,Spark比Ma... 对校园大数据分析是校园信息化发展的新思路。Hadoop是Apache基金会开发的分布式系统基础架构,它是集分布式计算、存储和管理为一体的生态系统。目前流行的Spark框架是与Hadoop生态系统中的MapReduce类似的一个分布式计算平台,Spark比MapReduce的速度更快且提供的功能更丰富。本文以数据采集、数据存储、数据分析、数据展现为主线,结合大数据领域最流行的Hadoop框架与Spark框架提出了高校校园大数据平台架构,详细阐述了架构各层次的具体功能,并对架构中关系数据库数据的采集存储进行了详细介绍,最后设计校园大数据分析原型系统来验证架构的可行性。 展开更多
关键词 大数据 hadoop spark 校园大数据平台
下载PDF
基于Hadoop平台的Spark快数据推荐算法解析——以其在图书推荐系统中的应用为例 被引量:3
6
作者 吴荣 段宏涛 《数字技术与应用》 2020年第6期115-117,共3页
在大数据挖掘方面,基于Hadoop平台的Spark快数据推荐算法具有一定优势.基于这种认识,本文从平台算法组成和算法实现两个角度对该算法进行了解析,并对算法在图书推荐系统中的应用方法展开了探讨.从系统功能仿真分析结果来看,应用Spark快... 在大数据挖掘方面,基于Hadoop平台的Spark快数据推荐算法具有一定优势.基于这种认识,本文从平台算法组成和算法实现两个角度对该算法进行了解析,并对算法在图书推荐系统中的应用方法展开了探讨.从系统功能仿真分析结果来看,应用Spark快数据推荐算法进行图书推荐,能够使图书推荐系统推荐准确度得到提高,并且大幅度缩短图书推荐时间. 展开更多
关键词 hadoop平台 spark快数据推荐算法 图书推荐系统
下载PDF
基于Hadoop的分布式日志分析系统设计与实现
7
作者 周德 杨成慧 罗佃斌 《现代信息科技》 2023年第23期57-60,共4页
网络日志解析是确保监控系统稳定运行和检测故障的重要任务之一。然而,日志文件的数据量庞大,数据格式也相对复杂,难以手动处理。在此背景下,对基于Hadoop分布式计算框架的网络日志分析系统的设计和实现进行了研究,通过将数据分解成块,... 网络日志解析是确保监控系统稳定运行和检测故障的重要任务之一。然而,日志文件的数据量庞大,数据格式也相对复杂,难以手动处理。在此背景下,对基于Hadoop分布式计算框架的网络日志分析系统的设计和实现进行了研究,通过将数据分解成块,并通过多台计算机并行处理数据块来提高数据处理速度和效率。系统使用了Hadoop的MapReduce编程模型来实现网络日志数据的解析和处理。实验结果表明,相比传统方法,该系统具有更高的数据处理速度和可伸缩性,证明其有效性和实用性。 展开更多
关键词 网络日志 hadoop平台 分布式计算 MAPREDUCE 日志分析
下载PDF
云计算中Hadoop技术研究与应用综述 被引量:74
8
作者 夏靖波 韦泽鲲 +1 位作者 付凯 陈珍 《计算机科学》 CSCD 北大核心 2016年第11期6-11,48,共7页
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学... Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 展开更多
关键词 云计算 大数据 hadoop spark MAPREDUCE
下载PDF
基于Hadoop的海量电信数据云计算平台研究 被引量:29
9
作者 黎宏剑 刘恒 +1 位作者 黄广文 卜立 《电信科学》 北大核心 2012年第8期80-85,共6页
传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对... 传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法 ,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率。 展开更多
关键词 云计算平台 hadoop MAPREDUCE 海量数据 电信运营商
下载PDF
基于Hadoop的监控数据存储与处理方案设计和实现 被引量:11
10
作者 池亚平 杨垠坦 +1 位作者 许萍 杨建喜 《计算机应用与软件》 北大核心 2018年第6期58-63,157,共7页
云计算环境下的监控系统会实时产生大量监控数据,如何在大数据的环境下实现对监控数据的高效存储和处理尤为重要。针对这一问题提出一种基于Hadoop的监控数据存储与处理的方案。该方案采用HBase数据库存储时序监控数据,并用提升字段法... 云计算环境下的监控系统会实时产生大量监控数据,如何在大数据的环境下实现对监控数据的高效存储和处理尤为重要。针对这一问题提出一种基于Hadoop的监控数据存储与处理的方案。该方案采用HBase数据库存储时序监控数据,并用提升字段法的宽表存储模型改进HBase数据库提升监控数据的存储效率;针对流量数据,采用MapReduce进行分布式计算处理提高处理效率。经过实验测试,验证了该方案的科学性和有效性,提高了海量监控数据下监控系统数据处理速度,解决了云计算环境下监控数据的计算瓶颈问题。 展开更多
关键词 hadoop HBASE 监控数据 分布式计算 云平台
下载PDF
基于内存与文件共享机制的Spark I/O性能优化 被引量:7
11
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机工程》 CAS CSCD 北大核心 2017年第3期1-6,共6页
通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。... 通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O时间缩短42.9%,可有效提高内存利用率和Spark平台运算效率。 展开更多
关键词 分布式计算 spark平台 Shuffle过程 磁盘I/O 任务调度
下载PDF
Hadoop云平台中基于信任的访问控制模型 被引量:17
12
作者 刘莎 谭良 《计算机科学》 CSCD 北大核心 2014年第5期155-163,共9页
Hadoop云计算平台是当下最流行的云平台之一,其现有的访问控制模型采用Kerberos进行身份验证,结合基于ACL的访问授权机制,通过Delegation Token和Block Access Token等令牌,实现了该平台中简单的访问控制。该模型具有明显的缺点,即仅仅... Hadoop云计算平台是当下最流行的云平台之一,其现有的访问控制模型采用Kerberos进行身份验证,结合基于ACL的访问授权机制,通过Delegation Token和Block Access Token等令牌,实现了该平台中简单的访问控制。该模型具有明显的缺点,即仅仅在授权时考虑了用户身份的真实性,没有考虑用户后期行为的可信性,而且权限一经授予就不再监管。提出一种适用于Hadoop云平台的基于信任的访问控制新模型——LT。LT模型基于现有的Hadoop访问控制模型,为每个用户设定信任值,通过用户在集群中的行为记录实时地更新用户信任值,并根据这个信任值动态地控制用户对平台的访问。与Hadoop平台现有的访问控制模型相比,该模型所实现的访问授权不再是一个关口控制,而是一个实时动态的过程,其粒度更细并且具有更高的安全性和灵活度。实验证明,该模型不仅正确有效,而且克服了现行Hadoop平台中访问控制安全性不足的缺点,能够动态、有效地控制用户对集群中资源的访问及使用。 展开更多
关键词 云计算 云平台 hadoop 访问控制 信任值
下载PDF
Spark下遥感大数据特征提取的加速策略 被引量:7
13
作者 黄震 钱育蓉 +1 位作者 范迎迎 杜娇 《计算机工程与设计》 北大核心 2017年第12期3279-3283,共5页
提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Sp... 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基于Spark下的HDFS存储模式下,栅格切分遥感大数据较非栅格切分处理速度提高了约1.5倍。 展开更多
关键词 spark分布式内存计算框架 hadoop分布式文件系统 遥感大数据 内存计算 栅格切分
下载PDF
基于Spark的并行遗传算法求解多峰函数极值 被引量:3
14
作者 刘鹏 叶帅 +1 位作者 孟磊 王灿 《计算机工程与科学》 CSCD 北大核心 2018年第2期210-217,共8页
遗传算法求解多峰函数极值需进行反复多次的迭代运算,面对大数据样本时会出现运算效率过低的现象,这极大地限制了遗传算法的实际应用。经典Hadoop并行平台可在一定程度上提高遗传算法的运行效率,而新一代Spark并行平台可以更加充分地发... 遗传算法求解多峰函数极值需进行反复多次的迭代运算,面对大数据样本时会出现运算效率过低的现象,这极大地限制了遗传算法的实际应用。经典Hadoop并行平台可在一定程度上提高遗传算法的运行效率,而新一代Spark并行平台可以更加充分地发挥遗传算法的并行潜能。设计并实现了基于Spark的并行遗传算法,在各个子节点上并行执行子种群个体的交叉、变异等操作,达到了高度并行化进化种群以高效求取多峰函数极值的目的。为方便比较,同时设计并实现了单机及Hadoop平台下的相应算法。实验结果表明,处理大数据样本时,相比传统单机和Hadoop平台,基于Spark的并行化遗传算法显著降低了求解多峰函数极值的耗时,大幅提高了算法的效率;同时,由于其并行计算带来的强大随机性,也有效避免了种群单一过早收敛的问题,提高了算法的准确性。 展开更多
关键词 遗传算法 多峰函数 极值 并行计算 spark hadoop
下载PDF
云计算Hadoop平台的异常数据检测算法研究 被引量:3
15
作者 黄富平 梁卓浪 +1 位作者 邢英俊 杨春丽 《计算机测量与控制》 2017年第7期260-263,268,共5页
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效... 近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。 展开更多
关键词 云计算 大数据 异常数据 hadoop平台
下载PDF
基于hadoop的时隙优化任务调度策略研究 被引量:2
16
作者 邓志龙 付明月 张琦玮 《西北工业大学学报》 EI CAS CSCD 北大核心 2017年第1期32-37,共6页
针对分布式云计算平台hadoop任务调度中由于网络时延而导致的调度不平衡问题,提出一种基于时隙优化的任务调度算法。充分参考当前网络条件,将其作为任务调度的重要参考依据,利用SDN对网络带宽的管理能力,根据时隙策略分配带宽,结合局部... 针对分布式云计算平台hadoop任务调度中由于网络时延而导致的调度不平衡问题,提出一种基于时隙优化的任务调度算法。充分参考当前网络条件,将其作为任务调度的重要参考依据,利用SDN对网络带宽的管理能力,根据时隙策略分配带宽,结合局部性原理决定将任务分派到本地还是低负载的其他节点,从全局角度保证任务本地化比例较高的前提下以最优的方式高效分派任务,以提高系统整体的任务处理能力。依据算法设计调度器设计并进行实验,实验结果验证了算法的调度质量。 展开更多
关键词 云计算 hadoop平台 SDN架构 任务调度 时隙策略 负载均衡
下载PDF
基于云计算的Web数据挖掘Hadoop仿真平台研究 被引量:11
17
作者 王勃 徐静 《电子设计工程》 2018年第2期22-25,共4页
自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分... 自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分散,数据流量大等网络关键难题,最终实现仿真运算,从而提高网络平台的性能,最终达到云计算环境下的高速分布式计算的目标。 展开更多
关键词 云计算 WEB数据挖掘 hadoop仿真平台
下载PDF
利用Hadoop云计算平台进行海量数据聚类分析 被引量:3
18
作者 刘海龙 宿宏毅 《舰船科学技术》 北大核心 2016年第14期148-150,共3页
海洋信息的飞速增长使其数据量越来越多,对数据进行合理的分类,能够有效的挖掘数据与数据之间的关系。本文首先描述传统的K-Mean聚类算法,并指出其影响因素,在此基础上进行改进,提出BRTI-KMeans算法,并将此算法与传统的K-Means算法和Can... 海洋信息的飞速增长使其数据量越来越多,对数据进行合理的分类,能够有效的挖掘数据与数据之间的关系。本文首先描述传统的K-Mean聚类算法,并指出其影响因素,在此基础上进行改进,提出BRTI-KMeans算法,并将此算法与传统的K-Means算法和Canopy-K-Means算法进行比较,以此说明本文算法在进行海量数据聚类分析方面具有优越性。 展开更多
关键词 hadoop云计算平台 聚类分析 聚类中心
下载PDF
一种基于Hadoop云计算平台大数据聚类算法设计 被引量:6
19
作者 司福明 卜天然 《楚雄师范学院学报》 2016年第3期49-55,共7页
传统的数据挖掘技术由于受到编程模型等的约束,产生了不同瓶颈,聚类算法的研究面临着海量的大数据处理与分析的挑战,新兴计算模型Hadoop作为一种可并行处理的云计算平台得到了广泛应用。文章对传统聚类挖掘算法进行改进和优化,在Hadoop... 传统的数据挖掘技术由于受到编程模型等的约束,产生了不同瓶颈,聚类算法的研究面临着海量的大数据处理与分析的挑战,新兴计算模型Hadoop作为一种可并行处理的云计算平台得到了广泛应用。文章对传统聚类挖掘算法进行改进和优化,在Hadoop云计算平台上进行K-means算法的并行化实现,降低算法的时间复杂度,提高了计算效率。实践证明,改进的K-means算法适合大规模数据集的聚类挖掘,具有高效、准确、稳定、安全等特性,适合于海量数据的分析和处理。 展开更多
关键词 hadoop 云计算平台 大数据 聚类挖掘算法 并行化
下载PDF
基于Hadoop的云教学资源平台 被引量:2
20
作者 刘丹 梁丽 +2 位作者 曾燕 张泽天 李莉 《长春理工大学学报(自然科学版)》 2017年第6期123-126,130,共5页
针对近年来高校教学资源呈现海量、复杂、异构等特点,通过融合HBase和My SQL两类数据库,设计并实现了基于Hadoop的云教学资源平台,并运用Map Reduce计算模型对海量日志进行分析。云教学资源平台能够提高资源查询、存储的速度及准确性,... 针对近年来高校教学资源呈现海量、复杂、异构等特点,通过融合HBase和My SQL两类数据库,设计并实现了基于Hadoop的云教学资源平台,并运用Map Reduce计算模型对海量日志进行分析。云教学资源平台能够提高资源查询、存储的速度及准确性,提升资源管理者的工作效率,与传统教学资源管理平台相比,其具有更高的可靠性和稳定性。 展开更多
关键词 云计算 教学资源平台 hadoop 海量
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部