期刊文献+
共找到9,085篇文章
< 1 2 250 >
每页显示 20 50 100
Hadoop和Spark在实验室中部署与性能评估 被引量:14
1
作者 薛志云 何军 +1 位作者 张丹阳 曹维焯 《实验室研究与探索》 CAS 北大核心 2015年第11期77-81,共5页
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了... 随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 展开更多
关键词 大数据 分布式计算 hadoop YARN spark
下载PDF
基于Hadoop平台的Spark快数据推荐算法分析与应用 被引量:12
2
作者 陈虹君 吴雪琴 《现代电子技术》 北大核心 2016年第10期18-20,共3页
Hadoop大数据平台上可以搭建Yarn,Mahout,Storm,Graph Lab等框架,其提供了大数据的各种处理能力。但它们各自按自己的机制工作,整合度极低。虽然在Mahout框架中,对机器学习的算法支持较为完善,但是数据必需是离线的。在大数据时代,要求... Hadoop大数据平台上可以搭建Yarn,Mahout,Storm,Graph Lab等框架,其提供了大数据的各种处理能力。但它们各自按自己的机制工作,整合度极低。虽然在Mahout框架中,对机器学习的算法支持较为完善,但是数据必需是离线的。在大数据时代,要求不仅具有处理能力,还强调了数据的时效性,以前的框架都显得有点力不从心。Spark是Hadoop平台上的新型利器,它的各个部分几乎能替代以前的分散的框架,且采用统一的处理机制,整合度很好,速度比传统处理方式快几十倍甚至几百倍。基于Hadoop平台的Spark快数据推荐算法分析与应用是在Hadoop平台上用Yarn作资源管理,Spark作快数据的处理,这极大地提高了大数据的处理效率。该文以专业推荐系统为应用基础,采用Yarn作资源管理,及Spark ALS算法做推荐,Spark Page Rank算法做专业排名,实验结果表明,Spark框架对大数据的处理机制能够满足日益增值的大数据应用对速度的要求。 展开更多
关键词 hadoop spark 快数据 ALS算法 PAGERANK算法
下载PDF
Hadoop与Spark应用场景研究 被引量:33
3
作者 冯兴杰 王文超 《计算机应用研究》 CSCD 北大核心 2018年第9期2561-2566,共6页
Spark的崛起对作为当前最为流行的大数据问题解决方案的Hadoop及其生态系统形成了有力的冲击,甚至一度有人认为Spark有取代Hadoop的趋势,但是因为Hadoop与Spark有着各自不同的特点,使得两者拥有不同的应用场景,从而Spark无法完全取代Had... Spark的崛起对作为当前最为流行的大数据问题解决方案的Hadoop及其生态系统形成了有力的冲击,甚至一度有人认为Spark有取代Hadoop的趋势,但是因为Hadoop与Spark有着各自不同的特点,使得两者拥有不同的应用场景,从而Spark无法完全取代Hadoop。针对以上问题,对Hadoop与Spark的应用场景进行了分析。首先介绍了Hadoop与Spark的相关技术以及各自的生态系统,详细分析了两者的特性;最后针对两者特性,阐述了Hadoop与Spark各自所适应的应用场景。 展开更多
关键词 hadoop spark 大数据 生态系统 应用场景
下载PDF
基于Hadoop与Spark的大数据处理平台的构建研究 被引量:10
4
作者 刘萍 《通化师范学院学报》 2018年第6期83-88,共6页
随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spar... 随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spark框架与MapReduce类似,也是一个分布式计算平台.而相比于MapReduce,Spark的速度更快且提供的功能更丰富.Spark只是一个计算平台,本身并没有提供分布式存储和管理,Spark的计算依赖于Hadoop生态系统中的分布式文件系统HDFS,以及集群资源管理器Hadoop Yarn.因此将Spark与Hadoop相结合来构建大数据处理平台,可提高算法运行效率和处理规模.本研究搭建了Hadoop集群和Spark集群,完成了大数据处理平台的构建.最后在搭建好的集群上运行了实现单词词频统计的Word Count程序,验证了大数据处理平台搭建的成功. 展开更多
关键词 spark 大数据处理平台 hadoop
下载PDF
基于Hadoop平台的Spark框架研究 被引量:14
5
作者 陈虹君 《电脑知识与技术(过刊)》 2014年第12X期8407-8408,共2页
Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨... Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。 展开更多
关键词 大数据 hadoop spark 机器学习 图计算 实时处理
下载PDF
基于Hadoop与Spark的高校校园大数据平台研究 被引量:9
6
作者 刘萍 《软件工程》 2018年第5期15-18,共4页
对校园大数据分析是校园信息化发展的新思路。Hadoop是Apache基金会开发的分布式系统基础架构,它是集分布式计算、存储和管理为一体的生态系统。目前流行的Spark框架是与Hadoop生态系统中的MapReduce类似的一个分布式计算平台,Spark比Ma... 对校园大数据分析是校园信息化发展的新思路。Hadoop是Apache基金会开发的分布式系统基础架构,它是集分布式计算、存储和管理为一体的生态系统。目前流行的Spark框架是与Hadoop生态系统中的MapReduce类似的一个分布式计算平台,Spark比MapReduce的速度更快且提供的功能更丰富。本文以数据采集、数据存储、数据分析、数据展现为主线,结合大数据领域最流行的Hadoop框架与Spark框架提出了高校校园大数据平台架构,详细阐述了架构各层次的具体功能,并对架构中关系数据库数据的采集存储进行了详细介绍,最后设计校园大数据分析原型系统来验证架构的可行性。 展开更多
关键词 大数据 hadoop spark 校园大数据平台
下载PDF
模块化教学模式探析--以“Hadoop大数据处理”课程模块化教学设计为例 被引量:4
7
作者 李美 《牡丹江大学学报》 2024年第3期82-86,108,共6页
课程模块化教学是对课程内容的重组以及整合,利用教学平台,引入企业项目案例资源,把传统的教学模式转变为以学生为主体、教师为主导的模式。本文以高等职业院校“Hadoop大数据处理”课程为例,采用模块化教学模式以适应大数据专业的工作... 课程模块化教学是对课程内容的重组以及整合,利用教学平台,引入企业项目案例资源,把传统的教学模式转变为以学生为主体、教师为主导的模式。本文以高等职业院校“Hadoop大数据处理”课程为例,采用模块化教学模式以适应大数据专业的工作岗位,介绍了模块化教学模式的概念、国内外研究现状,进行了“Hadoop大数据处理”课程模块化设计,分别是教学主体转换、内容模块化设计、教师分工协作模块化设计、应用信息化教学平台。以“Hadoop大数据处理”课程中大数据计算分析模块中“微博精准广告营销”为例说明课程模块化教学设计的具体实施步骤和最终的教学效果。 展开更多
关键词 hadoop大数据处理” 课程模块化 模块化教学设计 模块化教学实施
下载PDF
基于Hadoop和Spark的雷达数据序列模式挖掘系统 被引量:5
8
作者 罗祖兵 杨晓敏 严斌宇 《计算机应用》 CSCD 北大核心 2019年第S02期169-174,共6页
针对传统单机模式下的数据挖掘系统难以处理大规模的雷达数据的问题,提出了一种基于分布式计算框架Hadoop和Spark的雷达数据序列模式挖掘系统。首先,对模拟的原始雷达数据进行一系列的预处理,包括基于密度的去噪、基于脉冲幅值一阶差分... 针对传统单机模式下的数据挖掘系统难以处理大规模的雷达数据的问题,提出了一种基于分布式计算框架Hadoop和Spark的雷达数据序列模式挖掘系统。首先,对模拟的原始雷达数据进行一系列的预处理,包括基于密度的去噪、基于脉冲幅值一阶差分的符号化和数据分割,获取适合于后续挖掘的干净的数据;其次,将预处理后的雷达数据存入Hadoop分布式文件系统(HDFS),利用基于Spark的前缀投影序列模式挖掘算法(PrefixSpan)挖掘雷达数据中的频繁序列;最后,对挖掘的结果进行一定的后处理,先利用挖掘结果中的规律,对结果序列集的进行初步过滤,然后对剩余的结果集进行遍历过滤,获取最终的结果序列集。实验结果表明,随着数据集的不断增大,传统的单机模式下挖掘系统的处理时间增长迅速,很快便无法处理,而提出的雷达数据挖掘系统的处理时间增长比较缓慢,适合于处理海量的数据。 展开更多
关键词 雷达数据 hadoop spark 数据挖掘
下载PDF
基于Spark分布式框架的海量星表数据时序重构方法研究
9
作者 赵青 权文利 +2 位作者 陈亚瑞 崔辰州 樊东卫 《天文学进展》 CSCD 北大核心 2024年第1期86-101,共16页
时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流... 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join策略从理论和实验两个角度进行了研究并提出了免Join策略。最后通过基于Spark分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。 展开更多
关键词 时域天文学 交叉证认计算 时序重构 分布式计算 spark
下载PDF
Spark平台下基于互信息计算的高光谱图像波段选择方法
10
作者 李俊丽 马俊宏 《光学技术》 CAS CSCD 北大核心 2024年第2期174-181,共8页
随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于... 随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于互信息计算的波段选择算法。利用熵和互信息理论定义波段相关性和多重相关性;基于Spark RDD编程模型设计数据列变换,将数据集划分为列矩阵,以降低计算负载;在Spark平台下对算法并行化,提高算法执行效率。实验结果表明,提出的算法达到了94.5%±0.5的整体分类精度,且加速性能良好,改善了数据可扩展性。 展开更多
关键词 高光谱图像 波段选择 互信息计算 spark平台 并行计算
下载PDF
基于Spark Streaming的海量GPS数据实时地图匹配算法
11
作者 陈艳艳 李四洋 张云超 《计算机应用研究》 CSCD 北大核心 2024年第5期1338-1342,共5页
浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高... 浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高匹配精度和运算效率。为构建一种面向实时数据流的高效、准确实时地图匹配算法,首先通过引入速度、方向综合权重因子对依赖历史轨迹的离线地图匹配算法进行重构,进而引入Spark Streaming分布式计算框架,实现地图匹配算法的实时、并行运算,大幅提升实时地图匹配效率。实验结果表明,该算法在复杂路段的匹配准确率较常规拓扑匹配算法提高10%以上,整体匹配准确率达到95%以上;在匹配效率方面,较同等数量的单机服务器效率可提高4倍左右。实验结果表明,该算法在由11台机器组成的计算集群上实现8000万个GPS数据点的实时地图匹配,证明了该算法可以完成城市地区的实时车辆匹配。 展开更多
关键词 海量 GPS 并行计算 地图匹配 实时计算 spark
下载PDF
Spark异构集群负载均衡调度策略
12
作者 陶宇炜 谢爱娟 《常州大学学报(自然科学版)》 CAS 2024年第5期61-70,共10页
针对Spark可扩展分布式平台在作业任务调度时,没有考虑异构集群节点计算能力的差异和负载均衡问题,导致系统性能受到影响,文章构建了一种Spark环境下异构集群节点负载均衡调度策略。计算节点根据抽样算法,预测数据分布特征,将数据均衡... 针对Spark可扩展分布式平台在作业任务调度时,没有考虑异构集群节点计算能力的差异和负载均衡问题,导致系统性能受到影响,文章构建了一种Spark环境下异构集群节点负载均衡调度策略。计算节点根据抽样算法,预测数据分布特征,将数据均衡划分为多个分区,根据异构集群节点静态负载和动态负载权重分配,获得异构集群节点实时负载,动态调度作业任务。最后,在异构集群上,通过Wordcount,TeraSort,K-means三种基准测试比较分析。实验结果表明,该算法运行时间明显减少,异构集群的性能得到提升。 展开更多
关键词 异构性 作业调度 负载均衡 spark
下载PDF
基于Spark和NRSCA策略的并行深度森林算法
13
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
Spark内存计算课程教学改革探索
14
作者 梁晶 胡新荣 《计算机教育》 2024年第9期180-184,共5页
分析Spark?内存计算课程的特点以及教学中存在的不足,从协同课程间的知识点衔接、内存计算数据模型分析和数据模型间逻辑关系梳理3个方面,提出Spark理论教学改进思路和具体方法,总结Spark课程实践教学的目标和具体内容,阐述在实践教学... 分析Spark?内存计算课程的特点以及教学中存在的不足,从协同课程间的知识点衔接、内存计算数据模型分析和数据模型间逻辑关系梳理3个方面,提出Spark理论教学改进思路和具体方法,总结Spark课程实践教学的目标和具体内容,阐述在实践教学中将基础能力训练和综合能力培养相结合的教学方法,为其他大数据相关课程的教学提供参考。 展开更多
关键词 大数据 spark 内存计算 实践教学 教学改革
下载PDF
基于Spark集群的火电机组经济性挖掘
15
作者 文孝强 武智斌 +4 位作者 李志伟 刘长良 归一数 蔚伟 丁宇鸣 《吉林电力》 2024年第3期32-35,51,共5页
以电厂经济性为挖掘目标,把供电煤耗率作为机组的评价指标,通过最大信息系数法对影响机组煤耗率的运行参数进行特征选择。对基于Spark的并行Mini Batch K-means算法对外部约束条件进行工况划分以及数据离散化,采用并行FP-growth算法挖... 以电厂经济性为挖掘目标,把供电煤耗率作为机组的评价指标,通过最大信息系数法对影响机组煤耗率的运行参数进行特征选择。对基于Spark的并行Mini Batch K-means算法对外部约束条件进行工况划分以及数据离散化,采用并行FP-growth算法挖掘出机组全工况的强关联规则,进而得到机组重要参数的运行优化指导方案。以某电厂机组为例,结果表明,该方法能够提高数据挖掘效率并完成电厂参数最优值的确定,根据挖掘结果可以更好地对机组人员进行指导。 展开更多
关键词 火电大数据 spark 关联规则 数据挖掘
下载PDF
基于Hadoop的高校教学质量评测系统构建与评估方法
16
作者 董明 牟云环 《微型电脑应用》 2024年第2期26-28,37,共4页
为了确保高校教学质量评估的客观性、系统性和全面性,提出利用大数据全面服务教育评估,并基于Hadoop构建评测系统,在Hadoop分布式架构基础上,提出利用分布式算法对高校教学质量各方面进行评估。评测系统主要从学校管理质量、教师教学过... 为了确保高校教学质量评估的客观性、系统性和全面性,提出利用大数据全面服务教育评估,并基于Hadoop构建评测系统,在Hadoop分布式架构基础上,提出利用分布式算法对高校教学质量各方面进行评估。评测系统主要从学校管理质量、教师教学过程、学生的学习行为以及学业质量等4个方面对高校教学质量进行评估,自下而上划分为数据访问层、业务逻辑层和表示层,各功能子系统均采用模块化设计;针对不同大数据的特点,提出利用主成分分析法对学校管理质量大数据进行评估,采用分布式算法对教师教学过程、学生学习行为和学业质量进行评估;当数据量较小时传统单机算法运行效率较高,当数据量较大(大数据样本)时分布式算法的运行时间明显少于单机算法,且随着数据量的增大,运行效率优势越明显。 展开更多
关键词 高校教学质量 评测系统 hadoop 大数据 分布式算法
下载PDF
竞赛驱动下的Spark大数据技术与应用课程教学改革探索
17
作者 吴建 邓红辉 《教育教学研究前沿》 2024年第4期33-36,共4页
随着大数据技术的快速发展,Spark作为分布式大数据处理框架,已成为企业数据分析和处理的重要工具。竞赛驱动下的Spark大数据技术与应用课程教学改革,旨在通过竞赛项目牵引,促进学生理论学习与实践操作的深度融合,不仅能够激发学生的学... 随着大数据技术的快速发展,Spark作为分布式大数据处理框架,已成为企业数据分析和处理的重要工具。竞赛驱动下的Spark大数据技术与应用课程教学改革,旨在通过竞赛项目牵引,促进学生理论学习与实践操作的深度融合,不仅能够激发学生的学习兴趣和积极性,还能促进学生实践能力和创新能力的提升。因而研究竞赛驱动下的Spark大数据技术与应用课程教学改革有重要的意义。对此,课程改革主要围绕教学组织形式、教学方法和评价方式三个方面展开。在教学组织形式上,采用“学生为主体、竞赛为引导”的教学模式,鼓励学生组队参与实际项目;在教学方法上,引入行业企业项目,在实践操作中提升学生的学习效果;在评价方式上,实施竞赛成果为核心的多元化的评价体系,以期提升学生的综合能力和实践能力。 展开更多
关键词 spark大数据技术与应用 课程改革 竞赛驱动
下载PDF
基于Hadoop技术的教学数据存储研究
18
作者 李俊涛 《广州城市职业学院学报》 2024年第1期86-90,共5页
探讨了基于Hadoop技术的高校教学数据存储系统设计。该系统以Hadoop分布式文件系统(HDFS)和MapReduce框架为基础,实现了教学数据的高效存储、管理和分析。构建了“数据交互层”“核心处理层”和“数据存储层”三层结构。教学资源网结构... 探讨了基于Hadoop技术的高校教学数据存储系统设计。该系统以Hadoop分布式文件系统(HDFS)和MapReduce框架为基础,实现了教学数据的高效存储、管理和分析。构建了“数据交互层”“核心处理层”和“数据存储层”三层结构。教学资源网结构和数据库访问层支持多样化的数据类型和访问需求。同时,强调数据安全性与权限管理,以及实时处理与分析能力的重要性。通过这一设计,系统为高校提供了安全、高效、可靠的教学数据解决方案,支持教育的创新和发展。 展开更多
关键词 教学数据存储系统 hadoop技术 分布式存储 数据安全性
下载PDF
基于Hadoop的设施蔬菜产销大数据架构分析
19
作者 李敏 文燕 叶煜 《四川农业科技》 2024年第3期29-33,共5页
随着现代科技的发展,物联网、大数据的广泛普及与使用,百姓赖以生活与生存的设施蔬菜发展迅猛快速,从传统的“看天吃饭”到现代化的“四季不断”的转变,实现时不分冬夏、地不分南北的天时地利供应不断,提高了百姓的生活质量。在整个过程... 随着现代科技的发展,物联网、大数据的广泛普及与使用,百姓赖以生活与生存的设施蔬菜发展迅猛快速,从传统的“看天吃饭”到现代化的“四季不断”的转变,实现时不分冬夏、地不分南北的天时地利供应不断,提高了百姓的生活质量。在整个过程中,由于各环节产生数据量极大,种植销售分散,规模大小不一,分类也不统一,采集数据还不是很精准,有限数据利用率不高,造成统计数据还不够完善,数据分析存在偏差,甚至失误。文章主要从研究设施蔬菜的产销,利用传感器技术,从蔬菜分类、销售量等方面准确采集数据,并使用hadoop对数据进行分析。实现HDFS分布式存储、MapReduce实现数据处理过程到利用Hive数据仓库工具,对HDFS中存储的数据进行提取、查询、汇总,对设施蔬菜大数据产销进行架构分析,得到的结果反哺蔬菜种植源头,更好地指导种植生产销售,服务现代农业,服务万千百姓。 展开更多
关键词 设施蔬菜 hadoop 架构分析
下载PDF
基于Hadoop技术的加速器大数据安全存储与高效分析系统设计 被引量:2
20
作者 赵子晨 杨锋 +3 位作者 郭玉辉 陈又新 李钊扬 刘海涛 《现代电子技术》 北大核心 2024年第8期9-17,共9页
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬... 为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。 展开更多
关键词 数据仓库 hadoop技术 加速器 大数据 安全存储 HBASE ETL
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部