期刊文献+
共找到129篇文章
< 1 2 7 >
每页显示 20 50 100
Spark综合实验平台的使用和实验教学实践
1
作者 魏凌华 徐成振 《科技风》 2024年第6期64-66,共3页
Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成... Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成绩都得到了提高。 展开更多
关键词 spark 实验平台 实验课 实践教学
下载PDF
基于Spark平台的电子商务个性化信息推荐方法
2
作者 李加军 《信息技术》 2023年第10期66-71,共6页
互联网上数据传播量日益增加,但信息使用率却很低,消耗用户大量精力,针对这个问题,提出一种基于Spark平台的电子商务个性化信息推荐方法。Spark平台通过弹性分布式内存数据集,可将中间计算结果直接保存至内存中,建立用户喜好模型;使用... 互联网上数据传播量日益增加,但信息使用率却很低,消耗用户大量精力,针对这个问题,提出一种基于Spark平台的电子商务个性化信息推荐方法。Spark平台通过弹性分布式内存数据集,可将中间计算结果直接保存至内存中,建立用户喜好模型;使用评分机制计算不同个体偏好商品,形成推荐列表;引入挖掘隐含信息的矩阵分解算法,将未知参数转化为已知量,提高个性化信息推荐精准度。仿真对比实验,从用户满意度、信息熵值和运行速度三个角度,验证了所提方法可以实现优质且高效的电子商务个性化信息推荐工作。 展开更多
关键词 个性化信息推荐 spark平台 用户喜好模型 评分机制 并行化协同过滤
下载PDF
基于spark平台的跨境电商产品混合式协同推荐
3
作者 李佳颖 刘静 《贵阳学院学报(自然科学版)》 2023年第4期38-43,共6页
跨境电商产品推荐由于受到语言和文化差异等原因,要实现精准推荐仅靠单一方法完全不够。为提高产品的有效推荐,采用混合式协同推荐策略,将隐语义挖掘和特征聚类算法联合应用于混合式系统推荐策略,并借助于Spark平台优化推荐效率。首先,... 跨境电商产品推荐由于受到语言和文化差异等原因,要实现精准推荐仅靠单一方法完全不够。为提高产品的有效推荐,采用混合式协同推荐策略,将隐语义挖掘和特征聚类算法联合应用于混合式系统推荐策略,并借助于Spark平台优化推荐效率。首先,采用隐语义模型(LFM)对用户及商品的隐含特征关注度和重要度进行初始化,并构建用户—商品评分函数;以RMSE为优化函数,通过梯度下降获得LFM用户—商品评分值,根据评分值生成候选商品推荐序列;接着采用K-means算法对用户—商品特征进行聚类分析,并通过鲸群优化算法(WOA)对初始类中心进行优化求解,获得候选商品推荐序列。综合两种策略得到商品推荐系列,生成最终用户推荐商品。仿真结果显示,通过Spark平台的LFM和WOA-K-means的混合式协同推荐,四家跨境电商平台均获得90%以上的商品推荐准确度,对大规模跨境电商产品具有较高的适用性。 展开更多
关键词 跨境电商 商品推荐 spark平台 LFM模型
下载PDF
基于Spark技术的大数据智能分析平台构建
4
作者 贾淑滟 《滨州学院学报》 2023年第6期86-91,共6页
针对大数据分析过程易受数据维度的影响,造成大数据分析平台运行时间长、数据分析平均绝对误差高的问题,构建了基于Spark技术的大数据智能分析平台。先采用局部约束学习方法降低大数据维度,再利用Spark技术建立兼具应用服务层、权限管... 针对大数据分析过程易受数据维度的影响,造成大数据分析平台运行时间长、数据分析平均绝对误差高的问题,构建了基于Spark技术的大数据智能分析平台。先采用局部约束学习方法降低大数据维度,再利用Spark技术建立兼具应用服务层、权限管理层、中间服务层和基础资源层的平台分层架构,参考映射-归约数据网络质量分析系统,结合数据分析编排器设计平台后台分析服务器,实现了基于Spark技术的大数据智能分析平台的构建。所构建平台加速比参数大于9,运行速度较快,运行效率在99%左右,数据分析平均绝对误差为0.5%~0.8%。 展开更多
关键词 局部约束学习方法 数据维度 spark技术 平台分层架构
下载PDF
异构Spark集群下自适应任务调度策略 被引量:19
5
作者 杨志伟 郑烇 +2 位作者 王嵩 杨坚 周乐乐 《计算机工程》 CAS CSCD 北大核心 2016年第1期31-35,40,共6页
Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资... Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资源利用率,分析监测得到的参数,自适应动态调整节点任务分配权值。实验结果表明,在异构节点情况下,该策略在作业完成时间、节点工作状态及资源利用率方面的性能均优于默认的任务调度策略。 展开更多
关键词 spark平台 异构集群 自适应 任务调度 监测 权值
下载PDF
基于Spark平台和多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测 被引量:33
6
作者 马天男 牛东晓 +1 位作者 黄雅莉 杜振东 《电网技术》 EI CSCD 北大核心 2016年第6期1642-1649,共8页
分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择... 分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择的基础上,建立了基于Spark平台与多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测方法。首先,利用Spark平台分割全部数据得到多个子数据模型,通过并行计算提高数据处理效率,采用特征提取方法得出模型需要的输入向量;其次,将得出的有效数据信息输入到多变量L_2-Boosting回归模型进行训练学习,得到训练后的多变量L_2-Boosting回归模型;最后,利用测试数据测试模型。算例结果验证了所提模型的有效性。 展开更多
关键词 短期负荷预测 多变量L2-Boosting回归模型 分布式能源系统 spark平台
下载PDF
基于内存与文件共享机制的Spark I/O性能优化 被引量:7
7
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机工程》 CAS CSCD 北大核心 2017年第3期1-6,共6页
通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。... 通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O时间缩短42.9%,可有效提高内存利用率和Spark平台运算效率。 展开更多
关键词 分布式计算 spark平台 Shuffle过程 磁盘I/O 任务调度
下载PDF
基于Spark平台的岩石图像聚类分析 被引量:7
8
作者 杨艳梅 柳娜 +2 位作者 程国建 强新建 王叙乔 《西安石油大学学报(自然科学版)》 CAS 北大核心 2016年第6期114-118,共5页
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,... 提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。 展开更多
关键词 岩石图像 聚类分析 spark平台 K-MEANS
下载PDF
Spark平台下的短文本特征扩展与分类研究 被引量:9
9
作者 王雯 赵衎衎 +2 位作者 李翠平 陈红 孙辉 《计算机科学与探索》 CSCD 北大核心 2017年第5期732-741,共10页
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上... 短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。 展开更多
关键词 短文本分类 特征扩展 关联规则 spark平台
下载PDF
Spark平台中的并行化FP_growth关联规则挖掘方法 被引量:5
10
作者 朱岸青 李帅 唐晓东 《计算机科学》 CSCD 北大核心 2020年第12期139-143,共5页
为了提高关联规则挖掘效率,文中提出了一种适用于Spark平台的并行化FP_growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成FP_Table并更新FP_Tree。然后,引入时间序... 为了提高关联规则挖掘效率,文中提出了一种适用于Spark平台的并行化FP_growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成FP_Table并更新FP_Tree。然后,引入时间序列来预测待挖掘的项目集,以便实现分布式系统中的所有节点能够均衡分担挖掘任务,从而充分利用各节点的FP_Tree遍历功能,获取FP_growth关联规则挖掘结果。实验结果显示,相比单机情况,并行化FP_growth关联规则挖掘在效率方面提高了约60%。经过负载均衡处理后的FP_growth关联规则挖掘的效率更高,提高了约14%,这说明各节点遍历任务的分配更均衡,并行化程度更高。 展开更多
关键词 spark平台 FP_GROWTH算法 关联规则挖掘 频繁集 负载均衡
下载PDF
面向Spark的图书借阅数据关联模型的研究 被引量:7
11
作者 高琪娟 刘锴 陈佳 《安徽农业大学学报》 CAS CSCD 2018年第4期768-771,共4页
为了方便读者能在海量的图书资源中快速有效的找到需要的书籍,利用Map Reduce框架分块处理,结合关联分析Apriori算法,将数据挖掘技术应用到图书管理系统中。但需要多次扫描数据库和产生大量候选集,对Hadoop平台处理速度带来了巨大挑战,... 为了方便读者能在海量的图书资源中快速有效的找到需要的书籍,利用Map Reduce框架分块处理,结合关联分析Apriori算法,将数据挖掘技术应用到图书管理系统中。但需要多次扫描数据库和产生大量候选集,对Hadoop平台处理速度带来了巨大挑战,因此,针对传统的Apriori算法,提出基于内存计算、弹性分布式数据集处理的Spark平台为读者推荐书籍,指引读者的借阅行为。 展开更多
关键词 Apriori关联规则 spark平台 图书借阅行为模式 频繁项集
下载PDF
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:7
12
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
下载PDF
基于Spark的电力调度数据整合模型 被引量:9
13
作者 曲朝阳 陈贺新 +2 位作者 胡可为 刘耀伟 独健鸿 《计算机工程与应用》 CSCD 北大核心 2017年第19期65-70,共6页
随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大... 随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大匹配去冗算法,对多个系统内冗余数据进行过滤操作;给出面向关联度的数据一致性处理方法,依据特征向量的夹角余弦值判断数据间的联系,进而对不一致数据修复。通过对某电力调度中心的数据进行整合实验,验证了该数据整合模型的可行性。 展开更多
关键词 电力调度中心 关联度 特征向量 数据整合 spark平台
下载PDF
基于Spark平台的海量电子对抗数据分析 被引量:3
14
作者 李霄 贺成龙 +1 位作者 张广庆 徐欣 《指挥信息系统与技术》 2015年第2期53-56,共4页
海量电子对抗(简称电抗)数据分析是雷达辐射源识别领域的一个难点问题。采用Spark平台对海量电抗数据进行分析挖掘,分析了海量电抗数据在HBase数据库中的分布式存储,以及Spark平台基本程序框架和数据处理方式,探索了海量电抗数据的分析... 海量电子对抗(简称电抗)数据分析是雷达辐射源识别领域的一个难点问题。采用Spark平台对海量电抗数据进行分析挖掘,分析了海量电抗数据在HBase数据库中的分布式存储,以及Spark平台基本程序框架和数据处理方式,探索了海量电抗数据的分析和挖掘方法。仿真试验表明,Spark平台能够高效处理海量电抗数据,具有良好的稳定性。 展开更多
关键词 电子对抗 海量数据 spark平台 数据分析
下载PDF
基于Spark平台城市出租车乘客出行特征分析 被引量:7
15
作者 段宗涛 陈志明 +1 位作者 陈柘 康军 《计算机系统应用》 2017年第3期37-43,共7页
从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系... 从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系统,采用HDFS分布式存储系统,对出租车GPS轨迹数据进行挖掘.给出了基于Spark平台的出租车乘客出行特征的挖掘方法,包括出租车乘客出行距离分布、出租车使用时间分布及出租车出行需求.实验结果表明,基于Spark平台分析方法能够快速且准确的分析出出租车乘客出行特征. 展开更多
关键词 spark大数据平台 出租车GPS数据 出行特征 大数据 智能交通
下载PDF
基于Spark的医疗服务大数据统计平台的应用 被引量:7
16
作者 范炜玮 王虹 吴飞 《中国医疗设备》 2017年第11期136-139,160,共5页
目的探索大数据处理方法及技术在医疗服务大数据领域中的应用,提高交互式统计计算效率,从而为医疗服务大数据的进一步挖掘和利用提供第一手的实践资料。方法梳理了医疗服务大数据的来源范畴、数据特征及其处理技术的发展,围绕大数据时... 目的探索大数据处理方法及技术在医疗服务大数据领域中的应用,提高交互式统计计算效率,从而为医疗服务大数据的进一步挖掘和利用提供第一手的实践资料。方法梳理了医疗服务大数据的来源范畴、数据特征及其处理技术的发展,围绕大数据时代下的医疗服务数据统计、分析及利用的功能和性能需求,并提出了一套基于Spark的并行计算解决方案。结果完成了医疗服务大数据交互式分析平台的系统架构设计,以Spark计算平台为基础进行了统计系统原型的实现、对比和验证。结论 Spark能够满足医疗服务大数据处理中以交互式查询为代表的统计分析的数据处理需求,同时也能满足以迭代计算为代表的数据挖掘,图形分析等数据处理需求,将在医疗服务大数据处理中得到更广泛和深入的应用。 展开更多
关键词 spark 交互式分析平台 医疗服务 医疗大数据 统计系统原型 数据挖掘
下载PDF
基于Spark平台的微震监测快速定位方法研究 被引量:4
17
作者 丁恩杰 吕雅洁 +1 位作者 胡东平 陈卿 《煤炭科学技术》 CAS 北大核心 2016年第7期22-27,共6页
针对微震监测海量震动波数据实时处理难题,提出了在Spark大数据处理平台上对大量震动数据进行处理,提出基于粒子群寻优策略的震动波震源TDOA定位的并行计算程序思路,并在3台机器组成的小型Spark集群环境下进行试验验证。试验证明了在Sp... 针对微震监测海量震动波数据实时处理难题,提出了在Spark大数据处理平台上对大量震动数据进行处理,提出基于粒子群寻优策略的震动波震源TDOA定位的并行计算程序思路,并在3台机器组成的小型Spark集群环境下进行试验验证。试验证明了在Spark平台上做海量震动波数据处理的可行性,并且证明了与单机震源定位计算相比,此方法可以有效加快最优解的收敛速度,提高处理效率。 展开更多
关键词 微震监测 互联网+ spark大数据处理平台 TDOA定位 并行粒子群算法
下载PDF
基于Spark框架的图书馆微信服务平台设计研究 被引量:2
18
作者 黄铁娜 戴文静 曹君 《现代电子技术》 2021年第15期99-103,共5页
图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主... 图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主动推送功能、业务办理模式、查询帮助服务、在线咨询和社交平台、智能问答系统五项功能。通过预处理、特征提取以及并行化聚类三个阶段实现基于Spark框架的图书馆微信服务平台工作流程。实验结果表明,基于Spark框架的图书馆微信服务平台能够有效提高运行稳定性,增强数据处理效率。 展开更多
关键词 平台设计 微信服务平台 spark框架 特征提取 并行化聚类 运行稳定性 微时代
下载PDF
一种基于Spark的多路空间连接查询处理算法
19
作者 乔百友 朱俊海 +2 位作者 郑宇杰 申木川 王国仁 《计算机研究与发展》 EI CSCD 北大核心 2017年第7期1592-1602,共11页
针对云环境下空间数据连接查询处理问题,提出了一种基于Spark的多路空间连接查询处理算法BSMWSJ.该算法采用网格划分方法将整个数据空间划分成大小相同的网格单元,并将各类数据集中的空间对象,根据其空间位置划分到相应的网格单元中,不... 针对云环境下空间数据连接查询处理问题,提出了一种基于Spark的多路空间连接查询处理算法BSMWSJ.该算法采用网格划分方法将整个数据空间划分成大小相同的网格单元,并将各类数据集中的空间对象,根据其空间位置划分到相应的网格单元中,不同网格单元中的空间数据对象进行并行连接查询处理.在多路空间连接查询处理过程中,采用边界过滤的方法来过滤无用数据,即通过计算前面连接操作候选结果的MBR来过滤后续连接数据集,从而过滤掉无用的连接对象,减少连接对象的多余投影与复制,并采用重复避免策略来减少重复结果的输出,从而进一步减少后续连接计算的代价.合成数据集和真实数据集上的大量实验结果表明:提出的多路空间连接查询处理算法在性能上明显优于现有的多路连接查询处理算法. 展开更多
关键词 云计算 spark平台 多路空间连接查询 边界过滤 重复避免
下载PDF
基于Hadoop与Spark的大数据处理平台的构建研究 被引量:9
20
作者 刘萍 《通化师范学院学报》 2018年第6期83-88,共6页
随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spar... 随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spark框架与MapReduce类似,也是一个分布式计算平台.而相比于MapReduce,Spark的速度更快且提供的功能更丰富.Spark只是一个计算平台,本身并没有提供分布式存储和管理,Spark的计算依赖于Hadoop生态系统中的分布式文件系统HDFS,以及集群资源管理器Hadoop Yarn.因此将Spark与Hadoop相结合来构建大数据处理平台,可提高算法运行效率和处理规模.本研究搭建了Hadoop集群和Spark集群,完成了大数据处理平台的构建.最后在搭建好的集群上运行了实现单词词频统计的Word Count程序,验证了大数据处理平台搭建的成功. 展开更多
关键词 spark 大数据处理平台 HADOOP
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部