期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种Spark集群下的shuffle优化机制 被引量:2
1
作者 熊安萍 夏玉冲 杨方方 《计算机工程与应用》 CSCD 北大核心 2018年第4期72-76,共5页
Spark是基于内存的分布式数据处理框架,其shuffle过程中大量数据需要通过网络传输,已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题,设计了基于task本地性等级的重启策略,进一步... Spark是基于内存的分布式数据处理框架,其shuffle过程中大量数据需要通过网络传输,已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题,设计了基于task本地性等级的重启策略,进一步提出了均衡的调度策略来平衡各节点的网络I/O负载。最后通过实验验证了优化机制能够减少计算任务的执行时间,提升整个shuffle过程的执行效率。 展开更多
关键词 spark集群 shuffle过程 数据传输 本地性 调度策略
下载PDF
Spark集群实现统计文档单词频次实例 被引量:1
2
作者 郑海鹏 《电脑知识与技术》 2020年第23期33-34,共2页
随着计算机数据分析、数据处理技术的不断发展和完善,大数据技术在社会中的实际应用场景越来越广泛,我们的生活正处在大数据时代。例如,众多电商平台利用大数据技术实现了电商用户的数据画像。依据客户的需求导向,对客户的商品需求进行... 随着计算机数据分析、数据处理技术的不断发展和完善,大数据技术在社会中的实际应用场景越来越广泛,我们的生活正处在大数据时代。例如,众多电商平台利用大数据技术实现了电商用户的数据画像。依据客户的需求导向,对客户的商品需求进行精准的定位,进一步地满足客户的实际需求,增加电商平台的产品销售量及销售利润,知名搜索引擎百度依据客户的百度搜索日志,投其所好,推送和用户浏览日志密切相关的新闻,满足用户的网络需求。大数据正在逐步地影响和改变我们的生活,该文力图对大数据技术开发环境的配置做简要的阐述,并利用Spark(一款基于内存的计算框架,运行速度比MapReduce快100倍左右)集群实现对上传至HDSF(分布式文件系统)中文档内的单词次数的统计,以此阐述大数据技术处理数据的运行流程。 展开更多
关键词 大数据 spark集群 分布式文件系统 单词次数统计
下载PDF
Spark集群中还贷问题的逻辑回归模型研究
3
作者 刘黎志 彭贝 《武汉工程大学学报》 CAS 2020年第1期113-118,共6页
在Spark集群环境下,通过Sparklyr调用MLib中的并行逻辑回归算法对大规模抵押贷款数据的训练集进行监督学习,使用R语言建立一个预测客户是否会如期归还贷款的逻辑回归分类模型。为了研究该模型的可信性以及获取效率,本文补充了伪判定系... 在Spark集群环境下,通过Sparklyr调用MLib中的并行逻辑回归算法对大规模抵押贷款数据的训练集进行监督学习,使用R语言建立一个预测客户是否会如期归还贷款的逻辑回归分类模型。为了研究该模型的可信性以及获取效率,本文补充了伪判定系数、分类评价指标、测试集性能几个指标对模型可信性进行评价,并判定了模型的可信性。在获得了可信模型的基础上,实验结果表明:当数据量增加到一定阈值后,在集群环境下使用并行的算法获得逻辑回归分类模型的速度要优于对应的串行算法。 展开更多
关键词 spark集群 逻辑回归 R语言 大数据
下载PDF
Spark集群下基于关联规则的产品加工质量分析
4
作者 李卓航 荀亚玲 +1 位作者 薛晓鹏 李元庆 《太原科技大学学报》 2021年第3期194-199,共6页
工业大数据的有效应用成为支撑企业转型升级的强力引擎。利用关联规则可以从海量产品加工过程质量数据中发掘加工工序质量参数之间的隐含相关性,如果能对具有相关性的上游质量指标进行及时有效的监控和调整,将有效地减少质量指标之间的... 工业大数据的有效应用成为支撑企业转型升级的强力引擎。利用关联规则可以从海量产品加工过程质量数据中发掘加工工序质量参数之间的隐含相关性,如果能对具有相关性的上游质量指标进行及时有效的监控和调整,将有效地减少质量指标之间的误差传播、耦合与积累对各工序质量监控点配置决策的影响。针对传统的关联规则挖掘时空复杂度和I/O代价高,难以适应大数据处理的问题,以及传统Hadoop分布式平台的计算和数据管理方式导致的高数据频繁读写代价,提出了一种基于Spark计算平台的并行频繁项集挖掘HBPFP(High Balanced parallel Fp-Growth)算法,该算法利用新定义的节点计算量预估模型,实现了各计算节点间计算任务的均衡分组,从而有效地提高了集群资源利用率;并在详细分析产品工艺流程和质量管理特点的基础上,构建了基于关联规则的加工质量控制模型;最后以冷轧辊生产加工过程为应用案例,设计与实现了基于关联规则的冷轧辊加工质量分析原型系统,为制造企业在大数据时代实现全面质量控制和管理,提供了新的解决途径和决策支持手段。 展开更多
关键词 关联规则 质量控制 工业大数据 spark集群
下载PDF
基于Docker搭建Spark大数据集群数据挖掘平台 被引量:3
5
作者 蔡全福 《信息技术与信息化》 2022年第9期70-73,共4页
搭建大数据集群采用虚拟机部署的传统方法存在效率低、搭建步骤繁琐、时间成本高等问题,无法满足应用需求。随着虚拟化技术的发展,Docker技术由于具有占用资源小、启动速度快、部署快捷等优势,Docker技术能有效解决传统方法存在的问题,... 搭建大数据集群采用虚拟机部署的传统方法存在效率低、搭建步骤繁琐、时间成本高等问题,无法满足应用需求。随着虚拟化技术的发展,Docker技术由于具有占用资源小、启动速度快、部署快捷等优势,Docker技术能有效解决传统方法存在的问题,使得应用场景非常丰富。为此,提出基于Docker技术搭建Spark大数据集群实现数据挖掘平台。首先,介绍Docker技术的特点,通过与虚拟机技术对比阐述Docker技术的优势,并且介绍Spark集群架构和Kubernetes技术;然后,详细分析数据挖掘平台的搭建步骤,测试Docker技术和虚拟机技术的程序运行速度,测试表明Docker技术具有较短的运行时间,效率更高。为了Spark集群数据挖掘平台在节点扩展和管理更加灵活,提出基于Kubernetes技术改进原来集群,使得新增节点和管理集群更加高效。 展开更多
关键词 虚拟化技术 DOCKER spark大数据 数据挖掘 Kubernetes
下载PDF
基于Spark的并行分布式过程挖掘算法 被引量:7
6
作者 胡小强 吴翾 +1 位作者 闻立杰 王建民 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期791-797,共7页
针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为... 针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为活动关系矩阵。然后利用关系矩阵,按算法原本的后续步骤,挖掘出过程模型。利用Spark实现分布式α-Mine算法和分布式Flexible Heuristic Miner算法,结果表明:所提方法在时间消耗上优于目前最好的算法,挖掘效率明显提升。 展开更多
关键词 过程挖掘算法 spark集群 大数据 并行分布式化
下载PDF
基于Spark的转录组大数据并行处理方法 被引量:2
7
作者 于建涛 刘圣东 +7 位作者 赖灵伟 吕同轩 王嘉浩 高小雨 惠毅翔 侯君瑶 殷童 郭茂祖 《计算机应用研究》 CSCD 北大核心 2020年第S02期176-180,共5页
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Sp... 转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。 展开更多
关键词 spark集群 并行处理 转录组 序列比对 差异表达
下载PDF
基于国产处理器增量式实时交通流预测算法及实现
8
作者 季一木 杨启凡 +4 位作者 李奎 尤帅 邵思思 刘强 刘尚东 《计算机应用研究》 CSCD 北大核心 2021年第5期1468-1471,共4页
针对城市交通难以处理大量数据且实时性差等问题,提出了根据增量式城市交通流数据预测拥堵情况的一种基于国产处理器的L-BFGS(limited-memory BFGS)算法。该算法通过存储向量序列计算Hessian矩阵,改进Two-Loop算法求下降方向,在Spark集... 针对城市交通难以处理大量数据且实时性差等问题,提出了根据增量式城市交通流数据预测拥堵情况的一种基于国产处理器的L-BFGS(limited-memory BFGS)算法。该算法通过存储向量序列计算Hessian矩阵,改进Two-Loop算法求下降方向,在Spark集群中并行处理时收敛速度快,适用于实时性要求强的城市交通场景。实验结果证明,L-BFGS预测算法完全可以在国产平台上对大规模的实时交通数据流进行快速建模、预测,在改善城市交通管理水平提供有效支撑的同时也丰富了国产芯片的应用领域。 展开更多
关键词 国产处理器 增量式城市交通流数据 spark集群 L-BFGS算法 交通流预测
下载PDF
基于分布式计算的农机运营效率分析 被引量:2
9
作者 赵国发 刘卉 +2 位作者 肖敬 陈竞平 孟志军 《农机化研究》 北大核心 2020年第1期53-57,64,共6页
为适应深松整地作业的监管需求,国家农业智能装备工程技术研究中心研制了农机深松作业监管服务系统。针对海量的农机运动轨迹数据,搭建了基于Spark技术的分布式集群轨迹处理试验平台,研究了基于分布式计算的农机运营数据分析方法。针对... 为适应深松整地作业的监管需求,国家农业智能装备工程技术研究中心研制了农机深松作业监管服务系统。针对海量的农机运动轨迹数据,搭建了基于Spark技术的分布式集群轨迹处理试验平台,研究了基于分布式计算的农机运营数据分析方法。针对运营时间、作业时间、时间利用率及班次利用率等多项指标,对2015年8-12月期间的新疆塔城地区14台农机深松作业轨迹数据进行了农机运营效率分析。数据分析结果有助于测算和客观评价农机运营效率,为农机智能管理与科学调度研究提供数据支持。 展开更多
关键词 农机运营效率 GNSS轨迹 数据挖掘 分布式计算 spark集群
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部