期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
Apache Flink流式计算模型在数据处理中的应用与性能优化研究
1
作者 徐海霞 《电脑知识与技术》 2024年第7期71-73,共3页
文章旨在研究Apache Flink流式计算模型在数据处理中的应用与性能优化。先从可扩展性、容错性和数据并行处理能力三个方面对Apache Flink流式计算框架技术特点进行论述,再对Apache Flink流式计算框架核心思想与工作流程进行研究,并提出... 文章旨在研究Apache Flink流式计算模型在数据处理中的应用与性能优化。先从可扩展性、容错性和数据并行处理能力三个方面对Apache Flink流式计算框架技术特点进行论述,再对Apache Flink流式计算框架核心思想与工作流程进行研究,并提出一套执行数据处理任务的Java源码,再从并行计算、数据存储和传输、算法参数、系统配置、资源管理与调度、检查点和容错机制、编码和序列化等方面就如何进行Apache Flink性能优化进行分析,最后通过实验手段就优化性能进行分析。实验结果表明,优化后的平均响应时间显著减少,吞吐量相应增加,调整并行度和内存分配等参数可显著提升系统性能,但还需要考虑任务调度和资源分配等方面的综合因素,因此,Apache Flink流式计算框架调优策略具有一定的应用价值。 展开更多
关键词 流式计算 apache flink 大规模数据处理 性能优化 并行计算
下载PDF
基于Apache Flink的RDF流数据查询 被引量:3
2
作者 郑滔 刘梦赤 冯嘉美 《计算机与现代化》 2020年第11期47-55,共9页
目前成熟的RDF流处理(RDF Stream Processing,RSP)系统由于集中式的设计而缺乏并行处理特性,因此在查询处理大量传入的RDF流数据时,均无法实现高吞吐和低延迟。为提高查询性能,本文对RSP查询过程和Flink流计算结构进行研究,设计数据源... 目前成熟的RDF流处理(RDF Stream Processing,RSP)系统由于集中式的设计而缺乏并行处理特性,因此在查询处理大量传入的RDF流数据时,均无法实现高吞吐和低延迟。为提高查询性能,本文对RSP查询过程和Flink流计算结构进行研究,设计数据源、滤器、多路分区连接和投影4个逻辑操作符,并设计一种多流连接(Multi-Stream Join,MSJ)算法用于生成具有并行性的有向无环图的逻辑查询计划,最后以大数据流处理平台Apache Flink为底层实现逻辑操作符和逻辑查询计划。使用真实数据集SRBench和模拟数据集LUBMs进行实验验证。结果表明,与最成熟的系统C-SPARQL、CQELS相比,单机吞吐量增长高达10倍,5台机器集群的吞吐量增长高达28倍,同时在延时方面达到了毫秒级;在查询性能方面实现了处理大量RDF流数据时吞吐量的提高和延时的降低。 展开更多
关键词 RDF流 并行处理 逻辑操作符 多流连接 apache flink
下载PDF
基于Apache Flink数据仓库的元数据管理 被引量:1
3
作者 谭巍 《金融科技时代》 2022年第8期72-75,共4页
随着大数据技术的发展,数据仓库的建设方案不断更新,这对元数据资产的管理和维护提出了挑战。文章提出了一种针对Apache Flink建设下数据仓库的元数据管理方法,该方法不仅可以实现表层级的相互依赖,还可以得到字段层级的血缘依赖。
关键词 数据仓库 元数据 apache flink SQL
下载PDF
Flink平台下的分布式平衡级联支持向量机
4
作者 刘屹成 刘晓燕 严馨 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第5期999-1006,共8页
支持向量机(Support Vector Machines,SVM)在分类和回归领域都是非常强大的工具,但在大数据环境下,其面临资源占用过高和寻优速度慢等问题.目前利用大数据框架实现的SVM,虽然优化了寻优速度慢的问题,但其预测精度与直接训练方式相比存... 支持向量机(Support Vector Machines,SVM)在分类和回归领域都是非常强大的工具,但在大数据环境下,其面临资源占用过高和寻优速度慢等问题.目前利用大数据框架实现的SVM,虽然优化了寻优速度慢的问题,但其预测精度与直接训练方式相比存在一定的差距,此外其并没有对训练节点的资源进行合理配置.故提出一种Flink平台下的分布式平衡级联向量机,该方式在之前的基础上将数据集分成含有相同比例样本的平衡子集,并对子集的训练参数进行放缩;同时,结合Flink下迭代作业的动态资源分配策略,将各节点资源最小化为刚好满足训练需求.对该方法的有效性进行阐述,对比多个数据集在不同训练方式下的资源占用和模型精度,实验结果表明,采用所提出的训练方式能合理灵活地对资源进行配置,同时将模型预测精度误差降低到0.1%以内. 展开更多
关键词 apache flink 支持向量机 分布式计算 细粒度资源管理 平衡子集
下载PDF
基于Flink的k-支配skyline体并行求解算法 被引量:1
5
作者 孙国璋 黄山 +2 位作者 艾力卡木·再比布拉 徐浩桐 段晓东 《计算机工程与科学》 CSCD 北大核心 2023年第1期17-27,共11页
k-支配skyline算法弱化了数据点之间的支配关系,更适合高维数据。k-支配skyline体适应于多名用户使用k-支配skyline算法查询,而现有的求解算法在时间效率和代码扩展性方面都有待提高。因此,提出了面向多用户的k-支配skyline体求解优化算... k-支配skyline算法弱化了数据点之间的支配关系,更适合高维数据。k-支配skyline体适应于多名用户使用k-支配skyline算法查询,而现有的求解算法在时间效率和代码扩展性方面都有待提高。因此,提出了面向多用户的k-支配skyline体求解优化算法MKSSOA,该算法对每名用户的候选集和中间集分别进行存储,同时在k-支配检查过程中利用2集合中数据点出现的先后次序将候选集中的非k-支配skyline点存储到对应用户的中间集中,以便下一名用户筛选使用,这样可以减少数据点之间的比较次数,避免重复计算,从而提升查询效率。同时,提出了面向多用户的k-支配skyline体并行求解算法MKSPSA,通过Apache Flink并行处理框架有效减少了数据点的比较时间。理论研究和实验结果显示,提出的算法具有较高的效率,能很好地处理多用户k-支配skyline问题。 展开更多
关键词 k-支配 SKYLINE查询 多用户 apache flink 并行查询
下载PDF
Flink水位线动态调整策略
6
作者 吕鹤轩 黄山 +2 位作者 艾力卡木·再比布拉 吴思衡 段晓东 《计算机工程与科学》 CSCD 北大核心 2023年第2期237-245,共9页
衡量大数据的数据挖掘性能有2个最重要的任务指标:一是实时性,二是准确性。流数据从数据产生到消息队列再通过数据源流入Flink进行计算,这个过程中因为网络传输速度不同,不同节点的计算性能不同等原因,流数据进入计算框架的先后顺序和... 衡量大数据的数据挖掘性能有2个最重要的任务指标:一是实时性,二是准确性。流数据从数据产生到消息队列再通过数据源流入Flink进行计算,这个过程中因为网络传输速度不同,不同节点的计算性能不同等原因,流数据进入计算框架的先后顺序和数据产生的事件时间顺序会有局部乱序的现象。面对窗口作业的传统水位线机制在不确定乱序程度的流数据情况下无法同时兼顾作业结果的实时性和准确性。针对这个问题,建立了流数据微簇模型。通过局部乱序度算法,根据流数据微簇的流数据事件时间局部乱序程度计算出可以代表当前时刻流数据的乱序度。设计了水位线动态调整策略,使水位线根据流数据的乱序程度动态调整大小。最后,在Apache Flink框架中对基于事件时间窗口的水位线动态调整策略进行了实现。实验结果表明,弹性或不确定乱序流数据条件下,基于事件时间窗口的水位线动态调整策略可以有效地同时兼顾窗口作业的准确性和实时性。 展开更多
关键词 apache flink 水位线 乱序流数据 事件时间
下载PDF
基于Flink平台的资源感知任务调度策略 被引量:2
7
作者 汪丽娟 钱育蓉 +2 位作者 张猛 英昌甜 赵燚 《东北师大学报(自然科学版)》 CAS 北大核心 2020年第2期66-72,共7页
针对Flink平台下先来先服务任务调度算法忽略任务资源需求与节点可用资源之间的关系,导致不同节点任务负载不均,从而影响系统吞吐量的问题,提出了基于Flink流式计算环境下资源感知任务调度策略.首先,以GlobalState模块监测的资源数据为... 针对Flink平台下先来先服务任务调度算法忽略任务资源需求与节点可用资源之间的关系,导致不同节点任务负载不均,从而影响系统吞吐量的问题,提出了基于Flink流式计算环境下资源感知任务调度策略.首先,以GlobalState模块监测的资源数据为依据,考虑任务资源需求与节点可用资源间的匹配关系,提出一种任务选择算法与节点选择算法选取待执行任务与最佳调度节点;其次,通过资源感知调度策略把待执行任务调度至最佳调度节点;最后,通过实验验证算法的有效性.实验结果表明,相比Flink平台现有的调度算法,本文所提出的算法在大数据基准测试WordCount以及TeraSort下的吞吐量平均提高了约29.32%和35.86%. 展开更多
关键词 任务调度 资源感知 apache flink 流式计算 性能优化 负载均衡
下载PDF
面向Flink迭代计算的高效容错处理技术 被引量:7
8
作者 郭文鹏 赵宇海 +1 位作者 王国仁 韦刘国 《计算机学报》 EI CSCD 北大核心 2020年第11期2101-2118,共18页
迭代计算是相同逻辑的重复执行,在各种机器学习和数据挖掘方法中被广泛使用.在大数据的处理与分析领域中,分布式迭代计算更是当前的热点研究问题之一.容错机制是分布式系统高可用性的必要保证.现有分布式系统的容错机制虽然在高可用性... 迭代计算是相同逻辑的重复执行,在各种机器学习和数据挖掘方法中被广泛使用.在大数据的处理与分析领域中,分布式迭代计算更是当前的热点研究问题之一.容错机制是分布式系统高可用性的必要保证.现有分布式系统的容错机制虽然在高可用性上表现良好,但忽略了面向迭代计算的容错效率问题.本文针对批流混合大数据计算系统Apache Flink的迭代容错效率问题,进行了系统的研究.执行流处理任务时,Flink采用“分布式快照”的检查点机制来完成容错.对于海量数据的迭代分析,检查点增加了不必要的延迟.执行批处理任务时,Flink采用从头执行任务的方式来实现容错,该方式虽然实现简单,但带来了很大的时间开销.针对以上问题,本文首先提出了一种基于补偿函数的乐观迭代容错机制.该容错机制在迭代任务发生故障时采用乐观补偿的思想恢复任务,在迭代执行过程中不采用任何额外的容错手段(不会引入额外的容错开销),采用用户自定义的补偿函数收集健康节点上的迭代数据,并结合初始的迭代数据对故障节点上丢失的分区数据进行恢复,继续执行至迭代收敛状态,保证了迭代任务的高效顺利执行.由于乐观迭代容错机制并不保证得到的结果与无故障执行得到的结果完全一致,因此针对精度要求较高的迭代任务,本文结合Flink系统的迭代数据流模型,进一步提出一种基于头尾检查点悲观迭代容错机制.与传统的阻塞检查点(阻塞下游操作符)的工作方式不同,该容错机制以非阻塞的方式编写检查点,充分结合Flink迭代数据流的特点,将可变数据集的检查点注入迭代流本身.通过设计迭代感知,简化了系统架构,降低了检查点成本和故障恢复时间.本文基于Flink系统,在大量的真实数据集和模拟数据集上,从增量迭代和全量迭代两方面对提出的两种容错机制进行了全面的实验研究,验证了本文提出的迭代容错优化技术的高效性.实验结果证实,本文基于Flink系统提出的乐观容错机制和悲观容错机制在计算效率上均优于现有的分布式迭代容错机制.前者在全量迭代计算任务中运行时间最高可提升22.8%,在增量迭代计算任务中最高可提升33.8%;后者在全量迭代任务中最高可节省15.3%的时间开销,在增量迭代任务中最高可节省18.5%的时间开销. 展开更多
关键词 分布式迭代计算 apache flink 乐观容错 悲观容错 检查点
下载PDF
面向Flink迭代作业的动态资源分配策略 被引量:4
9
作者 岳晓飞 史岚 +2 位作者 赵宇海 季航旭 王国仁 《软件学报》 EI CSCD 北大核心 2022年第3期985-1004,共20页
新兴分布式计算框架ApacheFlink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种... 新兴分布式计算框架ApacheFlink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种基于运行时间预测的动态资源分配策略RABORP(resource allocation based on runtimeprediction),来为具有明确运行时限的Flink迭代作业制定动态资源分配计划并实施.其主要思想是:通过预测各个迭代超步的运行时间,然后根据预测结果在迭代作业提交时和超步间的同步屏障处分别进行资源的初始分配和动态调整,以保证可使用最小资源集,使迭代作业在用户规定的运行时限内完成.通过在不同数据集下执行多种典型的Flink迭代作业进行了相关对比实验,实验结果表明,所建立的运行时间预测模型能够对各个超步的运行时间进行准确预测,而且在单作业和多作业场景下,采用所提出的动态资源分配策略相比于目前最先进算法在各项性能指标上都有所提升. 展开更多
关键词 迭代作业 运行时间预测 资源分配 运行时限 apache flink
下载PDF
面向Flink的负载均衡任务调度算法的研究与实现 被引量:7
10
作者 李文佳 史岚 +1 位作者 季航旭 罗意彭 《计算机工程与科学》 CSCD 北大核心 2022年第7期1141-1151,共11页
Apache Flink是现在主流的大数据分布式计算引擎之一,其中任务调度问题是分布式计算系统中的关键问题。由于集群的异构性以及不同算子复杂度不同,大数据计算系统Flink中不可避免地会出现负载不均的情况,针对这种问题,提出了基于资源反... Apache Flink是现在主流的大数据分布式计算引擎之一,其中任务调度问题是分布式计算系统中的关键问题。由于集群的异构性以及不同算子复杂度不同,大数据计算系统Flink中不可避免地会出现负载不均的情况,针对这种问题,提出了基于资源反馈的负载均衡任务调度算法RFTS。通过实时资源监控、区域划分和基于人工萤火虫优化的任务调度算法3个模块,把负载过重的机器中处于等待状态的任务分配给负载较轻的机器,来实现集群的负载均衡,提高系统集群利用率和执行效率。最后通过基于TPC-C和TPC-H数据集的实验结果表明,RFTS算法从执行时间和吞吐量2个方面有效提升了Apache Flink计算系统的性能。 展开更多
关键词 apache flink 基于资源反馈的负载均衡任务调度算法 实时资源监控 区域划分 人工萤火虫优化算法
下载PDF
面向Flink流处理框架的主动备份容错优化 被引量:1
11
作者 刘广轩 黄山 +1 位作者 胡佳丽 段晓东 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第2期297-305,共9页
针对Flink任务出现故障后因为全局卷回使流处理作业恢复效率低的问题,提出基于缓存队列的容错策略.在作业中找出恢复时间最长的算子作为关键算子,将其处理过的数据存储到缓存队列中,并为其进行主动备份,备份算子同时接受来自上游的数据... 针对Flink任务出现故障后因为全局卷回使流处理作业恢复效率低的问题,提出基于缓存队列的容错策略.在作业中找出恢复时间最长的算子作为关键算子,将其处理过的数据存储到缓存队列中,并为其进行主动备份,备份算子同时接受来自上游的数据以达到在故障后作业可以瞬时恢复的效果.为了解决主动备份带来的额外消耗,提出数据过滤算法,备份算子在每次处理数据前会到缓存组件中检索当前数据,以判断是否继续处理.当Flink算子自身出现故障后,利用策略中的缓存队列与Flink的JobManager将故障发生时的数据信息发送给备份算子,在备份算子接收到数据后,实现即时恢复的效果.利用4项评价指标对策略进行评估,结果表明,与Flink1.8的故障恢复模式相比,所提策略在Flink任务故障恢复速度上有显著提升,当故障次数分别为1、2、3、4时,恢复效率分别提高56.3%、51.3%、46.2%和45.8%;而在处理时延、CPU利用率以及内存使用率方面仅产生极小的代价. 展开更多
关键词 apache flink 流处理容错 主动备份 故障恢复 缓存队列
下载PDF
基于Flink流处理框架的FFT并行及优化
12
作者 钟旭阳 徐云 《信息技术与网络安全》 2021年第8期53-59,共7页
FFT作为雷达信号处理的关键计算步骤之一,本质上是一个基于数据流的处理过程。以往的FFT计算大多集中在通用计算平台上进行并行计算实现,计算系统存在扩展性和鲁棒性问题。随着科学计算应用在Flink上的逐渐兴起,将FFT在Flink上进行并行... FFT作为雷达信号处理的关键计算步骤之一,本质上是一个基于数据流的处理过程。以往的FFT计算大多集中在通用计算平台上进行并行计算实现,计算系统存在扩展性和鲁棒性问题。随着科学计算应用在Flink上的逐渐兴起,将FFT在Flink上进行并行和优化,不仅可以很好地利用框架自身良好的系统扩展性和鲁棒性,同时也能使其具备高吞吐的实时性能。基于Flink对FFT流处理算法流程进行了设计和优化,同时针对Flink对适用于FFT计算的缓存窗口机制进行了设计,实验结果表明,改进后FFT并行算法在多个大规模点数下计算速度均有所提高。 展开更多
关键词 FFT并行 雷达信号处理 分布式流处理 apache flink
下载PDF
基于Flink的分布式推荐系统 被引量:1
13
作者 郑江文 赵超 《信息与电脑》 2022年第19期108-112,共5页
随着不断扩张的数据量,传统推荐系统面临着计算效率低、实时推荐速度较慢、推荐效果不够理想等情况。针对上述问题,使用新一代流式计算引擎ApacheFlink作为推荐的计算平台,结合Hadoop、Hive、Redis、ZooKeeper和Kafka等大数据开源技术... 随着不断扩张的数据量,传统推荐系统面临着计算效率低、实时推荐速度较慢、推荐效果不够理想等情况。针对上述问题,使用新一代流式计算引擎ApacheFlink作为推荐的计算平台,结合Hadoop、Hive、Redis、ZooKeeper和Kafka等大数据开源技术构建分布式推荐系统。同时,使用Alink提高离线推荐算法在分布式场景的效率;改进实时推荐算法,利用用户最近历史评分,融入时间衰减函数,生成TOP-N实时推荐列表。结果表明,推荐结果的准确率、召回率以及归一化折损累计增益等指标都有较好地提升,改进后算法有更好的推荐效果。 展开更多
关键词 apache flink 协同过滤 Alink 时间衰减函数 推荐系统
下载PDF
基于禁忌搜索的流式计算平台负载均衡策略
14
作者 王英杰 李梓杨 +1 位作者 于炯 陈鹏程 《计算机应用研究》 CSCD 北大核心 2023年第12期3701-3705,共5页
针对大数据流式计算平台原生调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图... 针对大数据流式计算平台原生调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图(directed acyclic graph, DAG),并将每个任务槽(task slot)抽象为节点,为计算节点的性能评估奠定基础;其次,通过建立性能评估模型,将有向无环图中带性能权值的节点导入性能评估模型进行归一化处理,得到节点性能的优劣;再将评估参数传入禁忌调度算法(tabu search for schedule, TBS)进行作业路径优化,从而得出最优作业路径;最后,使用Flink平台提供的CustomPatitionerWrapper接口将数据分配到最优作业路径包含的节点中,完成计算负载的均衡分配,从而提升Flink平台的整体性能。实验结果表明:通过禁忌调度算法优化后的负载均衡策略与原生的Flink平台相比,平均计算延迟降低了10~20 ms,资源利用率显著提高,平均吞吐量提升约15%,有效证明了负载均衡策略的有效性和优化效果。 展开更多
关键词 流式计算 apache flink 负载均衡 性能评估 禁忌搜索算法
下载PDF
一种基于流式计算的无人船路径规划算法 被引量:1
15
作者 吕太之 张军 陈勇 《船舶工程》 CSCD 北大核心 2021年第S01期348-352,共5页
为了提高无人船路径规划的效率,利用流式计算高实时性模式,在云端构建流式计算框架,分布式完成路径规划。基于5G通信,云端与无人船之间采用Kafka组件进行消息的传递。在云端,将路径规划分为地图生成、路径搜索和路径平滑三个步骤,通过... 为了提高无人船路径规划的效率,利用流式计算高实时性模式,在云端构建流式计算框架,分布式完成路径规划。基于5G通信,云端与无人船之间采用Kafka组件进行消息的传递。在云端,将路径规划分为地图生成、路径搜索和路径平滑三个步骤,通过流式计算集群并行执行任务。为了逃离局部陷阱,在云端增加环境记忆功能。仿真环境下,对比几种传统路径规划算法,所提出算法规划的路径质量更高,执行时间更短。真实环境下的实验验证了算法的可行性和有效性。 展开更多
关键词 无人船 流式计算 路径规划 apache flink 可视图 分布式并行处理
下载PDF
面向流式数据处理系统的高效故障恢复方法 被引量:2
16
作者 刘阳 张扬扬 周号益 《计算机应用》 CSCD 北大核心 2022年第11期3337-3345,共9页
针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同... 针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同步;最后,在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中,Flink+在无故障运行时没有显著增加额外容错开销;而在单机和分布式环境下处理单点故障时,与Flink系统相比,所提系统在单机8任务并行度下故障恢复时间减少了96.98%,在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明,增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间,增强系统的鲁棒性。 展开更多
关键词 流式数据处理系统 故障恢复 分布式检查点 状态备份 apache flink
下载PDF
一种分布式异构带宽环境下的高效数据分区方法 被引量:6
17
作者 马卿云 季航旭 +2 位作者 赵宇海 毛克明 王国仁 《计算机研究与发展》 EI CSCD 北大核心 2020年第12期2683-2693,共11页
在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立... 在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立了节点间的数据传输模型,该模型以降低数据传输时间为目标,根据各节点的上下行带宽和初始数据量大小,计算出各节点的最优数据分发比例.以该模型为基础,设计了基于带宽的数据分区方法,该数据分区方法使得各节点按最优数据分发比例来分配数据.最后在Apache Flink框架中将基于带宽的数据分区方法进行了实现,并通过实验进行了验证.实验结果表明:异构带宽条件下,基于带宽的数据分区方法可以有效减少数据分区所需的时间. 展开更多
关键词 数据分区 apache flink 负载均衡 异构带宽 分布式系统
下载PDF
基于流处理改进的SK-means策略 被引量:1
18
作者 姜晓艳 张伟 +1 位作者 王佳慧 马利民 《北京信息科技大学学报(自然科学版)》 2021年第5期51-56,共6页
针对大规模数据场景下K-means聚类算法存在总体速度较慢的问题,提出了一种基于大数据流计算框架Apache Flink,并结合流处理思想的SK-means策略。从算法优化方面,采用流处理的思想在数据读入的过程中确定聚类的初始聚类中心;从实现方案上... 针对大规模数据场景下K-means聚类算法存在总体速度较慢的问题,提出了一种基于大数据流计算框架Apache Flink,并结合流处理思想的SK-means策略。从算法优化方面,采用流处理的思想在数据读入的过程中确定聚类的初始聚类中心;从实现方案上,选用Apache Flink框架设计了一种基于SK-means策略的优化方案,分析该策略对聚类效果和耗时的影响。实验结果表明:该策略在数据量较大的场景中有较好的优化效果,不需要预先假设出聚类数量和初始聚类中心的具体值,有效地降低了聚类迭代次数,降低了整体计算耗时。 展开更多
关键词 聚类算法 K-MEANS 流处理 大数据 apache flink
下载PDF
分布式环境下大规模维表关联技术优化 被引量:2
19
作者 赵恒泰 赵宇海 +3 位作者 袁野 季航旭 乔百友 王国仁 《计算机科学与探索》 CSCD 北大核心 2022年第2期337-347,共11页
分布式环境下大规模维表关联技术是当前在线大数据分析的关键技术之一,其广泛应用于实时推荐、实时分析等领域。维表关联是指将流数据和离线存储的维表数据进行关联,并根据这种关联进行数据处理。首先,对已有的维表连接技术方案进行了研... 分布式环境下大规模维表关联技术是当前在线大数据分析的关键技术之一,其广泛应用于实时推荐、实时分析等领域。维表关联是指将流数据和离线存储的维表数据进行关联,并根据这种关联进行数据处理。首先,对已有的维表连接技术方案进行了研究,调研了相关的优化技术和主流分布式引擎的设计路线,主要通过优化维表数据查询提高性能,但传统的优化方式受到维表规模和数据流速的限制。其次,针对已有优化技术在分布式环境下对集群整体考虑使用的不足,提出了适用于对离线的批数据和实时的流数据进行混合计算的计算模型,然后提出了一种单点读取维表数据,切分后进行分发和计算的维表关联数据方式,并优化了维表关联计算逻辑,使之能适应更高的维表规模,且不再局限于对数据的连接。最后,在流计算引擎Apache Flink上实现了提出的维表关联技术和传统维表关联技术,通过实验在阿里巴巴“双十一”产生的数据上对吞吐量和延迟进行了对比,证明了对面向分布式流计算的维表关联技术的优化的有效性。 展开更多
关键词 分布式计算 维表关联 缓存技术 apache flink
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部