期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于Spark Streaming的气象自动站实时流处理与存储系统 被引量:1
1
作者 马彬 李玉涛 许琪 《计算机技术与发展》 2023年第3期207-214,共8页
在当前大数据技术蓬勃发展的时代,人们对气象数据的实时处理、数据质量、数据存储及大规模查询等要求也越来越高。针对现有气象自动站数据业务落地环节多,任务处理耦合紧但系统部署分散等问题,文中基于Spark Streaming的流式计算框架,... 在当前大数据技术蓬勃发展的时代,人们对气象数据的实时处理、数据质量、数据存储及大规模查询等要求也越来越高。针对现有气象自动站数据业务落地环节多,任务处理耦合紧但系统部署分散等问题,文中基于Spark Streaming的流式计算框架,研究使用Flume解析收集自动站原始数据,在Spark Streaming中设计融入自动站数据质控算法,最终通过对分布式数据库存储的表设计,使气象自动站数据具备高效率、高质量、高可靠的应用服务能力。性能测试结果表明,基于Spark Streaming的气象自动站数据实时流处理与存储系统,数据从文件采集、解码、流处理至入库的全流程能够在秒级完成,TB级数据查询响应为毫秒级,加权查询为秒级,完全满足自动站数据业务应用需求,从而为进一步提高气象自动站数据质量与服务水平提供基础支撑。 展开更多
关键词 气象自动站数据 spark streaming 实时处理 FLUME 分布式数据库
下载PDF
一种基于深度强化学习的Spark Streaming参数优化方法 被引量:1
2
作者 刘露 申国伟 +3 位作者 郭春 崔允贺 蒋朝惠 伍大勇 《计算机与现代化》 2021年第10期49-56,62,共9页
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经... Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。 展开更多
关键词 spark streaming 性能优化 深度强化学习 参数调优
下载PDF
Flink和Spark Streaming流式计算模型比较分析 被引量:9
3
作者 宋灵城 《通信技术》 2020年第1期59-62,共4页
数据时代的到来,使数据成为一种重要的战略资源。如何更好地利用这些数据,成为摆在政府、学者和工程师等人面前的一大难题。随着大数据和物联网的发展进步,数据量呈爆发式增长,随之而来的关于数据存储、计算和分析的问题急需解决。因此... 数据时代的到来,使数据成为一种重要的战略资源。如何更好地利用这些数据,成为摆在政府、学者和工程师等人面前的一大难题。随着大数据和物联网的发展进步,数据量呈爆发式增长,随之而来的关于数据存储、计算和分析的问题急需解决。因此,主要对Spark Streaming和Flink两个流式计算模型进行对比研究,从原理、实现机制和使用场景等角度进行多维度对比分析,以期使用者能结合自己的业务场景,更好地选择适合的流式计算框架。 展开更多
关键词 流式计算 spark streaming Flink 物联网 数据量
下载PDF
基于Spark Streaming实时推荐系统的研究与设计 被引量:5
4
作者 刘宇 周虎 《计算机与数字工程》 2020年第5期1172-1175,共4页
随着互联网的普及,人们面临着大量的信息,但是有效的信息较少[1],这就造成了人们获得有效的信息困难的问题,因此推荐系统就尤为重要,论文提出了一种基于Spark Streaming实时、动态的推荐系统。论文主要研究的是:1)提出了一种基于Spark S... 随着互联网的普及,人们面临着大量的信息,但是有效的信息较少[1],这就造成了人们获得有效的信息困难的问题,因此推荐系统就尤为重要,论文提出了一种基于Spark Streaming实时、动态的推荐系统。论文主要研究的是:1)提出了一种基于Spark Streaming的实时推荐系统。2)研究了Spark数据倾斜、内存分配不均和卡顿问题,提出了一种根据Task大小分多级应用执行的策略。3)研究了基于模型的协同过滤算法,以及实时推荐系统的可行性并详细讲解ALS(交替最小二乘法)的思想,然后在Spark Streaming框架上运用ALS算法进行测试,评估实时推荐中算法的可靠性。 展开更多
关键词 Kafka spark streaming 协同过滤算法 实时推荐
下载PDF
基于Spark Streaming的实时数据处理系统设计与实现 被引量:6
5
作者 施炤 《现代信息科技》 2020年第20期10-12,共3页
一般的大数据平台在历史数据处理方面大多都是先通过一些数据导入工具比如Sqoop、DataX等进行数据全量导入,而实时数据处理更加关注的是数据的实时性。针对实时数据处理问题,文章基于Spark Streaming设计实现了一种实时数据处理系统,能... 一般的大数据平台在历史数据处理方面大多都是先通过一些数据导入工具比如Sqoop、DataX等进行数据全量导入,而实时数据处理更加关注的是数据的实时性。针对实时数据处理问题,文章基于Spark Streaming设计实现了一种实时数据处理系统,能够实现高效的实时数据接入、传输、计算校验和存储。该系统具有实时数据获取、实时数据计算、实时数据存储等特点,为进一步从实时数据中获取有效信息提供了必要的基础支撑。 展开更多
关键词 实时 FLUME Kafka spark streaming HBASE
下载PDF
基于Spark Streaming的并行K-means改进算法研究 被引量:1
6
作者 宋国兴 张清伟 +2 位作者 郑明钊 杜飞 陈彬 《现代计算机》 2021年第18期68-71,共4页
K-means聚类算法作为一种经典的聚类算法被广泛应用,但是传统聚类算法在对实时性聚类要求较高的场景已经不适用,特别是在基于聚类的一些实时推荐算法中。本文通过Spark Streaming框架对传统K-means聚类过程广播共享聚类中心并使用KD树... K-means聚类算法作为一种经典的聚类算法被广泛应用,但是传统聚类算法在对实时性聚类要求较高的场景已经不适用,特别是在基于聚类的一些实时推荐算法中。本文通过Spark Streaming框架对传统K-means聚类过程广播共享聚类中心并使用KD树对迭代过程进行二次优化。实验结果表明优化改进后的K-means聚类算法能够明显提升收敛效率和降低聚类时间,能够满足对实时性聚类的要求。 展开更多
关键词 K-MEANS聚类 实时性聚类 KD树 spark streaming框架
下载PDF
基于Spark Streaming的车辆电子围栏技术实现与应用
7
作者 吴宇昊 《西部交通科技》 2024年第5期177-179,共3页
文章提出一种基于Spark Streaming实时数据流处理框架,使用Kafka作为车辆轨迹数据的消息队列服务,结合拓扑关系判断算法射线法的车辆电子围栏技术。应用表明,该技术能够处理高吞吐率、强实时性的车辆动态数据,满足车辆动态精细化监管需求。
关键词 电子围栏 spark streaming Kafka 射线法
下载PDF
基于Spark Streaming、Kafka构建数据中心加工引擎的实践 被引量:2
8
作者 叶惠仙 《网络安全技术与应用》 2023年第3期51-53,共3页
本文针对数据加工目前存在无法对变动的数据进行实时的数据捕捉、变换以及投递到程序进行数据计算,数据的实时计算力比较差,对数据缓冲的效率不高,不能控制数据流速度。在大量数据查询的情况,效率不高,性能不佳等问题。提出用OGG(Oracle... 本文针对数据加工目前存在无法对变动的数据进行实时的数据捕捉、变换以及投递到程序进行数据计算,数据的实时计算力比较差,对数据缓冲的效率不高,不能控制数据流速度。在大量数据查询的情况,效率不高,性能不佳等问题。提出用OGG(Oracle Golden Gate)For Big Data整合Spark Streaming以及Kafka实现高可靠、高效、实时、高扩展性的数据加工引擎,实现数据的实时加工到数据集市中。并经过一系列加工、整理和汇总来满足数据处理的需要,并对业务数据通过实时同步加工整合记录数据,按需设计,形成各异依据应用。 展开更多
关键词 OGG For Big Data spark streaming Kafka 数据集市 加工引擎
原文传递
基于Spark Sreaming网站流量实时分析系统的设计与实现 被引量:1
9
作者 刘珍 方明 《智能计算机与应用》 2019年第6期201-205,共5页
针对互联网技术快速发展,用户对各种网站访问量急剧加大,日志数据急剧增加的现状,采用Hbase数据库,Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架,设计实现基于Spark Sreaming的网站流量实时分析系统,深入探讨了网站... 针对互联网技术快速发展,用户对各种网站访问量急剧加大,日志数据急剧增加的现状,采用Hbase数据库,Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架,设计实现基于Spark Sreaming的网站流量实时分析系统,深入探讨了网站流量的分析角度和指标,展示了网站的运营情况,从而引导网站开发、运营人员作出相关决策来改进网站的服务,为网站维护、制定网站营销策略提供有力的依据。 展开更多
关键词 spark streaming 网站流量分析 HBASE Kafka
下载PDF
基于物联网的数控机床群状态监测研究 被引量:1
10
作者 宋宜璇 童一飞 +1 位作者 缪方雷 李东波 《机械设计与制造工程》 2023年第6期13-18,共6页
为提高数控机床群的加工效率和管理水平,对数控机床群状态监测进行研究,提出了基于物联网传输技术的状态监测方法。通过调用FOCAS库函数实现多线程数据采集,运用Spark Streaming大数据处理框架,结合Kafka等组件对采集的数据进行指标分析... 为提高数控机床群的加工效率和管理水平,对数控机床群状态监测进行研究,提出了基于物联网传输技术的状态监测方法。通过调用FOCAS库函数实现多线程数据采集,运用Spark Streaming大数据处理框架,结合Kafka等组件对采集的数据进行指标分析,采用MySQL数据库实现状态数据及数据指标的持久化。该方法能够用于对数控机床群的分散监测、集中管理和资源共享,为数控机床群的统一高效管理提供了新思路。 展开更多
关键词 数控机床群 物联网 FOCAS spark streaming
下载PDF
基于DBSCAN聚类的热能发电大数据异常检测模型 被引量:2
11
作者 郭莉 吴晨 薛贵元 《工业加热》 CAS 2023年第1期35-38,48,共5页
为了解决热能发电大数据异常检测时,存在误报率高、检测率低和漏报率高的问题,提出了基于DBSCAN聚类的热能发电大数据异常检测模型。首先通过时间序列模型对原始发电大数据进行异常值修正,然后将修正后的数据归一化处理,最后基于Spark S... 为了解决热能发电大数据异常检测时,存在误报率高、检测率低和漏报率高的问题,提出了基于DBSCAN聚类的热能发电大数据异常检测模型。首先通过时间序列模型对原始发电大数据进行异常值修正,然后将修正后的数据归一化处理,最后基于Spark Streaming设计Streaming DBSCAN算法,结合历史数据和相似发电厂数据的聚类特征,完成热能发电异常数据的检测。实验结果表明,所提方法可以有效降低误报率和漏报率、提高检测率并准确地获取异常值。 展开更多
关键词 热能发电 DBSCAN聚类 数据异常 归一化处理 spark streaming
下载PDF
基于大数据驱动的船舶航行轨迹异常检测研究
12
作者 熊志文 《舰船科学技术》 北大核心 2023年第5期152-155,共4页
船舶安全航行是航海领域重点关注的问题之一,为此研究基于大数据驱动的船舶航行轨迹异常检测方法。该方法利用不同类型传感器获取船舶航行大数据,然后使用船舶观测大数据相似度方程计算船舶航行大数据之间的相似度,得到来自同一船舶的... 船舶安全航行是航海领域重点关注的问题之一,为此研究基于大数据驱动的船舶航行轨迹异常检测方法。该方法利用不同类型传感器获取船舶航行大数据,然后使用船舶观测大数据相似度方程计算船舶航行大数据之间的相似度,得到来自同一船舶的航行大数据;再利用大数据驱动技术中的聚类方法建立船舶正常轨迹模型,获取船舶航行正常轨迹;依据船舶航行正常轨迹,利用大数据驱动技术内的Spark Streaming数据实时计算框架,通过计算船舶航行轨迹点与实际轨迹采样点之间的距离、航向角等,得到船舶航行轨迹异常检测结果。实验结果表明,该方法获取船舶航行实际轨迹精度较高,可有效检测船舶航行轨迹异常,具备较好的应用效果。 展开更多
关键词 大数据驱动 船舶航行轨迹 异常检测 spark streaming框架 聚类方法
下载PDF
基于改进模糊C均值算法的网络入侵检测研究 被引量:2
13
作者 郑美容 《信息与电脑》 2021年第22期72-74,共3页
近年来,随着大数据技术的快速发展,大数据处理平台迅速兴起。大数据处理平台具有高吞吐量、网络协议多、端口多、数据量大、高并发等特征,借助传统入侵检测技术很难实时监控网络危险。为提高网络入侵检测的准确率和实时性,笔者提出一种... 近年来,随着大数据技术的快速发展,大数据处理平台迅速兴起。大数据处理平台具有高吞吐量、网络协议多、端口多、数据量大、高并发等特征,借助传统入侵检测技术很难实时监控网络危险。为提高网络入侵检测的准确率和实时性,笔者提出一种改进模糊C均值算法,对分类后的数据集进行训练,使用Kafka技术处理采集的数据,通过Spark Streaming读取网络实时传输的数据流,并对检测到的入侵数据进行实时检测。 展开更多
关键词 大数据处理平台 模糊C均值算法 Kafka spark streaming
下载PDF
智慧供热大数据监测平台研究及应用 被引量:7
14
作者 李恩洲 况立群 +2 位作者 张元 韩燮 熊风光 《计算机技术与发展》 2021年第11期176-182,188,共8页
针对供热环境在城市间一体化程度的提高而引发的设备种类繁多、采集信息量大、数据类型多样化、处理和分析困难以及各设备数据信息展示不直观的问题,研发并实现了一种智慧供热大数据监测平台,并在山西省供热体系中进行了应用。平台以云... 针对供热环境在城市间一体化程度的提高而引发的设备种类繁多、采集信息量大、数据类型多样化、处理和分析困难以及各设备数据信息展示不直观的问题,研发并实现了一种智慧供热大数据监测平台,并在山西省供热体系中进行了应用。平台以云计算为基础架构,采用基于React的前端技术,将开发模块组件化,并通过构建虚拟DOM(虚拟文档对象)机制解决了因复杂和频繁的DOM操作引发的性能瓶颈问题。针对供热设备产生数据的结构特点,研发基于kafka+Spark Streaming的数据清洗方案,解决了因数据量大、种类多样化而产生的数据处理效率、存储设备压力以及实时数据传输问题。此外,平台还提供了定制化的可视化界面,并且通过数据分批处理机制,解决了实时数据和大数据量展示过程中响应慢的问题。 展开更多
关键词 智慧供热 监测 React 可视化 B/S kafka spark streaming
下载PDF
基于大数据技术的实时卫星数据监视系统的设计与实现 被引量:1
15
作者 张晓 孙超 +2 位作者 王旻燕 陈文琴 曾乐 《自动化技术与应用》 2022年第9期63-68,共6页
实时气象卫星数据存在多源异构、高时效性等特点,使得气象部门不易及时发现实时卫星数据在传输过程中的各种问题,对下游实时卫星数据用户的服务也有一定影响。为了提高对实时气象卫星数据的监视能力,基于Rest API、Kafka消息队列、Spark... 实时气象卫星数据存在多源异构、高时效性等特点,使得气象部门不易及时发现实时卫星数据在传输过程中的各种问题,对下游实时卫星数据用户的服务也有一定影响。为了提高对实时气象卫星数据的监视能力,基于Rest API、Kafka消息队列、Spark Streaming、Redis缓存等大数据技术在国家级气象业务环境中搭建了实时卫星数据监视流程,对卫星数据进行统一编码,从而实现对全球各种实时卫星数据根据不同来源、不同卫星、不同仪器进行精细化的全流程监视,并基于气象大数据云平台、气象综合业务实时监控系统等业务系统增加了监视告警功能。 展开更多
关键词 卫星数据 监视系统 Rest API Kafka spark streaming REDIS
下载PDF
基于数字图书馆公共资源管理平台的实时日志分析系统的设计与应用 被引量:1
16
作者 莫恭钿 韦端 《广西民族大学学报(自然科学版)》 CAS 2020年第1期87-91,共5页
数字图书馆作为一种全面、高效、便捷的公共资源管理平台正在得到广泛的应用,随之而来网络用户访问流量的不断增大,让数字图书馆公共资源管理平台面临了巨大的网络安全风险.为解决数字图书馆公共资源管理平台在投入使用过程中遭受网站... 数字图书馆作为一种全面、高效、便捷的公共资源管理平台正在得到广泛的应用,随之而来网络用户访问流量的不断增大,让数字图书馆公共资源管理平台面临了巨大的网络安全风险.为解决数字图书馆公共资源管理平台在投入使用过程中遭受网站恶意攻击、网页挂马等系统安全问题,使用Spark Streaming技术设计一个实时日志分析系统,对网站平台进行实时日志分析.该系统具有实时性、功能针对性强、操作简便等特点.经过运行测试,能够对数字图书馆公共资源管理平台的运行起到保驾护航的作用. 展开更多
关键词 数字图书馆 实时日志分析 spark streaming Nginx服务器 Kafka集群
下载PDF
基于流计算框架的对比实验研究 被引量:2
17
作者 韩雨轩 李盼颖 +2 位作者 温秀梅 马兆辉 张书玮 《河北建筑工程学院学报》 CAS 2021年第2期145-150,共6页
大数据时代背景下,某些领域对数据实时处理的需求日益加剧,实时流计算框架作为一种新的热门技术,在诸如Web应用、网络监控等领域扮演着重要角色。首先对时下两种应用广泛的流式计算框架Storm和Spark Streaming进行原理分析,并通过实时... 大数据时代背景下,某些领域对数据实时处理的需求日益加剧,实时流计算框架作为一种新的热门技术,在诸如Web应用、网络监控等领域扮演着重要角色。首先对时下两种应用广泛的流式计算框架Storm和Spark Streaming进行原理分析,并通过实时词频统计实验,分析这两种框架的结构和工作流程,对比分析了两种框架之间的不同点,最后对基于Spark Streaming的实验进行了改进,将Spark Streaming、Flume和Kafka进行了整合,实现在集群环境中的流数据处理。 展开更多
关键词 流计算 STORM spark streaming 词频统计
下载PDF
基于模式识别和集成CNN-LSTM的阵发性房颤预测模型 被引量:13
18
作者 杨萍 王丹 +3 位作者 康子健 李童 付利华 余悦任 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第5期1039-1048,共10页
为了适用于长期心电监护和ICU等实时性、数据密集型应用场合,提出可在8 Hz采样频率的1 min心电图(ECG)片段上提前45 min预测阵发性房颤(PAF)发作的实时预测模型.采用概率符号化模式识别方法,在降采样后的ECG序列上提取出1 min窗口内的... 为了适用于长期心电监护和ICU等实时性、数据密集型应用场合,提出可在8 Hz采样频率的1 min心电图(ECG)片段上提前45 min预测阵发性房颤(PAF)发作的实时预测模型.采用概率符号化模式识别方法,在降采样后的ECG序列上提取出1 min窗口内的模式转移特征,降低模型的计算量和对存储空间的需求,确保实时预测的效果.提出卷积神经网络(CNN)和长短-期记忆网络(LSTM)的混合模型(CNN-LSTM),用于提取模式转移特征内隐含的局部空间特征和时间依赖特征.为了提升模型泛化能力,构建基于CNN-LSTM的集成分类器.采用Spark Streaming技术完成对ECG流式数据的读、写和计算,实现数据和模型之间的低延迟通信.所提模型在公开数据集上的准确率、灵敏度和特异度分别为91.26%、82.21%、95.79%.模型处理总延迟平均为2 s,满足实时PAF预测需求. 展开更多
关键词 阵发性房颤 心电图(ECG) 预测 概率符号化模式识别 卷积神经网络(CNN) 长短-期记忆网络(LSTM) spark streaming
下载PDF
基于用户历史行为序列的电商个性化推荐系统 被引量:1
19
作者 刘丰维 《科技创新与应用》 2021年第33期59-62,共4页
随着大数据、云计算及人工智能等技术的快速发展,推荐系统在电商平台中扮演着愈加重要的角色,在用户留存、GMV提升等方面有显著贡献。电商平台商品规模为百万级别,用户数量为千万级别,用户行为成为分析用户偏好的主要因素,因此针对用户... 随着大数据、云计算及人工智能等技术的快速发展,推荐系统在电商平台中扮演着愈加重要的角色,在用户留存、GMV提升等方面有显著贡献。电商平台商品规模为百万级别,用户数量为千万级别,用户行为成为分析用户偏好的主要因素,因此针对用户个人的个性化推荐成为电商推荐系统重点研究方向。文章设计了电商领域基于用户行为的个性化推荐系统,实现对用户行为的实时采集、用户偏好的实时计算。根据用户实时偏好,对协同过滤、相似商品、热度等多召回源进行重排,生成实时推荐结果。经过线上验证,文章设计开发的个性化推荐系统比人工配置在CTR指标上提升了100%以上。 展开更多
关键词 个性化推荐 spark streaming 用户行为 电商平台 实时推荐
下载PDF
基于大数据技术的分布式电商信息实时展示系统的设计与实现 被引量:1
20
作者 李云鹏 《信息记录材料》 2022年第9期227-230,共4页
近年来,随着大数据技术的不断发展,人们更加关注实时数据的价值。电商行业的飞速发展使得用户行为数据呈爆炸式增长,从海量数据中实时提取关键信息,有利于电商平台进行服务升级。本文借助大数据相关技术(Spark Streaming+Kafka+Websocke... 近年来,随着大数据技术的不断发展,人们更加关注实时数据的价值。电商行业的飞速发展使得用户行为数据呈爆炸式增长,从海量数据中实时提取关键信息,有利于电商平台进行服务升级。本文借助大数据相关技术(Spark Streaming+Kafka+Websocket+Scrapy),以模块化的设计思路,构建了分布式电商信息实时展示系统。 展开更多
关键词 大数据技术 spark streaming框架 流计算 可视化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部