期刊文献+
共找到24,082篇文章
< 1 2 250 >
每页显示 20 50 100
基于Spark Streaming的海量GPS数据实时地图匹配算法
1
作者 陈艳艳 李四洋 张云超 《计算机应用研究》 CSCD 北大核心 2024年第5期1338-1342,共5页
浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高... 浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高匹配精度和运算效率。为构建一种面向实时数据流的高效、准确实时地图匹配算法,首先通过引入速度、方向综合权重因子对依赖历史轨迹的离线地图匹配算法进行重构,进而引入Spark Streaming分布式计算框架,实现地图匹配算法的实时、并行运算,大幅提升实时地图匹配效率。实验结果表明,该算法在复杂路段的匹配准确率较常规拓扑匹配算法提高10%以上,整体匹配准确率达到95%以上;在匹配效率方面,较同等数量的单机服务器效率可提高4倍左右。实验结果表明,该算法在由11台机器组成的计算集群上实现8000万个GPS数据点的实时地图匹配,证明了该算法可以完成城市地区的实时车辆匹配。 展开更多
关键词 海量 GPS 并行计算 地图匹配 实时计算 spark
下载PDF
基于Spark Streaming的车辆电子围栏技术实现与应用
2
作者 吴宇昊 《西部交通科技》 2024年第5期177-179,共3页
文章提出一种基于Spark Streaming实时数据流处理框架,使用Kafka作为车辆轨迹数据的消息队列服务,结合拓扑关系判断算法射线法的车辆电子围栏技术。应用表明,该技术能够处理高吞吐率、强实时性的车辆动态数据,满足车辆动态精细化监管需求。
关键词 电子围栏 spark streaming Kafka 射线法
下载PDF
基于Spark Streaming的实时数据分析系统及其应用 被引量:30
3
作者 韩德志 陈旭光 +2 位作者 雷雨馨 戴永涛 张肖 《计算机应用》 CSCD 北大核心 2017年第5期1263-1269,共7页
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一... 为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDo S)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDo S攻击,缩短了攻击的检测时间。 展开更多
关键词 spark streaming框架 分布式流处理 网络数据分析 分布式拒绝服务攻击
下载PDF
使用Spark Streaming的自适应实时DDoS检测和防御技术 被引量:10
4
作者 方峰 蔡志平 +2 位作者 肇启佳 林加润 朱明 《计算机科学与探索》 CSCD 北大核心 2016年第5期601-611,共11页
分布式拒绝服务(distributed denial of service,DDoS)攻击是重要的安全威胁,网络速度的不断提高给传统的检测方法带来了新的挑战。以Spark等为代表的大数据处理技术,给网络安全的高速检测带来了新的契机。提出了一种基于Spark Streamin... 分布式拒绝服务(distributed denial of service,DDoS)攻击是重要的安全威胁,网络速度的不断提高给传统的检测方法带来了新的挑战。以Spark等为代表的大数据处理技术,给网络安全的高速检测带来了新的契机。提出了一种基于Spark Streaming框架的自适应实时DDoS检测防御技术,通过对滑动窗口内源簇进行分组,并根据与各分组内源簇比例的偏差统计,检测出DDoS攻击流量。通过感知合法的网络流量,实现了对DDoS攻击的自适应快速检测和有效响应。实验结果表明,该技术可极大地提升检测能力,为保障网络服务性能和安全检测的可扩展性提供了一种可行的解决方案。 展开更多
关键词 DDOS检测 DDOS防御 实时检测 自适应检测 spark streaming
下载PDF
基于Spark Streaming流回归的煤矿瓦斯浓度实时预测 被引量:11
5
作者 吴海波 施式亮 念其锋 《中国安全生产科学技术》 CAS CSCD 北大核心 2017年第5期84-89,共6页
为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达... 为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达到秒级,提高了瓦斯浓度预测精度,满足流式大数据处理的实时性要求。实验表明:应用Spark Streaming流回归预测系统在采样周期为5s的瓦斯监测数据流上进行实时预测时,预测平均均方根误差随模型更新周期的缩短而减小,模型更新周期可达15s,且更新周期为45s时预测总均方根误差最小,既能保证预测精度,又能提高瓦斯灾害预警时效。 展开更多
关键词 监测数据 流数据 瓦斯浓度 spark streaming 流回归 实时预测 灾害预警
下载PDF
Spark Streaming动态资源分配策略 被引量:6
6
作者 刘备 谭新明 曹文彬 《计算机应用》 CSCD 北大核心 2017年第6期1574-1579,共6页
针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数... 针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数据反馈和应用全局变量;然后,进行资源增减计算;最后,进行资源增减执行。实验结果表明,所提策略能够有效调整应用资源配额,且在稳定数据流和不稳定数据流两种情况下,其处理延时相比原Spark平台的Streaming策略和Core策略都有所降低;同时该策略也能够提高集群资源利用率。 展开更多
关键词 spark 实时数据流 多应用 动态资源分配
下载PDF
基于Spark Streaming的实时能耗分项计量系统 被引量:9
7
作者 武志学 《计算机应用》 CSCD 北大核心 2017年第4期928-935,共8页
能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生... 能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生快、实时性强、数据量大,所以很难统一采集并入库存储后再作处理,这便导致传统的数据处理架构不能满足需求。为此,提出基于Spark Streaming大数据流式技术构建一个实时能耗分项计量系统,对实时能耗分项计量的系统架构和内部结构进行了详细介绍,并通过实验数据分析了系统的实时数据处理能力。与传统架构不同,实时能耗分项计量系统在数据流动的过程中实时地进行捕捉和处理,一方面把捕捉到的异常信息及时报警到前端,同时把分类分项统计处理的结果保存到数据库,以便进行离线分析和数据挖掘,能有效地解决上述数据处理过程中遇到的问题。 展开更多
关键词 流式计算 能耗分项计量 spark streaming APACHE Kafka 大数据
下载PDF
基于Spark Streaming的视频/图像流处理与新的性能评估方法 被引量:10
8
作者 黄文辉 冯瑞 《计算机工程与科学》 CSCD 北大核心 2015年第11期2055-2060,共6页
智能视频监控技术在公共安全、交通管理、智慧城市等方面有着广泛的运用前景,需求日益增长。随着摄像头安装的数量越来越多,采集的图像数据量越来越大,靠单台计算机处理已经远远不能满足需求了。分布式计算的兴起与发展为解决大规模的... 智能视频监控技术在公共安全、交通管理、智慧城市等方面有着广泛的运用前景,需求日益增长。随着摄像头安装的数量越来越多,采集的图像数据量越来越大,靠单台计算机处理已经远远不能满足需求了。分布式计算的兴起与发展为解决大规模的数据处理问题提供了很好的途径。使用一种基于Spark Streaming的视频/图像流处理的测试平台,阐述了平台的构成和工作流程,深入研究各个参数对集群性能的影响,创新性地提出了CPU时间占用率作为性能评估指标,与总的处理时间结合,更为全面反映集群性能和资源利用率。 展开更多
关键词 spark streaming CPU时间占用率 分布式 视频/图像处理
下载PDF
基于Spark Streaming的实时数据采集分析系统设计 被引量:4
9
作者 党寿江 刘学 +1 位作者 王星凯 刘春梅 《网络新媒体技术》 2017年第5期48-53,共6页
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++... 大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。 展开更多
关键词 基数计算 实时数据分析 spark流式处理 不重复计数 HyperLogLog++
下载PDF
基于Spark Streaming的实时日志处理平台设计与实现 被引量:12
10
作者 薛瑞 朱晓民 《电信工程技术与标准化》 2015年第9期55-58,共4页
本文基于Hadoop Yarn平台,通过Spark Streaming流数据处理技术实时处理Web日志、系统日志、监控日志等,很好地解决了目前存在的问题,并使用HBase(Hadoop No SQL Database)作为数据库存储,更好地适应日志数据规模的增长。
关键词 HADOOP sparkstreaming 实时日志处理系统
下载PDF
基于Spark Streaming的高校网站敏感信息监测设计与实现 被引量:2
11
作者 王丹 邓谦 刘姣 《科教导刊》 2021年第5期40-41,44,共3页
高校在实现智慧化的同时也面临着网站发布信息或网页内容被黑客篡改成不符合国家或学校规定的信息及内容.通过对已有学术研究发现,现有技术的研究普遍存在着效率低、实时性差的问题,本文提出了一种基于Spark Streaming的高校网站敏感信... 高校在实现智慧化的同时也面临着网站发布信息或网页内容被黑客篡改成不符合国家或学校规定的信息及内容.通过对已有学术研究发现,现有技术的研究普遍存在着效率低、实时性差的问题,本文提出了一种基于Spark Streaming的高校网站敏感信息监测系统.该系统利用Kafka作为中间存储,系统架构在Spark Streaming框架上可实时消费Kafka中数据进行链接解析处理,将获取到的网页内容存储到Elastic Search中进行倒排索引敏感信息匹配,从而达到数据采集和数据处理同步,提高了网站监测效率. 展开更多
关键词 spark streaming Kafka ELASTIC Search 敏感信息监测 倒排索引
下载PDF
Spark Streaming中参数与资源协同调整策略 被引量:2
12
作者 梁毅 刘飞 +1 位作者 常仕禄 程石帆 《软件导刊》 2019年第1期45-47,55,共4页
Spark Streaming是一种典型的批量流式计算平台,可用于处理持续到达的数据流。流式数据最重要的两个特征是波动性和时效性。利用动态调整系统参数和动态调整资源满足不同数据到达速率的响应延迟,但调整参数的方式具有局限性,其用户成本... Spark Streaming是一种典型的批量流式计算平台,可用于处理持续到达的数据流。流式数据最重要的两个特征是波动性和时效性。利用动态调整系统参数和动态调整资源满足不同数据到达速率的响应延迟,但调整参数的方式具有局限性,其用户成本较大。因此提出一种参数和资源协同调整策略,采用动态邻域粒子群算法找到一种满足SLO目标且使用资源最少的系统方案。实验表明,AdaStreaming与DyBBS相比,延迟性降低了70.1%,在资源使用量上比DRA降低了42.1%。 展开更多
关键词 spark streaming 动态邻域粒子群 参数配置 资源分配
下载PDF
基于Spark Streaming流技术的机动车缉查布控系统设计 被引量:3
13
作者 陈丽 王锐 《顺德职业技术学院学报》 2016年第4期10-15,共6页
机动车缉查布控系统以治安交通卡口系统为基础,将公路运行车辆的构成、流量分布、违章情况等信息进行汇总,实现对车辆轨迹的查询分析,从而为交通规划、管理和案件侦破等提供有效决策。由于机动车的数量增长迅猛,且机动车违规违章具有流... 机动车缉查布控系统以治安交通卡口系统为基础,将公路运行车辆的构成、流量分布、违章情况等信息进行汇总,实现对车辆轨迹的查询分析,从而为交通规划、管理和案件侦破等提供有效决策。由于机动车的数量增长迅猛,且机动车违规违章具有流动性、偶发性的特点,造成卡口系统录入的数据量巨大,传统的机动车缉查布控技术只能在预设条件下对数据进行查询,不能实现快速地实时分析查询。通过采用Spark Streaming技术进行大数据实时处理,实现实时显示和告警机动车违规违章活动热点,分析和预测机动车活动轨迹。 展开更多
关键词 机动车缉查布控系统 交通管理 sparkstreaming 流数据处理
下载PDF
基于Spark Streaming的流式并行文本校对 被引量:5
14
作者 杨宗霖 李天瑞 +3 位作者 刘胜久 殷成凤 贾真 珠杰 《计算机科学》 CSCD 北大核心 2020年第4期36-41,共6页
互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串... 互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串行校对的通用框架,然后针对串行校对算法处理大规模文本存在的耗时长的不足,提出3种通用的文本校对并行化方法:1)基于多线程的线程并行校对,它基于线程池的方式实现段落和校对功能的同时并行;2)基于Spark MapReduce的批处理并行校对,它通过RDD并行计算的方式实现段落的并行校对;3)基于Spark Streaming流式计算框架的流式并行校对,它通过将文本流的实时计算转为一系列小规模的基于时间分片的批处理作业,有效避免了固定开销,显著缩短了校对时延。由于流式计算兼有低时延和高吞吐的优势,文中最后选用流式校对来构建并行校对系统。性能对比实验表明,线程并行适合校对小规模文本,批处理并行适合大规模文本的离线校对,流式并行校对有效减少了约110s的固定时延,相比批处理校对,采用Streaming计算框架的流式校对取得了极大的性能提升。 展开更多
关键词 自动校对 流式计算 并行计算 多线程 spark
下载PDF
基于Spark Streaming的明安图射电频谱日像仪实时数据处理 被引量:4
15
作者 卫守林 刘鹏翔 +3 位作者 王锋 邓辉 梁波 戴伟 《天文研究与技术》 CSCD 2017年第4期421-428,共8页
目前天文观测中对数据的实时处理需求越来越多,性能要求也越来越高,我国明安图射电频谱日像仪(Mingant U Sp Ectral Radioheliograph,MUSER)是同时以高时间、高空间和高频率分辨率对太阳进行射电频谱成像的设备。在低频部分的日常观测中... 目前天文观测中对数据的实时处理需求越来越多,性能要求也越来越高,我国明安图射电频谱日像仪(Mingant U Sp Ectral Radioheliograph,MUSER)是同时以高时间、高空间和高频率分辨率对太阳进行射电频谱成像的设备。在低频部分的日常观测中,包含了两方面的需求:(1)对历史数据的处理;(2)5秒钟抽样观测数据的处理。抽样观测数据需要实时处理,并在监控终端显示,数据处理过程包含了数据校验、修正、成图、洁化等多个步骤,传统的单机处理模式已无法满足大数据量下的实时性要求。因此,实时数据计算中,使用Spark Streaming流式计算这一新兴的分布式计算方法,设计了自定义的接收器,并将多个图形处理器节点加入到分布式集群中。通过实验对性能进行评估,结果证明基于内存的高速执行引擎的特点能显著提高性能。期待能通过实验进一步优化算法和配置,获得更好的结果,并最终运用到实际环境中。 展开更多
关键词 MUSER 射电天文 spark 流式计算 实时计算
下载PDF
基于Spark Streaming的电力流式大数据分析架构及应用 被引量:13
16
作者 田璐 齐林海 +3 位作者 李青 王红 田世明 卜凡鹏 《电力信息与通信技术》 2019年第2期23-29,共7页
近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、... 近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、实时计算和分布式存储系统的结合有效地解决并发访问数据流的收集、存储、实时分析等问题,从而实现电力行业流数据的实时分析。最后构建用电数据实时异常检测系统验证了其性能。 展开更多
关键词 spark streaming 电力流式大数据 电力数据分析 异常检测
下载PDF
基于Spark Streaming的在线KMeans聚类模型研究 被引量:2
17
作者 侯敬儒 吴晟 李英娜 《计算机与数字工程》 2018年第4期783-787,共5页
针对基于Map Reduce框架处理海量数据实时响应能力较差的问题,设计并实现了基于Spark Streaming的在线计算模型进行大规模的KMeans聚类分析。该模型将整个过程分为数据接入、在线训练等模块,各模块通过数据流连通形成任务实体,提交到Sp... 针对基于Map Reduce框架处理海量数据实时响应能力较差的问题,设计并实现了基于Spark Streaming的在线计算模型进行大规模的KMeans聚类分析。该模型将整个过程分为数据接入、在线训练等模块,各模块通过数据流连通形成任务实体,提交到Spark分布式集群运行完成。通过比对分析实验和性能检测,验证了该在线KMeans聚类模型具有高吞吐、低延迟的优势,且集群运行状况良好。 展开更多
关键词 MAPREDUCE spark streaming 在线计算 低延迟
下载PDF
基于Spark Streaming的实时流数据处理模型化研究与实现 被引量:2
18
作者 云惟英 苟宇 +1 位作者 王京 王丽莉 《测绘与空间地理信息》 2017年第S1期48-50,55,共4页
通过研究与分析,选取Spark Streaming技术实现对P实时流数据的处理.同时,研究出一套模型化的方式,实现动态装配软件的执行过程;并通过具体的实例展示了两者结合后,在数据处理的易用性、性能及吞吐量方面,都得到了大幅提升.
关键词 spark streaming 空间大数据 时实流数据
下载PDF
一种基于深度强化学习的Spark Streaming参数优化方法 被引量:1
19
作者 刘露 申国伟 +3 位作者 郭春 崔允贺 蒋朝惠 伍大勇 《计算机与现代化》 2021年第10期49-56,62,共9页
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经... Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。 展开更多
关键词 spark streaming 性能优化 深度强化学习 参数调优
下载PDF
Spark Streaming框架下的气象自动站数据实时处理系统 被引量:16
20
作者 赵文芳 刘旭林 《计算机应用》 CSCD 北大核心 2018年第1期38-43,55,共7页
针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据... 针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。 展开更多
关键词 气象自动站 spark streaming 流计算 气象数据处理 FLUME
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部