期刊文献+
共找到246篇文章
< 1 2 13 >
每页显示 20 50 100
Sentiment Drift Detection and Analysis in Real Time Twitter Data Streams
1
作者 E.Susi A.P.Shanthi 《Computer Systems Science & Engineering》 SCIE EI 2023年第6期3231-3246,共16页
Handling sentiment drifts in real time twitter data streams are a challen-ging task while performing sentiment classifications,because of the changes that occur in the sentiments of twitter users,with respect to time.... Handling sentiment drifts in real time twitter data streams are a challen-ging task while performing sentiment classifications,because of the changes that occur in the sentiments of twitter users,with respect to time.The growing volume of tweets with sentiment drifts has led to the need for devising an adaptive approach to detect and handle this drift in real time.This work proposes an adap-tive learning algorithm-based framework,Twitter Sentiment Drift Analysis-Bidir-ectional Encoder Representations from Transformers(TSDA-BERT),which introduces a sentiment drift measure to detect drifts and a domain impact score to adaptively retrain the classification model with domain relevant data in real time.The framework also works on static data by converting them to data streams using the Kafka tool.The experiments conducted on real time and simulated tweets of sports,health care andfinancial topics show that the proposed system is able to detect sentiment drifts and maintain the performance of the classification model,with accuracies of 91%,87%and 90%,respectively.Though the results have been provided only for a few topics,as a proof of concept,this framework can be applied to detect sentiment drifts and perform sentiment classification on real time data streams of any topic. 展开更多
关键词 Sentiment drift sentiment classification big data BERT real time data streams TWITTER
下载PDF
基于Spark Streaming的气象自动站实时流处理与存储系统 被引量:1
2
作者 马彬 李玉涛 许琪 《计算机技术与发展》 2023年第3期207-214,共8页
在当前大数据技术蓬勃发展的时代,人们对气象数据的实时处理、数据质量、数据存储及大规模查询等要求也越来越高。针对现有气象自动站数据业务落地环节多,任务处理耦合紧但系统部署分散等问题,文中基于Spark Streaming的流式计算框架,... 在当前大数据技术蓬勃发展的时代,人们对气象数据的实时处理、数据质量、数据存储及大规模查询等要求也越来越高。针对现有气象自动站数据业务落地环节多,任务处理耦合紧但系统部署分散等问题,文中基于Spark Streaming的流式计算框架,研究使用Flume解析收集自动站原始数据,在Spark Streaming中设计融入自动站数据质控算法,最终通过对分布式数据库存储的表设计,使气象自动站数据具备高效率、高质量、高可靠的应用服务能力。性能测试结果表明,基于Spark Streaming的气象自动站数据实时流处理与存储系统,数据从文件采集、解码、流处理至入库的全流程能够在秒级完成,TB级数据查询响应为毫秒级,加权查询为秒级,完全满足自动站数据业务应用需求,从而为进一步提高气象自动站数据质量与服务水平提供基础支撑。 展开更多
关键词 气象自动站数据 Spark streaming 实时处理 FLUME 分布式数据库
下载PDF
Spark Streaming动态资源分配策略 被引量:6
3
作者 刘备 谭新明 曹文彬 《计算机应用》 CSCD 北大核心 2017年第6期1574-1579,共6页
针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数... 针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数据反馈和应用全局变量;然后,进行资源增减计算;最后,进行资源增减执行。实验结果表明,所提策略能够有效调整应用资源配额,且在稳定数据流和不稳定数据流两种情况下,其处理延时相比原Spark平台的Streaming策略和Core策略都有所降低;同时该策略也能够提高集群资源利用率。 展开更多
关键词 SPARK 实时数据流 多应用 动态资源分配
下载PDF
BDS-3卫星钟差改正数短期预报方法研究
4
作者 李家兴 贺凯飞 +2 位作者 杨金权 徐向 张胜威 《测绘工程》 2024年第3期53-59,共7页
针对RTS实时数据流产品在网络传输中存在的延迟以及数据中断等问题,文中结合BDS-3卫星钟差改正数的特点,分析实时数据流中BDS-3卫星钟差改正数的完整率和精度,提出一种基于一次差分和滑动时间窗口的残差修正钟差改正数短期预报模型。利... 针对RTS实时数据流产品在网络传输中存在的延迟以及数据中断等问题,文中结合BDS-3卫星钟差改正数的特点,分析实时数据流中BDS-3卫星钟差改正数的完整率和精度,提出一种基于一次差分和滑动时间窗口的残差修正钟差改正数短期预报模型。利用文中模型与一次多项式模型、基于一次差分的一次多项式模型和灰色模型进行BDS-3卫星钟差改正数预报精度的对比实验,结果表明,文中模型的预报精度最高,5 min、10 min、15 min和20 min的平均预报精度分别达到0.12 ns、0.14 ns、0.19 ns和0.20 ns,有效降低误差累积效应对预报精度的影响,对于RT-PPP的研究和应用具有重要的意义。 展开更多
关键词 BDS-3卫星 实时数据流 卫星钟差改正数 短期预报
下载PDF
基于Spark Streaming的实时数据采集分析系统设计 被引量:4
5
作者 党寿江 刘学 +1 位作者 王星凯 刘春梅 《网络新媒体技术》 2017年第5期48-53,共6页
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++... 大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。 展开更多
关键词 基数计算 实时数据分析 Spark流式处理 不重复计数 HyperLogLog++
下载PDF
面向开集识别的稳健测试时适应方法
6
作者 周植 张丁楚 +1 位作者 李宇峰 张敏灵 《软件学报》 EI CSCD 北大核心 2024年第4期1667-1681,共15页
开集识别旨在研究测试阶段突现未见类别对于机器学习模型的挑战,以期学习模型既能分类已见类别又可识别/拒绝未见类别,是确保机器学习模型能够在开放世界中高效稳健部署的重要技术.既有开集识别技术通常假设已见类别的协变量分布在训练... 开集识别旨在研究测试阶段突现未见类别对于机器学习模型的挑战,以期学习模型既能分类已见类别又可识别/拒绝未见类别,是确保机器学习模型能够在开放世界中高效稳健部署的重要技术.既有开集识别技术通常假设已见类别的协变量分布在训练与测试阶段维持不变.然而在实际场景中,类别的协变量分布常不断变化.直接利用既有技术不再奏效,其性能甚至劣于基线方案.因此,亟需研究新型开集识别方法,使其能不断适应协变量分布偏移,以期模型在测试阶段既能稳健分类已见类别又可识别未见类别.将此新问题设置命名为开放世界适应问题(AOW),并提出了一种开放测试时适应方法(OTA).该方法基于无标注测试数据优化自适应熵损失与开集熵损失更新模型,维持对已见类的既有判别能力,同时增强了识别未见类的能力.大量实验分析表明,该方法在多组基准数据集、多组不同协变量偏移程度下均稳健地优于现有先进的开集识别方法. 展开更多
关键词 开集识别 测试时适应 分布偏移 图像识别 流数据
下载PDF
TWCT-Stream:数据流上的频繁模式挖掘算法 被引量:1
7
作者 庄波 刘希玉 隆坤 《计算机工程与应用》 CSCD 北大核心 2009年第20期147-150,161,共5页
提出一种结合倾斜时间窗的TWCT树结构,可以保存不同时间粒度下频繁模式的完全集,并设计了其顺序更新和删除算法,使其能够存储在外存,从而有效地降低算法的内存空间需求。结合TWCT树结构特点,提出了数据流上的频繁模式挖掘算法TWCT-Stre... 提出一种结合倾斜时间窗的TWCT树结构,可以保存不同时间粒度下频繁模式的完全集,并设计了其顺序更新和删除算法,使其能够存储在外存,从而有效地降低算法的内存空间需求。结合TWCT树结构特点,提出了数据流上的频繁模式挖掘算法TWCT-Stream,其模式生长的TWCT-Growth算法按字典顺序生成频繁模式,以配合TWCT结构的顺序更新。实验证实算法的内存需求低于FP-Stream等同类算法。 展开更多
关键词 数据流挖掘 频繁模式 倾斜时间窗口
下载PDF
基于流计算和大数据平台的实时交通流预测 被引量:1
8
作者 李星辉 曾碧 魏鹏飞 《计算机工程与设计》 北大核心 2024年第2期553-561,共9页
目前交通流预测实时性差,很难满足在线分析和预测任务的需求,基于此提出一种Flink流计算框架和大数据平台结合的实时交通流预测方法。基于流计算框架实时捕捉和预处理数据,包括采用Flink的transform算子对数据进行校验和处理,将处理后... 目前交通流预测实时性差,很难满足在线分析和预测任务的需求,基于此提出一种Flink流计算框架和大数据平台结合的实时交通流预测方法。基于流计算框架实时捕捉和预处理数据,包括采用Flink的transform算子对数据进行校验和处理,将处理后的数据sink到大数据的HDFS文件系统,交由下一步的大数据并行框架进行分析建模与训练,实现基于流计算和大数据平台的实时交通流预测。实验结果表明,Flink能够实时捕捉和预处理交通流数据,把数据准时无误送入分布式文件系统中,在此基础上借助大数据框架下的并行分析和建模优势,在实时性数据分析与预测方面取得了较好的效果。 展开更多
关键词 大数据 数据并行 流计算框架 实时处理 交通流预测 分布式系统 实时性分析
下载PDF
支持实时流计算应用的关键技术研究进展
9
作者 徐志榛 徐辰 +2 位作者 丁光耀 陈梓浩 周傲英 《软件学报》 EI CSCD 北大核心 2024年第1期430-454,共25页
信息系统在进行知识的挖掘和管理时,需要处理各种形式的数据,流数据便是其中之一.流数据具有数据规模大、产生速度快且蕴含的知识具有较强时效性等特点,因而发展支持实时处理应用的流计算技术对于信息系统的知识管理十分重要.流计算系... 信息系统在进行知识的挖掘和管理时,需要处理各种形式的数据,流数据便是其中之一.流数据具有数据规模大、产生速度快且蕴含的知识具有较强时效性等特点,因而发展支持实时处理应用的流计算技术对于信息系统的知识管理十分重要.流计算系统可以追溯到29世纪90年代,至今已经经历了长足的发展.然而,当前多样化的知识管理需求和新一代的硬件架构为流计算系统带来了全新的挑战和机遇,催生出了一系列流计算领域的技术研究.首先介绍流计算系统的基本需求以及发展脉络,再按照编程接口、执行计划、资源调度和故障容错4个层次分别分析流计算系统领域的相关技术;最后,展望流计算技术在未来可能的研究方向和发展趋势. 展开更多
关键词 实时处理 流计算 数据处理系统
下载PDF
实时数据流技术在电力系统中的研究与标签应用
10
作者 吕静贤 孔娜 +1 位作者 王慧 宋灿 《产业科技创新》 2024年第2期104-107,共4页
随着电力系统的智能化、数字化和分布式化发展,实时数据流在电力系统中的应用逐渐增多,尤其在智能电网领域。本文深入研究了电网中的实时数据流技术,并探讨了标签在此领域的应用,以提高数据处理、监控和优化的效率。
关键词 实时数据流 电网技术 数据标签 电网监控与优化
下载PDF
基于Spark Streaming流回归的煤矿瓦斯浓度实时预测 被引量:11
11
作者 吴海波 施式亮 念其锋 《中国安全生产科学技术》 CAS CSCD 北大核心 2017年第5期84-89,共6页
为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达... 为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达到秒级,提高了瓦斯浓度预测精度,满足流式大数据处理的实时性要求。实验表明:应用Spark Streaming流回归预测系统在采样周期为5s的瓦斯监测数据流上进行实时预测时,预测平均均方根误差随模型更新周期的缩短而减小,模型更新周期可达15s,且更新周期为45s时预测总均方根误差最小,既能保证预测精度,又能提高瓦斯灾害预警时效。 展开更多
关键词 监测数据 流数据 瓦斯浓度 SPARK streamING 流回归 实时预测 灾害预警
下载PDF
大规模物联网数据的实时处理与存储
12
作者 石磊 李鹏 《通信电源技术》 2024年第4期146-148,共3页
详细探讨大规模物联网数据的实时处理与存储技术及其在智能城市交通管理等应用中的重要性。针对物联网数据的多样性、高并发、时变性以及异构性等特点,介绍流式处理、复杂事件处理(Complex Event Processing,CEP)、时序数据库以及分布... 详细探讨大规模物联网数据的实时处理与存储技术及其在智能城市交通管理等应用中的重要性。针对物联网数据的多样性、高并发、时变性以及异构性等特点,介绍流式处理、复杂事件处理(Complex Event Processing,CEP)、时序数据库以及分布式文件系统等主流技术,并结合智能交通管理案例,阐述这些技术在实时监测、交通调控、事件预警和长期趋势分析等方面的应用效果,为构建高效、实时的物联网数据处理与存储系统提供了理论支持和实践指导。 展开更多
关键词 物联网 实时处理 数据存储 流式处理 分布式文件系统
下载PDF
基于痕量溶解氢测量技术的四管泄漏检测系统设计
13
作者 孟庆超 孙文善 《今日自动化》 2024年第8期147-149,共3页
在锅炉事故中,炉水问题对锅炉使用寿命和运行效率有较大的负面影响。特别是痕量溶解氢的异常积累,通常是高温汽水腐蚀等诸多严重后果的前兆,也是锅炉泄漏的重要指示之一。因此,炉水分析技术的研究与发展显得尤为重要。在保证装备运行安... 在锅炉事故中,炉水问题对锅炉使用寿命和运行效率有较大的负面影响。特别是痕量溶解氢的异常积累,通常是高温汽水腐蚀等诸多严重后果的前兆,也是锅炉泄漏的重要指示之一。因此,炉水分析技术的研究与发展显得尤为重要。在保证装备运行安全的同时,高效准确的检测技术能够预防潜在的风险,避免经济损失和环境污染。文章提出的基于痕量溶解氢技术的四管泄漏检测系统的研究,旨在更加精准地监测锅炉炉水中痕量溶解氢的浓度,从而为炉水化学分析和锅炉健康监控提供技术创新路径。本研究所采用的泄漏检测系统以其独特的设计原则和系统组成,融合化学分析和仪器监测双重优势,能在更早阶段发现潜在危险,实现对炉水化学状态的综合判定。 展开更多
关键词 溶解氢 痕量级 实时流数据 腐蚀预警系统 高温汽水腐蚀
下载PDF
基于大数据流批一体化技术应用的研究
14
作者 刘胜 《计算机应用文摘》 2024年第2期42-44,共3页
随着大数据技术的发展,采用流批一体化实现多源异构数据的融合逐渐成为必然趋势。在处理非结构化数据时,数据仓库在实时性方面存在延迟等问题。而数据湖具备存储多源异构数据的能力,能够处理大规模数据集和实时数据,具有存储成本低及数... 随着大数据技术的发展,采用流批一体化实现多源异构数据的融合逐渐成为必然趋势。在处理非结构化数据时,数据仓库在实时性方面存在延迟等问题。而数据湖具备存储多源异构数据的能力,能够处理大规模数据集和实时数据,具有存储成本低及数据灵活等优势。文章通过流批一体对多源异构数据进行融合,并围绕数据采集、存储、计算等构建湖仓一体架构。该架构具备强大的数据分析和挖掘能力,可从海量数据中挖掘有价值的数据,以支持决策和创新。 展开更多
关键词 流批一体 实时性 数据分析
下载PDF
“金课”背景下“流式大数据实时分析”课程的建设与创新
15
作者 杜芳 滕昱 +2 位作者 雷璐 朱健 周煜敏 《计算机应用文摘》 2024年第5期1-4,共4页
数据处理的时效性和开源技术生态是大数据研究领域的核心问题与核心技术。参照“金课”建设“两性一度”的标准,文章以建设“流式大数据实时分析”课程为例,从课程理论系统建设、实训项目设计以及教学模式构建3个维度,探索了在产教协同... 数据处理的时效性和开源技术生态是大数据研究领域的核心问题与核心技术。参照“金课”建设“两性一度”的标准,文章以建设“流式大数据实时分析”课程为例,从课程理论系统建设、实训项目设计以及教学模式构建3个维度,探索了在产教协同下以行业需求为背景,以开源生态中行业前沿技术为主导的创新性课程建设模式。 展开更多
关键词 流式大数据 实时分析 开源生态 金课
下载PDF
面向高维流数据的离群值检测算法
16
作者 梁昌好 童英华 冯忠岭 《计算机工程与设计》 北大核心 2024年第5期1406-1412,共7页
累计局部离群因子(cumulative local outlier factor,C_LOF)算法能有效解决数据流中的概念漂移问题和克服离群点检测中的伪装问题,但在处理高维数据时,时间复杂度较高。为有效解决时间复杂度高的问题,提出一种基于投影索引近邻的累计局... 累计局部离群因子(cumulative local outlier factor,C_LOF)算法能有效解决数据流中的概念漂移问题和克服离群点检测中的伪装问题,但在处理高维数据时,时间复杂度较高。为有效解决时间复杂度高的问题,提出一种基于投影索引近邻的累计局部离群因子(cumulative local outlier factor based projection indexed nearest neighbor,PINN_C_LOF)算法。使用滑动窗口维护活跃数据点,在新数据到达和旧数据过期时,引入投影索引近邻(projection indexed nearest neighbor,PINN)方法,增量更新窗口中受影响数据点的近邻。实验结果表明,PINN_C_LOF算法在检测高维流数据离群值时,在保持检测精确度的前提下,其时间复杂度较C_LOF算法明显降低。 展开更多
关键词 高维流数据 离群值检测 累计局部离群因子 时间复杂度 投影索引近邻 局部离群因子 物联网
下载PDF
基于Spark Streaming的实时流数据处理模型化研究与实现 被引量:2
17
作者 云惟英 苟宇 +1 位作者 王京 王丽莉 《测绘与空间地理信息》 2017年第S1期48-50,55,共4页
通过研究与分析,选取Spark Streaming技术实现对P实时流数据的处理.同时,研究出一套模型化的方式,实现动态装配软件的执行过程;并通过具体的实例展示了两者结合后,在数据处理的易用性、性能及吞吐量方面,都得到了大幅提升.
关键词 SPARK streamING 空间大数据 时实流数据
下载PDF
符合Real-time CORBA规范的传感器网络监控系统设计 被引量:1
18
作者 魏云华 《计算机工程与设计》 CSCD 北大核心 2006年第23期4585-4588,4591,共5页
传感器网络在解决底层数据源和I/O设备的异构性、处理连续查询的实时性、服务质量自适应等方面提出了许多新的挑战。提出一种基于实时CORBA的传感器网络数据流处理框架,说明了符合实时中间件规范的数据流处理系统设计的方法和特点,通过... 传感器网络在解决底层数据源和I/O设备的异构性、处理连续查询的实时性、服务质量自适应等方面提出了许多新的挑战。提出一种基于实时CORBA的传感器网络数据流处理框架,说明了符合实时中间件规范的数据流处理系统设计的方法和特点,通过实验对该框架进行了性能测试,验证了其处理连续查询的实时性。 展开更多
关键词 实时中间件 数据流 连续查询 服务质量 传感器网络 实时CORBA
下载PDF
企业多云时序数据实时监测方案研究与实现 被引量:4
19
作者 程学林 郑佳卉 +1 位作者 蒋烁淼 贝毅君 《小型微型计算机系统》 CSCD 北大核心 2023年第1期155-162,共8页
在企业的IT架构不断上云、多云趋势明显的今天,云资源在系统的开发、运行和维护中扮演着举足轻重的角色.云资源在运行过程中每时每刻都能产生海量时序数据,然而当前市场上的云监测服务在多云实时监测、异常检测方面都存在一定局限性.针... 在企业的IT架构不断上云、多云趋势明显的今天,云资源在系统的开发、运行和维护中扮演着举足轻重的角色.云资源在运行过程中每时每刻都能产生海量时序数据,然而当前市场上的云监测服务在多云实时监测、异常检测方面都存在一定局限性.针对上述问题提出一种基于时序数据的企业多云实时监测方案MCloudMonitor,围绕多云资源运行产生的海量时序数据提供时序数据存储和实时流处理服务,基于分层时间记忆网络来设计实时在线异常检测算法并将其整合进所实现的系统之中.除此之外,借助测试来评估方案的实现效果,证明基于该方案实现的系统能够帮助运维人员从企业的视角进行便捷的实时多云监测,并且能够准确地进行实时异常检测. 展开更多
关键词 多云 时序数据 实时监测 流处理 异常检测算法
下载PDF
基于水车模型的时序大数据快速存储 被引量:2
20
作者 陆铭琛 吕晏齐 +1 位作者 刘睿诚 金培权 《计算机科学》 CSCD 北大核心 2023年第1期25-33,共9页
近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久... 近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久化,以供后续的查询和分析。这对存储系统的写入性能提出了更高的要求。基于水车模型的快速存储系统可以满足大数据应用场景下的高速时序数据流快速存储需求。该系统部署在高速时序数据流和底层存储节点之间,利用多个数据桶构建一个逻辑上轮转的存储模型(类似于中国古代的水车),并且通过控制每个数据桶的状态来协调数据的写入和落盘。水车模型将数据桶分配给不同的底层存储节点,从而将瞬时写入压力均摊到多个底层存储节点上,并借助多节点的并行写入提高写吞吐。水车模型被部署在单机版MongoDB上,并和分布式MongoDB进行了实验对比。实验结果表明,水车模型可以有效提升系统的写吞吐,降低写入延迟,并且具有良好的横向可扩展性。 展开更多
关键词 时序大数据 流式数据 快速存储 水车模型 中间件
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部