期刊文献+
共找到206篇文章
< 1 2 11 >
每页显示 20 50 100
Big Data Stream Analytics for Near Real-Time Sentiment Analysis 被引量:1
1
作者 Otto K. M. Cheng Raymond Lau 《Journal of Computer and Communications》 2015年第5期189-195,共7页
In the era of big data, huge volumes of data are generated from online social networks, sensor networks, mobile devices, and organizations’ enterprise systems. This phenomenon provides organizations with unprecedente... In the era of big data, huge volumes of data are generated from online social networks, sensor networks, mobile devices, and organizations’ enterprise systems. This phenomenon provides organizations with unprecedented opportunities to tap into big data to mine valuable business intelligence. However, traditional business analytics methods may not be able to cope with the flood of big data. The main contribution of this paper is the illustration of the development of a novel big data stream analytics framework named BDSASA that leverages a probabilistic language model to analyze the consumer sentiments embedded in hundreds of millions of online consumer reviews. In particular, an inference model is embedded into the classical language modeling framework to enhance the prediction of consumer sentiments. The practical implication of our research work is that organizations can apply our big data stream analytics framework to analyze consumers’ product preferences, and hence develop more effective marketing and production strategies. 展开更多
关键词 big data data stream ANALYTICS SENTIMENT Analysis ONLINE Review
下载PDF
Incremental Learning Framework for Mining Big Data Stream
2
作者 Alaa Eisa Nora E.L-Rashidy +2 位作者 Mohammad Dahman Alshehri Hazem M.El-bakry Samir Abdelrazek 《Computers, Materials & Continua》 SCIE EI 2022年第5期2901-2921,共21页
At this current time,data stream classification plays a key role in big data analytics due to its enormous growth.Most of the existing classification methods used ensemble learning,which is trustworthy but these metho... At this current time,data stream classification plays a key role in big data analytics due to its enormous growth.Most of the existing classification methods used ensemble learning,which is trustworthy but these methods are not effective to face the issues of learning from imbalanced big data,it also supposes that all data are pre-classified.Another weakness of current methods is that it takes a long evaluation time when the target data stream contains a high number of features.The main objective of this research is to develop a new method for incremental learning based on the proposed ant lion fuzzy-generative adversarial network model.The proposed model is implemented in spark architecture.For each data stream,the class output is computed at slave nodes by training a generative adversarial network with the back propagation error based on fuzzy bound computation.This method overcomes the limitations of existing methods as it can classify data streams that are slightly or completely unlabeled data and providing high scalability and efficiency.The results show that the proposed model outperforms stateof-the-art performance in terms of accuracy(0.861)precision(0.9328)and minimal MSE(0.0416). 展开更多
关键词 Ant lion optimization(ALO) big data stream generative adversarial network(GAN) incremental learning renyi entropy
下载PDF
基于Spark Streaming的实时能耗分项计量系统 被引量:9
3
作者 武志学 《计算机应用》 CSCD 北大核心 2017年第4期928-935,共8页
能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生... 能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生快、实时性强、数据量大,所以很难统一采集并入库存储后再作处理,这便导致传统的数据处理架构不能满足需求。为此,提出基于Spark Streaming大数据流式技术构建一个实时能耗分项计量系统,对实时能耗分项计量的系统架构和内部结构进行了详细介绍,并通过实验数据分析了系统的实时数据处理能力。与传统架构不同,实时能耗分项计量系统在数据流动的过程中实时地进行捕捉和处理,一方面把捕捉到的异常信息及时报警到前端,同时把分类分项统计处理的结果保存到数据库,以便进行离线分析和数据挖掘,能有效地解决上述数据处理过程中遇到的问题。 展开更多
关键词 流式计算 能耗分项计量 SPARK streamING APACHE Kafka 大数据
下载PDF
基于Spark Streaming的电力流式大数据分析架构及应用 被引量:13
4
作者 田璐 齐林海 +3 位作者 李青 王红 田世明 卜凡鹏 《电力信息与通信技术》 2019年第2期23-29,共7页
近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、... 近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、实时计算和分布式存储系统的结合有效地解决并发访问数据流的收集、存储、实时分析等问题,从而实现电力行业流数据的实时分析。最后构建用电数据实时异常检测系统验证了其性能。 展开更多
关键词 SPARK streamING 电力流式大数据 电力数据分析 异常检测
下载PDF
基于Spark Streaming的实时流数据处理模型化研究与实现 被引量:2
5
作者 云惟英 苟宇 +1 位作者 王京 王丽莉 《测绘与空间地理信息》 2017年第S1期48-50,55,共4页
通过研究与分析,选取Spark Streaming技术实现对P实时流数据的处理.同时,研究出一套模型化的方式,实现动态装配软件的执行过程;并通过具体的实例展示了两者结合后,在数据处理的易用性、性能及吞吐量方面,都得到了大幅提升.
关键词 SPARK streamING 空间大数据 时实流数据
下载PDF
基于Spark Streaming的实时交通数据处理平台 被引量:13
6
作者 谭亮 周静 《计算机系统应用》 2018年第10期133-139,共7页
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了... 交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用. 展开更多
关键词 大数据 流处理系统 双基基站数据 SPARK streamING APACHE Kafka
下载PDF
基于Spark Streaming的海量日志实时处理系统的设计 被引量:7
7
作者 陆世鹏 《电子产品可靠性与环境试验》 2017年第5期71-76,共6页
在网络系统日志信息规模不断增长的情况下,结合运维中的实际需求,通过大数据技术,提出了一种基于Spark Streaming的海量日志实时处理系统,并详细地介绍了系统的底层日志数据收集、传输、计算、存储、查询存储等一系列功能的设计与实现... 在网络系统日志信息规模不断增长的情况下,结合运维中的实际需求,通过大数据技术,提出了一种基于Spark Streaming的海量日志实时处理系统,并详细地介绍了系统的底层日志数据收集、传输、计算、存储、查询存储等一系列功能的设计与实现。该系统不仅能够准确、实时地解析日志信息,对数据进行统计分析,而且能对历史日志数据进行实时存储和离线计算处理。 展开更多
关键词 大数据 SPARK streamING 日志分析 分布式计算
下载PDF
基于Structured Streaming的实时文本画像系统设计与实现
8
作者 谢莹庆 熊义龙 曹炳尧 《工业控制计算机》 2022年第11期114-116,118,共4页
针对大数据环境下画像系统的实时性和准确性问题,提出一种基于Structured Streaming的实时画像系统设计与实现。利用canal组件对用户行为日志系统实现增量订阅,kafka消息中间件完成实时数据流接入,应用Structured Streaming实时计算框... 针对大数据环境下画像系统的实时性和准确性问题,提出一种基于Structured Streaming的实时画像系统设计与实现。利用canal组件对用户行为日志系统实现增量订阅,kafka消息中间件完成实时数据流接入,应用Structured Streaming实时计算框架对用户的实时数据进行分析处理,刻画用户的实时兴趣。通过改进的TF-IDF算法改善文本画像系统的准确性与可靠性,并借助Structured Streaming与静态数据良好的交互性减轻实时计算压力,提高系统响应速度。 展开更多
关键词 Structured streaming 大数据 画像系统 TF-IDF
下载PDF
不确定大数据流分类的决策树模型构建仿真
9
作者 杨知玲 谭树杰 《计算机仿真》 2024年第5期532-535,542,共5页
在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类... 在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类过程产生的干扰。构建决策树,在剪枝过程中通过特征过滤算法,滤除不确定大数据流中掺杂的孤立点。将去噪后的不确定大数据流,输入决策树模型中,完成分类工作。实验结果表明,所提算法处理后的不确定大数据流振幅明显减小,且分类精度高,具有一定的应用价值。 展开更多
关键词 决策树模型 在线字典学习算法 特征过滤 不确定大数据流 数据分类
下载PDF
医院大数据平台建设难点及关键技术研究 被引量:2
10
作者 宋雪 王觅也 +2 位作者 郑涛 师庆科 黄勇 《中国卫生信息管理杂志》 2024年第2期286-290,324,共6页
目的解决医院大数据平台在数据采集、治理及应用环节面临的困难。方法总结建设大数据平台的经验,深入分析该平台在各环节的建设难点,提出“流批一体”数据处理、“湖仓一体”存储、存算分离等关键技术方案。结果该平台已接入医院34个业... 目的解决医院大数据平台在数据采集、治理及应用环节面临的困难。方法总结建设大数据平台的经验,深入分析该平台在各环节的建设难点,提出“流批一体”数据处理、“湖仓一体”存储、存算分离等关键技术方案。结果该平台已接入医院34个业务系统数据、超过3PB的基因组学数据,提供超过2500TFLOPS的算力资源,为医院临床诊疗、管理决策、临床科研提供应用服务。结论以应用为驱动的大数据平台逐步实现了医院数据资产的统一存储和集中管理,有助于推动大数据技术在医疗领域的应用和发展。 展开更多
关键词 医疗大数据 数据采集 数据治理 数据应用 流批一体
下载PDF
基于流计算和大数据平台的实时交通流预测 被引量:1
11
作者 李星辉 曾碧 魏鹏飞 《计算机工程与设计》 北大核心 2024年第2期553-561,共9页
目前交通流预测实时性差,很难满足在线分析和预测任务的需求,基于此提出一种Flink流计算框架和大数据平台结合的实时交通流预测方法。基于流计算框架实时捕捉和预处理数据,包括采用Flink的transform算子对数据进行校验和处理,将处理后... 目前交通流预测实时性差,很难满足在线分析和预测任务的需求,基于此提出一种Flink流计算框架和大数据平台结合的实时交通流预测方法。基于流计算框架实时捕捉和预处理数据,包括采用Flink的transform算子对数据进行校验和处理,将处理后的数据sink到大数据的HDFS文件系统,交由下一步的大数据并行框架进行分析建模与训练,实现基于流计算和大数据平台的实时交通流预测。实验结果表明,Flink能够实时捕捉和预处理交通流数据,把数据准时无误送入分布式文件系统中,在此基础上借助大数据框架下的并行分析和建模优势,在实时性数据分析与预测方面取得了较好的效果。 展开更多
关键词 大数据 数据并行 流计算框架 实时处理 交通流预测 分布式系统 实时性分析
下载PDF
基于流式计算的垃圾短信治理关键技术研究
12
作者 王九九 狄秋燕 马永亮 《邮电设计技术》 2024年第5期56-61,共6页
某运营商在现网垃圾短信治理中,常采用关键字+规则的方法,难以在拦截成功率和误拦正常短信之间找到平衡。基于文本语义分析识别垃圾短信,则需要解决大数据挖掘算法、海量数据处理、响应时效等问题,因此在大业务量的集约化平台上应用并... 某运营商在现网垃圾短信治理中,常采用关键字+规则的方法,难以在拦截成功率和误拦正常短信之间找到平衡。基于文本语义分析识别垃圾短信,则需要解决大数据挖掘算法、海量数据处理、响应时效等问题,因此在大业务量的集约化平台上应用并不广泛。通过算法研究、开发原型系统等工作,探索基于流式计算的垃圾短信治理技术方案,研发了一套基于Storm+Mahout架构的垃圾短信识别原型系统,完成了性能和准确率测试,取得了较好的效果。 展开更多
关键词 垃圾短信治理 自然语言处理 大数据 流式计算
下载PDF
A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning 被引量:6
13
作者 Yanxia Lv Sancheng Peng +4 位作者 Ying Yuan Cong Wang Pengfei Yin Jiemin Liu Cuirong Wang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2019年第4期379-388,共10页
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this ... By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream. 展开更多
关键词 big data stream classification ONLINE BAGGING ensemble LEARNING concept DRIFT
原文传递
异构网络端到端性能质量监控研究
14
作者 陈洋 赵大明 《现代信息科技》 2024年第7期1-6,共6页
在数字治理的大环境下,组织或企业需要通过一套更加科学的网络监控方法来治理和管理在异构网络中出现的端到端问题。文章采用当前流行的大数据流式计算和关联分析方法,基于数据挖掘思想对异构网络环境下的VPDN端到端性能监控进行了分析... 在数字治理的大环境下,组织或企业需要通过一套更加科学的网络监控方法来治理和管理在异构网络中出现的端到端问题。文章采用当前流行的大数据流式计算和关联分析方法,基于数据挖掘思想对异构网络环境下的VPDN端到端性能监控进行了分析,提出性能质量监控框架,并整合现有平台设计出监控软件体系结构,解决了VPDN无法端到端监控的问题,有效提升了数字治理的质量和效率。 展开更多
关键词 数字治理 大数据 流式计算 端到端 性能质量监控
下载PDF
大数据技术下的流数据处理框架构建研究
15
作者 邹威 罗小刚 周亮 《科技资讯》 2024年第18期36-38,共3页
在大数据技术快速发展的背景下,流数据已成为了一个不可忽视的重要领域。由于流数据具有实时性、突发性、无序性、易失性和无限性等多重特性,传统的分布式计算机系统在处理数据时倍感压力。面对这样的挑战,流计算技术的出现成为了解决之... 在大数据技术快速发展的背景下,流数据已成为了一个不可忽视的重要领域。由于流数据具有实时性、突发性、无序性、易失性和无限性等多重特性,传统的分布式计算机系统在处理数据时倍感压力。面对这样的挑战,流计算技术的出现成为了解决之道,其能够针对海量的、来自不同数据源的流数据进行实时、高效的分析和处理,满足现代数据处理的需求。基于此,将对流数据处理框架的建设进行深入研究,以大数据技术为基础给出常用的处理框架,以期为提高数据处理水平提供相关参考。 展开更多
关键词 大数据技术 流数据 处理框架 流计算技术
下载PDF
基于大数据分析的个性化推荐在吉林省乡村旅游直播中的运用研究
16
作者 郭羽宁 景莉莉 《产业科技创新》 2024年第4期27-30,共4页
针对当前乡村旅游直播内容推送缺乏个性化的问题,本文构建了大数据驱动的乡村旅游直播精准推荐系统。系统通过用户及内容多源数据采集与处理、用户画像构建、个性化推荐算法设计和结果展示模块,实现用户兴趣模型与旅游内容的精准匹配。... 针对当前乡村旅游直播内容推送缺乏个性化的问题,本文构建了大数据驱动的乡村旅游直播精准推荐系统。系统通过用户及内容多源数据采集与处理、用户画像构建、个性化推荐算法设计和结果展示模块,实现用户兴趣模型与旅游内容的精准匹配。实证结果显示,该推荐系统达到直播内容点击率提升40%、用户黏性增加30%、销售转化提高25%的显著效果。这充分验证了大数据分析与个性化推荐技术在解决当前乡村旅游直播内容推送效能问题中的重要应用价值。 展开更多
关键词 乡村旅游 直播推荐 大数据 个性化
下载PDF
基于“湖仓一体”技术的城轨大数据平台设计与升级改造实践 被引量:1
17
作者 吴雁军 光志瑞 +1 位作者 李明华 陈建华 《都市快轨交通》 北大核心 2024年第1期54-62,共9页
为了探寻城市轨道交通行业大数据平台建设与升级改造的最优方案,本文以城轨大数据平台为研究对象,从城轨大数据平台发展历程出发,梳理城轨大数据平台发展的3个阶段,分析各阶段大数据平台所采用的技术与优缺点,重点总结当前阶段“湖仓一... 为了探寻城市轨道交通行业大数据平台建设与升级改造的最优方案,本文以城轨大数据平台为研究对象,从城轨大数据平台发展历程出发,梳理城轨大数据平台发展的3个阶段,分析各阶段大数据平台所采用的技术与优缺点,重点总结当前阶段“湖仓一体”大数据技术所具备的湖仓一体、流批一体、OLTP+OLAP、多重负载等优点,研究了基于该技术的大数据平台架构升级改造设计要点,并将该技术在北京地铁数据中心的大数据平台升级改造中进行应用验证。结果表明:“湖仓一体”大数据平台技术兼具数据湖的低成本、数据仓库的高性能等优点,解决了原大数据平台在性能、容量与多用途支持上的不足,为城轨行业大数据平台建设与升级改造提供了新的解决思路。 展开更多
关键词 城市轨道交通 大数据平台 升级改造 湖仓一体 流批一体 数据仓库 数据湖
下载PDF
大数据环境下的实时流数据处理与挖掘技术研究
18
作者 葛海霞 《移动信息》 2024年第11期268-270,共3页
在数字化技术快速发展的背景下,大数据技术已逐渐成为支撑信息时代发展的重要基石。实时流数据处理与挖掘作为大数据技术的关键应用方向,在多个行业中扮演着至关重要的角色,特别是在商业分析、网络安全、智能交通等领域。文中旨在探讨... 在数字化技术快速发展的背景下,大数据技术已逐渐成为支撑信息时代发展的重要基石。实时流数据处理与挖掘作为大数据技术的关键应用方向,在多个行业中扮演着至关重要的角色,特别是在商业分析、网络安全、智能交通等领域。文中旨在探讨大数据环境下的实时流数据的处理与挖掘技术,通过分析现有的技术框架与挑战,介绍了该技术在数据挖掘中的具体应用。 展开更多
关键词 实时流数据处理 数据挖掘 大数据技术 数据分析
下载PDF
大数据流式计算:关键技术及系统实例 被引量:313
19
作者 孙大为 张广艳 郑纬民 《软件学报》 EI CSCD 北大核心 2014年第4期839-862,共24页
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域... 大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战. 展开更多
关键词 大数据计算 流式计算 流式大数据 内存计算 系统实例
下载PDF
面向大数据分析的在线学习算法综述 被引量:39
20
作者 李志杰 李元香 +2 位作者 王峰 何国良 匡立 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1707-1721,共15页
大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求.如何对大数据流进行抽取转化成有用的信息并应用于各行各业变得越来越重要.传统的批量机器学习技术在大数据分析的应用中存在许多限制.在线学习技术采用流式计算模... 大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求.如何对大数据流进行抽取转化成有用的信息并应用于各行各业变得越来越重要.传统的批量机器学习技术在大数据分析的应用中存在许多限制.在线学习技术采用流式计算模式,在内存中直接进行数据的实时计算,为流数据的学习提供了有利的工具.介绍了大数据分析的动机与背景,集中展示经典和最新的在线学习方法与算法,这种在线学习体系很有希望解决各种大数据挖掘任务面临的困难与挑战.主要技术内容包括3方面:1)线性模型在线学习;2)基于核的非线性模型在线学习;3)非传统的在线学习方法.各类方法尽量给出详细的模型和伪代码,讨论面向大数据分析的大规模机器学习研究与应用中的关键问题;给出大数据在线学习的3种典型应用场景,并探讨现今或将来在线学习领域进一步的研究方向. 展开更多
关键词 在线学习算法 流数据 大数据分析 监督学习 多任务
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部