期刊文献+
共找到204篇文章
< 1 2 11 >
每页显示 20 50 100
Big Data Stream Analytics for Near Real-Time Sentiment Analysis 被引量:1
1
作者 Otto K. M. Cheng Raymond Lau 《Journal of Computer and Communications》 2015年第5期189-195,共7页
In the era of big data, huge volumes of data are generated from online social networks, sensor networks, mobile devices, and organizations’ enterprise systems. This phenomenon provides organizations with unprecedente... In the era of big data, huge volumes of data are generated from online social networks, sensor networks, mobile devices, and organizations’ enterprise systems. This phenomenon provides organizations with unprecedented opportunities to tap into big data to mine valuable business intelligence. However, traditional business analytics methods may not be able to cope with the flood of big data. The main contribution of this paper is the illustration of the development of a novel big data stream analytics framework named BDSASA that leverages a probabilistic language model to analyze the consumer sentiments embedded in hundreds of millions of online consumer reviews. In particular, an inference model is embedded into the classical language modeling framework to enhance the prediction of consumer sentiments. The practical implication of our research work is that organizations can apply our big data stream analytics framework to analyze consumers’ product preferences, and hence develop more effective marketing and production strategies. 展开更多
关键词 big data data stream ANALYTICS SENTIMENT Analysis ONLINE Review
下载PDF
Incremental Learning Framework for Mining Big Data Stream
2
作者 Alaa Eisa Nora E.L-Rashidy +2 位作者 Mohammad Dahman Alshehri Hazem M.El-bakry Samir Abdelrazek 《Computers, Materials & Continua》 SCIE EI 2022年第5期2901-2921,共21页
At this current time,data stream classification plays a key role in big data analytics due to its enormous growth.Most of the existing classification methods used ensemble learning,which is trustworthy but these metho... At this current time,data stream classification plays a key role in big data analytics due to its enormous growth.Most of the existing classification methods used ensemble learning,which is trustworthy but these methods are not effective to face the issues of learning from imbalanced big data,it also supposes that all data are pre-classified.Another weakness of current methods is that it takes a long evaluation time when the target data stream contains a high number of features.The main objective of this research is to develop a new method for incremental learning based on the proposed ant lion fuzzy-generative adversarial network model.The proposed model is implemented in spark architecture.For each data stream,the class output is computed at slave nodes by training a generative adversarial network with the back propagation error based on fuzzy bound computation.This method overcomes the limitations of existing methods as it can classify data streams that are slightly or completely unlabeled data and providing high scalability and efficiency.The results show that the proposed model outperforms stateof-the-art performance in terms of accuracy(0.861)precision(0.9328)and minimal MSE(0.0416). 展开更多
关键词 Ant lion optimization(ALO) big data stream generative adversarial network(GAN) incremental learning renyi entropy
下载PDF
不确定大数据流分类的决策树模型构建仿真
3
作者 杨知玲 谭树杰 《计算机仿真》 2024年第5期532-535,542,共5页
在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类... 在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类过程产生的干扰。构建决策树,在剪枝过程中通过特征过滤算法,滤除不确定大数据流中掺杂的孤立点。将去噪后的不确定大数据流,输入决策树模型中,完成分类工作。实验结果表明,所提算法处理后的不确定大数据流振幅明显减小,且分类精度高,具有一定的应用价值。 展开更多
关键词 决策树模型 在线字典学习算法 特征过滤 不确定大数据流 数据分类
下载PDF
医院大数据平台建设难点及关键技术研究 被引量:2
4
作者 宋雪 王觅也 +2 位作者 郑涛 师庆科 黄勇 《中国卫生信息管理杂志》 2024年第2期286-290,324,共6页
目的解决医院大数据平台在数据采集、治理及应用环节面临的困难。方法总结建设大数据平台的经验,深入分析该平台在各环节的建设难点,提出“流批一体”数据处理、“湖仓一体”存储、存算分离等关键技术方案。结果该平台已接入医院34个业... 目的解决医院大数据平台在数据采集、治理及应用环节面临的困难。方法总结建设大数据平台的经验,深入分析该平台在各环节的建设难点,提出“流批一体”数据处理、“湖仓一体”存储、存算分离等关键技术方案。结果该平台已接入医院34个业务系统数据、超过3PB的基因组学数据,提供超过2500TFLOPS的算力资源,为医院临床诊疗、管理决策、临床科研提供应用服务。结论以应用为驱动的大数据平台逐步实现了医院数据资产的统一存储和集中管理,有助于推动大数据技术在医疗领域的应用和发展。 展开更多
关键词 医疗大数据 数据采集 数据治理 数据应用 流批一体
下载PDF
基于流计算和大数据平台的实时交通流预测 被引量:1
5
作者 李星辉 曾碧 魏鹏飞 《计算机工程与设计》 北大核心 2024年第2期553-561,共9页
目前交通流预测实时性差,很难满足在线分析和预测任务的需求,基于此提出一种Flink流计算框架和大数据平台结合的实时交通流预测方法。基于流计算框架实时捕捉和预处理数据,包括采用Flink的transform算子对数据进行校验和处理,将处理后... 目前交通流预测实时性差,很难满足在线分析和预测任务的需求,基于此提出一种Flink流计算框架和大数据平台结合的实时交通流预测方法。基于流计算框架实时捕捉和预处理数据,包括采用Flink的transform算子对数据进行校验和处理,将处理后的数据sink到大数据的HDFS文件系统,交由下一步的大数据并行框架进行分析建模与训练,实现基于流计算和大数据平台的实时交通流预测。实验结果表明,Flink能够实时捕捉和预处理交通流数据,把数据准时无误送入分布式文件系统中,在此基础上借助大数据框架下的并行分析和建模优势,在实时性数据分析与预测方面取得了较好的效果。 展开更多
关键词 大数据 数据并行 流计算框架 实时处理 交通流预测 分布式系统 实时性分析
下载PDF
基于Spark Streaming的实时能耗分项计量系统 被引量:9
6
作者 武志学 《计算机应用》 CSCD 北大核心 2017年第4期928-935,共8页
能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生... 能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生快、实时性强、数据量大,所以很难统一采集并入库存储后再作处理,这便导致传统的数据处理架构不能满足需求。为此,提出基于Spark Streaming大数据流式技术构建一个实时能耗分项计量系统,对实时能耗分项计量的系统架构和内部结构进行了详细介绍,并通过实验数据分析了系统的实时数据处理能力。与传统架构不同,实时能耗分项计量系统在数据流动的过程中实时地进行捕捉和处理,一方面把捕捉到的异常信息及时报警到前端,同时把分类分项统计处理的结果保存到数据库,以便进行离线分析和数据挖掘,能有效地解决上述数据处理过程中遇到的问题。 展开更多
关键词 流式计算 能耗分项计量 SPARK streamING APACHE Kafka 大数据
下载PDF
基于流式计算的垃圾短信治理关键技术研究
7
作者 王九九 狄秋燕 马永亮 《邮电设计技术》 2024年第5期56-61,共6页
某运营商在现网垃圾短信治理中,常采用关键字+规则的方法,难以在拦截成功率和误拦正常短信之间找到平衡。基于文本语义分析识别垃圾短信,则需要解决大数据挖掘算法、海量数据处理、响应时效等问题,因此在大业务量的集约化平台上应用并... 某运营商在现网垃圾短信治理中,常采用关键字+规则的方法,难以在拦截成功率和误拦正常短信之间找到平衡。基于文本语义分析识别垃圾短信,则需要解决大数据挖掘算法、海量数据处理、响应时效等问题,因此在大业务量的集约化平台上应用并不广泛。通过算法研究、开发原型系统等工作,探索基于流式计算的垃圾短信治理技术方案,研发了一套基于Storm+Mahout架构的垃圾短信识别原型系统,完成了性能和准确率测试,取得了较好的效果。 展开更多
关键词 垃圾短信治理 自然语言处理 大数据 流式计算
下载PDF
异构网络端到端性能质量监控研究
8
作者 陈洋 赵大明 《现代信息科技》 2024年第7期1-6,共6页
在数字治理的大环境下,组织或企业需要通过一套更加科学的网络监控方法来治理和管理在异构网络中出现的端到端问题。文章采用当前流行的大数据流式计算和关联分析方法,基于数据挖掘思想对异构网络环境下的VPDN端到端性能监控进行了分析... 在数字治理的大环境下,组织或企业需要通过一套更加科学的网络监控方法来治理和管理在异构网络中出现的端到端问题。文章采用当前流行的大数据流式计算和关联分析方法,基于数据挖掘思想对异构网络环境下的VPDN端到端性能监控进行了分析,提出性能质量监控框架,并整合现有平台设计出监控软件体系结构,解决了VPDN无法端到端监控的问题,有效提升了数字治理的质量和效率。 展开更多
关键词 数字治理 大数据 流式计算 端到端 性能质量监控
下载PDF
大数据技术下的流数据处理框架构建研究
9
作者 邹威 罗小刚 周亮 《科技资讯》 2024年第18期36-38,共3页
在大数据技术快速发展的背景下,流数据已成为了一个不可忽视的重要领域。由于流数据具有实时性、突发性、无序性、易失性和无限性等多重特性,传统的分布式计算机系统在处理数据时倍感压力。面对这样的挑战,流计算技术的出现成为了解决之... 在大数据技术快速发展的背景下,流数据已成为了一个不可忽视的重要领域。由于流数据具有实时性、突发性、无序性、易失性和无限性等多重特性,传统的分布式计算机系统在处理数据时倍感压力。面对这样的挑战,流计算技术的出现成为了解决之道,其能够针对海量的、来自不同数据源的流数据进行实时、高效的分析和处理,满足现代数据处理的需求。基于此,将对流数据处理框架的建设进行深入研究,以大数据技术为基础给出常用的处理框架,以期为提高数据处理水平提供相关参考。 展开更多
关键词 大数据技术 流数据 处理框架 流计算技术
下载PDF
基于大数据分析的个性化推荐在吉林省乡村旅游直播中的运用研究
10
作者 郭羽宁 景莉莉 《产业科技创新》 2024年第4期27-30,共4页
针对当前乡村旅游直播内容推送缺乏个性化的问题,本文构建了大数据驱动的乡村旅游直播精准推荐系统。系统通过用户及内容多源数据采集与处理、用户画像构建、个性化推荐算法设计和结果展示模块,实现用户兴趣模型与旅游内容的精准匹配。... 针对当前乡村旅游直播内容推送缺乏个性化的问题,本文构建了大数据驱动的乡村旅游直播精准推荐系统。系统通过用户及内容多源数据采集与处理、用户画像构建、个性化推荐算法设计和结果展示模块,实现用户兴趣模型与旅游内容的精准匹配。实证结果显示,该推荐系统达到直播内容点击率提升40%、用户黏性增加30%、销售转化提高25%的显著效果。这充分验证了大数据分析与个性化推荐技术在解决当前乡村旅游直播内容推送效能问题中的重要应用价值。 展开更多
关键词 乡村旅游 直播推荐 大数据 个性化
下载PDF
基于“湖仓一体”技术的城轨大数据平台设计与升级改造实践 被引量:1
11
作者 吴雁军 光志瑞 +1 位作者 李明华 陈建华 《都市快轨交通》 北大核心 2024年第1期54-62,共9页
为了探寻城市轨道交通行业大数据平台建设与升级改造的最优方案,本文以城轨大数据平台为研究对象,从城轨大数据平台发展历程出发,梳理城轨大数据平台发展的3个阶段,分析各阶段大数据平台所采用的技术与优缺点,重点总结当前阶段“湖仓一... 为了探寻城市轨道交通行业大数据平台建设与升级改造的最优方案,本文以城轨大数据平台为研究对象,从城轨大数据平台发展历程出发,梳理城轨大数据平台发展的3个阶段,分析各阶段大数据平台所采用的技术与优缺点,重点总结当前阶段“湖仓一体”大数据技术所具备的湖仓一体、流批一体、OLTP+OLAP、多重负载等优点,研究了基于该技术的大数据平台架构升级改造设计要点,并将该技术在北京地铁数据中心的大数据平台升级改造中进行应用验证。结果表明:“湖仓一体”大数据平台技术兼具数据湖的低成本、数据仓库的高性能等优点,解决了原大数据平台在性能、容量与多用途支持上的不足,为城轨行业大数据平台建设与升级改造提供了新的解决思路。 展开更多
关键词 城市轨道交通 大数据平台 升级改造 湖仓一体 流批一体 数据仓库 数据湖
下载PDF
基于Spark Streaming的电力流式大数据分析架构及应用 被引量:13
12
作者 田璐 齐林海 +3 位作者 李青 王红 田世明 卜凡鹏 《电力信息与通信技术》 2019年第2期23-29,共7页
近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、... 近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、实时计算和分布式存储系统的结合有效地解决并发访问数据流的收集、存储、实时分析等问题,从而实现电力行业流数据的实时分析。最后构建用电数据实时异常检测系统验证了其性能。 展开更多
关键词 SPARK streamING 电力流式大数据 电力数据分析 异常检测
下载PDF
基于Spark Streaming的实时流数据处理模型化研究与实现 被引量:2
13
作者 云惟英 苟宇 +1 位作者 王京 王丽莉 《测绘与空间地理信息》 2017年第S1期48-50,55,共4页
通过研究与分析,选取Spark Streaming技术实现对P实时流数据的处理.同时,研究出一套模型化的方式,实现动态装配软件的执行过程;并通过具体的实例展示了两者结合后,在数据处理的易用性、性能及吞吐量方面,都得到了大幅提升.
关键词 SPARK streamING 空间大数据 时实流数据
下载PDF
基于Spark Streaming的实时交通数据处理平台 被引量:13
14
作者 谭亮 周静 《计算机系统应用》 2018年第10期133-139,共7页
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了... 交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用. 展开更多
关键词 大数据 流处理系统 双基基站数据 SPARK streamING APACHE Kafka
下载PDF
基于Spark Streaming的海量日志实时处理系统的设计 被引量:7
15
作者 陆世鹏 《电子产品可靠性与环境试验》 2017年第5期71-76,共6页
在网络系统日志信息规模不断增长的情况下,结合运维中的实际需求,通过大数据技术,提出了一种基于Spark Streaming的海量日志实时处理系统,并详细地介绍了系统的底层日志数据收集、传输、计算、存储、查询存储等一系列功能的设计与实现... 在网络系统日志信息规模不断增长的情况下,结合运维中的实际需求,通过大数据技术,提出了一种基于Spark Streaming的海量日志实时处理系统,并详细地介绍了系统的底层日志数据收集、传输、计算、存储、查询存储等一系列功能的设计与实现。该系统不仅能够准确、实时地解析日志信息,对数据进行统计分析,而且能对历史日志数据进行实时存储和离线计算处理。 展开更多
关键词 大数据 SPARK streamING 日志分析 分布式计算
下载PDF
基于Structured Streaming的实时文本画像系统设计与实现
16
作者 谢莹庆 熊义龙 曹炳尧 《工业控制计算机》 2022年第11期114-116,118,共4页
针对大数据环境下画像系统的实时性和准确性问题,提出一种基于Structured Streaming的实时画像系统设计与实现。利用canal组件对用户行为日志系统实现增量订阅,kafka消息中间件完成实时数据流接入,应用Structured Streaming实时计算框... 针对大数据环境下画像系统的实时性和准确性问题,提出一种基于Structured Streaming的实时画像系统设计与实现。利用canal组件对用户行为日志系统实现增量订阅,kafka消息中间件完成实时数据流接入,应用Structured Streaming实时计算框架对用户的实时数据进行分析处理,刻画用户的实时兴趣。通过改进的TF-IDF算法改善文本画像系统的准确性与可靠性,并借助Structured Streaming与静态数据良好的交互性减轻实时计算压力,提高系统响应速度。 展开更多
关键词 Structured streaming 大数据 画像系统 TF-IDF
下载PDF
基于水车模型的时序大数据快速存储 被引量:2
17
作者 陆铭琛 吕晏齐 +1 位作者 刘睿诚 金培权 《计算机科学》 CSCD 北大核心 2023年第1期25-33,共9页
近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久... 近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久化,以供后续的查询和分析。这对存储系统的写入性能提出了更高的要求。基于水车模型的快速存储系统可以满足大数据应用场景下的高速时序数据流快速存储需求。该系统部署在高速时序数据流和底层存储节点之间,利用多个数据桶构建一个逻辑上轮转的存储模型(类似于中国古代的水车),并且通过控制每个数据桶的状态来协调数据的写入和落盘。水车模型将数据桶分配给不同的底层存储节点,从而将瞬时写入压力均摊到多个底层存储节点上,并借助多节点的并行写入提高写吞吐。水车模型被部署在单机版MongoDB上,并和分布式MongoDB进行了实验对比。实验结果表明,水车模型可以有效提升系统的写吞吐,降低写入延迟,并且具有良好的横向可扩展性。 展开更多
关键词 时序大数据 流式数据 快速存储 水车模型 中间件
下载PDF
网络直播大数据:统计特征与时序规律挖掘 被引量:1
18
作者 郭淑慧 吕欣 《复杂系统与复杂性科学》 CAS CSCD 北大核心 2023年第2期1-9,19,共10页
为挖掘网络直播领域数百万主播与数亿计观众的活跃互动下大规模人群行为学特征,以斗鱼和虎牙直播平台为例,统计分析了连续123天、涉及240多万名主播、超过7.26亿条的直播数据,总结了直播平台的负载时序规律和用户行为特征。发现直播负... 为挖掘网络直播领域数百万主播与数亿计观众的活跃互动下大规模人群行为学特征,以斗鱼和虎牙直播平台为例,统计分析了连续123天、涉及240多万名主播、超过7.26亿条的直播数据,总结了直播平台的负载时序规律和用户行为特征。发现直播负载存在明显的日内效应和周内效应,不同直播模式的主播在观众数、粉丝数等统计特征上存在显著的组间差异,主播生存期和直播间观众数量符合幂律分布,随着平台发展,主播和观众数量呈现较强的线性相关性,但其波动性也逐步增大,体现出系统越来越强的异质性和非均匀性。对理解网络直播复杂系统中的用户行为模式、挖掘用户分布规律及变化趋势、设计商业模式如个性化推荐等方面具有重要意义。 展开更多
关键词 网络直播 直播平台 大数据 流量分析 行为动力学
下载PDF
流式计算引擎中密集滑动窗口的性能优化研究 被引量:1
19
作者 程盛阳 《软件工程》 2023年第4期42-45,共4页
为缓解目前的大数据流式计算引擎在处理密集窗口时因高负载而带来的性能下降问题,文章分析了原生窗口机制的性能瓶颈以及现有优化方法的不足之处,包括需要额外的内存空间用于存储输入的数据流、无法自动清理状态缓存等,提出一种基于关... 为缓解目前的大数据流式计算引擎在处理密集窗口时因高负载而带来的性能下降问题,文章分析了原生窗口机制的性能瓶颈以及现有优化方法的不足之处,包括需要额外的内存空间用于存储输入的数据流、无法自动清理状态缓存等,提出一种基于关键窗口机制的优化方案,该方案能够减少流式计算中需要创建的窗口数量,具有降低系统负载的效果。通过与原生机制进行对比分析,证明此优化方案的有效性。该优化方案具有能兼容现有框架、对下游系统改造少及同时提升内存占用和I/O频率两个方面性能的优点。 展开更多
关键词 大数据 流式计算 窗口计算 Flink
下载PDF
A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning 被引量:6
20
作者 Yanxia Lv Sancheng Peng +4 位作者 Ying Yuan Cong Wang Pengfei Yin Jiemin Liu Cuirong Wang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2019年第4期379-388,共10页
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this ... By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream. 展开更多
关键词 big data stream classification ONLINE BAGGING ensemble LEARNING concept DRIFT
原文传递
上一页 1 2 11 下一页 到第
使用帮助 返回顶部