期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Spark平台下日志清洗系统设计 被引量:2
1
作者 李光明 李垚周 李颀 《计算机工程与设计》 北大核心 2020年第12期3580-3587,共8页
为解决传统日志清洗系统在数据量增大时出现计算缓慢,磁盘I/O消耗过大,清洗不完善以及数据倾斜等问题,提出基于Spark的日志清洗系统设计。使用Hadoop、Flume、Kafka、Spark Streaming、Hbase等大数据组件进行系统搭建;通过决策对象识别... 为解决传统日志清洗系统在数据量增大时出现计算缓慢,磁盘I/O消耗过大,清洗不完善以及数据倾斜等问题,提出基于Spark的日志清洗系统设计。使用Hadoop、Flume、Kafka、Spark Streaming、Hbase等大数据组件进行系统搭建;通过决策对象识别算法对日志中重复数据进行快速过滤、去重,优化Join操作以避免数据倾斜;实现清洗模块,提高数据清洗效率,达到优化系统的目标。实验结果表明,基于Spark的日志清洗系统相比传统的清洗系统而言,日志清洗速度和精准度得到大幅度提升,系统的性能更加稳定。 展开更多
关键词 数据清洗 数据倾斜 决策对象识别算法 大数据组件 火花
下载PDF
基于LCAM理念的电网资产信息分析评价体系研究
2
作者 王维兰 陈红 +2 位作者 杨启帆 陈然 崔壮 《微型电脑应用》 2022年第5期96-99,共4页
电网企业的资产存量大、增速快、种类多、成本高、范围广,而且初始投资较大,运行周期长,这对于资产的有效管理是一个大挑战。文章采用全生命周期管理(LCAM)的理念设计了电网资产综合分析评价体系,构建了评价模型,并采用Sqoop数据抽取工... 电网企业的资产存量大、增速快、种类多、成本高、范围广,而且初始投资较大,运行周期长,这对于资产的有效管理是一个大挑战。文章采用全生命周期管理(LCAM)的理念设计了电网资产综合分析评价体系,构建了评价模型,并采用Sqoop数据抽取工具实现源数据采集,采用MapReduce框架实现数据计算,采用HDFS分布式文件系统实现批处理,采用Storm实现数据流实时处理,实现了大数据背景下电网资产信息分析评价系统的设计,并通过实际案例验证了评价模型的实用性。文章所做的研究可以辅助供电企业提升风险管控能力、可持续发展能力的同时也为提升决策者研判能力,提高决策的科学性提供了数据基础。 展开更多
关键词 电网 资产管理 LCAM 大数据组件
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部