-
题名Spark平台下日志清洗系统设计
被引量:2
- 1
-
-
作者
李光明
李垚周
李颀
-
机构
陕西科技大学电子信息与人工智能学院
-
出处
《计算机工程与设计》
北大核心
2020年第12期3580-3587,共8页
-
基金
陕西省科技厅农业科技攻关工程基金项目(2015NY028)。
-
文摘
为解决传统日志清洗系统在数据量增大时出现计算缓慢,磁盘I/O消耗过大,清洗不完善以及数据倾斜等问题,提出基于Spark的日志清洗系统设计。使用Hadoop、Flume、Kafka、Spark Streaming、Hbase等大数据组件进行系统搭建;通过决策对象识别算法对日志中重复数据进行快速过滤、去重,优化Join操作以避免数据倾斜;实现清洗模块,提高数据清洗效率,达到优化系统的目标。实验结果表明,基于Spark的日志清洗系统相比传统的清洗系统而言,日志清洗速度和精准度得到大幅度提升,系统的性能更加稳定。
-
关键词
数据清洗
数据倾斜
决策对象识别算法
大数据组件
火花
-
Keywords
data cleaning
data skew
decision object recognition algorithm
big data components
Spark
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于LCAM理念的电网资产信息分析评价体系研究
- 2
-
-
作者
王维兰
陈红
杨启帆
陈然
崔壮
-
机构
国网福建省电力有限公司信息通信分公司
国网信通亿力科技有限责任公司
-
出处
《微型电脑应用》
2022年第5期96-99,共4页
-
文摘
电网企业的资产存量大、增速快、种类多、成本高、范围广,而且初始投资较大,运行周期长,这对于资产的有效管理是一个大挑战。文章采用全生命周期管理(LCAM)的理念设计了电网资产综合分析评价体系,构建了评价模型,并采用Sqoop数据抽取工具实现源数据采集,采用MapReduce框架实现数据计算,采用HDFS分布式文件系统实现批处理,采用Storm实现数据流实时处理,实现了大数据背景下电网资产信息分析评价系统的设计,并通过实际案例验证了评价模型的实用性。文章所做的研究可以辅助供电企业提升风险管控能力、可持续发展能力的同时也为提升决策者研判能力,提高决策的科学性提供了数据基础。
-
关键词
电网
资产管理
LCAM
大数据组件
-
Keywords
power grid
asset management
LCAM
big data component
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-