摘要
数据作为现代企业的宝贵资源,占据着越来越重要的地位,它是科学管理的基础、正确决策的前提、有效调控的手段。本文介绍了数据预处理的主要方法,包括:数据清洗、数据集成、数据变换和数据归约。根据这些数据方法来对2015-2017年电网生产项目的原始数据进行处理。其中重点包括:缺失值的处理,异常值的处理,变量和变量值的变换,以及数据精简。最终为电网生产项目优化的分析建模和算法提供可靠性的数据支持。
As a valuable resource of modern enterprises,data occupies a more and more important position.It is the basis of scientific management,the premise of correct decision-making,and the effective means of regulation and control.This paper introduces the main methods of data preprocessing,including data cleaning,data integration,data transformation and data reduction.According to these data methods,the original data of 2015-2017 power grid production project are processed.The emphasis includes the processing of missing value,the processing of outlier value,the transformation of variable and variable value,and the simplification of data.Finally,it provides reliable data support for the analysis,modeling and algorithm of power grid production project optimization.
作者
杨凯
赵明洲
毛文瑞
张瑛楠
Yang Kai;Zhao Mingzhou;Mao Wenrui;Zhang Yingnan(Institute of Management Science,Guangdong Power Grid Corporation,Guangzhou Guangdong,510000)
出处
《电子测试》
2019年第1期80-81,共2页
Electronic Test
关键词
数据分析
数据挖掘
数据预处理
缺失值
异常值
data analysis
data mining
data preprocessing
missing value
outlier value