期刊文献+

基于集成学习的输变电设备数据质量检测方法 被引量:4

Power grid data quality analysis based on ensemble learning
下载PDF
导出
摘要 在数据分析的应用中,数据质量是一切分析研究的基础,针对电网运行过程中输变电设备基础数据质量不高的问题,首先介绍了电力系统不良数据的产生原因与主要表现形式,并设计了一种通过历史数据训练优化生成的随机森林(一种集成学习算法)模型,可以实现对可疑数据的检测与筛查。通过对不平衡训练样本的处理,在测试算例结果对比中,均衡样本后的随机森林模型比未均衡样本的随机森林在负样本的预测准确率高10%,相比单个决策树模型在正样本的预测准确率也高出9%,这表明了集成学习在计算效率与准确率方面相对其他机器学习分类算法的优势,以及均衡训练样本对模型准确率的提升有明显效果。 Data quality is the cornerstone of any data analysis application. In power grid data analysis, the better raw data obtained from electric transmission and transformation equipment, the easier the data mining job can be done to facilitate smart grid development. Sources and forms of power grid fault record are introduced;optimized random forest(ensemble learning) is used to train the model for suspicious data detection. It focuses on the impact of imbalanced train data and methods to reduce the issue;it also demonstrates through example that ensemble learning boosts the model accuracy than single machine learning models.
作者 高尚 唐元合 翟明玉 许寒阳 Gao Shang;Tang Yuanhe;Zhai Mingyu;Xu Hanyang(Nari Technology Co.,Ltd.,Nanjing 211106,China)
出处 《电子测量技术》 2020年第2期108-112,共5页 Electronic Measurement Technology
基金 国家电网公司科技项目 国电南瑞科技股份有限公司科技项目资助。
关键词 集成学习 随机森林 不平衡分类 输变电数据质量 ensemble learning random forest imbalanced data power grid data quality
  • 相关文献

参考文献13

二级参考文献111

共引文献208

同被引文献35

引证文献4

二级引证文献11

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部