基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重被引量：5

Power grid load data cleaning and De duplication based on cluster analysis and pearson correlation coefficient method

下载PDF

导出

摘要针对电网负荷数据存在冗余和价值密度低等问题,本文提出一种结合K-means算法与Pearson相关系数计算的集成学习方法,对负荷数据进行清洗与去重。设置仿真实验将某地区连续730日的负荷数据进行聚类、切片、排序、比对、去重等分析处理,得到清洗后的新数据集,将新数据集与原数据集代入相同的BP神经网络模型和随机森林模型进行负荷预测,实验结果表明新旧数据集具有相似的特征特性与数据挖掘潜力。与传统的数据去重方法相比,本文提出的数据清洗策略在进行训练集的预处理时,效率和准确度方面均有更好表现,可以为训练用于负荷预测的网络模型提供支持。 Aiming at the problems of redundancy and low value density of power grid load data,this paper proposes an integrated learning method combining K-means algorithm and Pearson correlation coefficient calculation to clean and de duplicate load data.A simulation experiment was set up to cluster,slice,sort,compare and de duplicate the 730 consecutive days'load data of a region,and a new data set was obtained after cleaning.The new data set and the original data set were substituted into the same BP neural network model and random forest model for load forecasting.The experimental results show that the new and old data sets have similar characteristics and data mining potential.Compared with the traditional data de duplication methods,the data cleaning strategy proposed in this paper improves the efficiency and accuracy when preprocessing the training set,and provide support for the training network model used for load forecasting.

作者赵耀虞莉娟苏义鑫郑拓童光波 Zhao Yao;Yu Lijuan;Su Yixin;Zheng Tuo;Tong Guangbo(School of Automation,Wuhan University of Technology,Wuhan 430070,China;Hubei Electric Power Company Huanggang Power Supply Company,Huanggang 438000,Wuhan,China)

机构地区武汉理工大学自动化学院国网湖北省电力有限公司黄冈供电公司

出处《船电技术》 2023年第6期69-75,共7页 Marine Electric & Electronic Engineering

关键词聚类分析 K-MEANS 算法 BAGGING 算法 Pearson相关系数可决系数 cluster analysis K-means algorithm bagging algorithm Pearson correlation coefficient determinable coefficient

分类号 TM714 [电气工程—电力系统及自动化]

引文网络
相关文献

参考文献8

1王雷,李乐为,史金伟,赵景涛,黄强.EMS与DMS间数据交互的数据传输与安全控制操作方法研究[J].电力系统保护与控制,2018,46(10):75-80. 被引量：13
2Qicong Sun,Yan Li,Jason Philhower.Data-driven resilience analysis of power grids[J].Global Energy Interconnection,2021,4(1):104-114. 被引量：2
3孙滢涛,张锋明,陈水标,葛晶.基于多域特征提取的电力数据异常检测方法[J].电力系统及其自动化学报,2022,34(6):105-113. 被引量：23
4李永通,陶顺,赵蕾,郭傲.基于短时间尺度相关性聚类的负荷预测[J].电测与仪表,2019,56(16):32-38. 被引量：12
5荆林国,荆仲毅,张韶晶,张韶颖.考虑随机影响因素的电网饱和负荷概率预测方法[J].电气工程学报,2021,16(3):99-105. 被引量：3
6李维松,许伟杰,张涛.基于小波变换阈值去噪算法的改进[J].计算机仿真,2021,38(6):348-351. 被引量：45
7周玉,朱文豪,房倩,白磊.基于聚类的离群点检测方法研究综述[J].计算机工程与应用,2021,57(12):37-45. 被引量：26
8李寒,余斌,佟宁,王鑫浩.一种电力感知数据的离群点检测方案[J].计算机技术与发展,2020,30(2):153-158. 被引量：6

二级参考文献102

1马少沛,孙庆慧,武雅萱,田茂再.大数据下张量充分降维方法及其应用研究[J].统计研究,2021,38(2):114-134. 被引量：4
2丁恰,卢建刚,钱玉妹,张剑,廖怀庆.一种实用的超短期负荷预测曲线外推方法[J].电力系统自动化,2004,28(16):83-85. 被引量：38
3康重庆,夏清,张伯明.电力系统负荷预测研究综述与发展方向的探讨[J].电力系统自动化,2004,28(17):1-11. 被引量：499
4张兆宁,董肖红,潘云峰.基于小波变换模极大值去噪方法的改进[J].电力系统及其自动化学报,2005,17(2):9-12. 被引量：23
5诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量：69
6王志勇,郭创新,曹一家.基于模糊粗糙集和神经网络的短期负荷预测方法[J].中国电机工程学报,2005,25(19):7-11. 被引量：53
7杨争林,唐国庆,宋燕敏,曹荣章.改进的基于聚类分析的超短期负荷预测方法[J].电力系统自动化,2005,29(24):83-86. 被引量：25
8路轶,王民昆.基于短期负荷预测的超短期负荷预测曲线外推法[J].电力系统自动化,2006,30(16):102-104. 被引量：22
9倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的数据流离群点检测算法[J].计算机研究与发展,2006,43(9):1639-1643. 被引量：20
10刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146-149. 被引量：119

共引文献121

1冯忠义,王咏欣,袁博,冯秀丽,姚志安,吴志刚.基于随机森林和改进局部预测的短期电力负荷预测[J].水利水电技术（中英文）,2021,52(S02):300-305. 被引量：14
2张涵羽,冯忠义,景威鹏,李斌,李欣欣,姚志安.基于稀疏自编码降维的用电模式识别方法[J].水利水电技术（中英文）,2021,52(S02):290-295. 被引量：1
3杜荣华,胡鸿飞,高凯,黄浩.基于变预测时域MPC的自动驾驶汽车轨迹跟踪控制研究[J].机械工程学报,2022,58(24):275-288. 被引量：8
4陈金山.基于密度峰值的电子商务用户行为数据聚类方法[J].哈尔滨师范大学自然科学学报,2023,39(4):65-69.
5孙苏云,郭剑,付阳烨,韩崇,钟焱龙.基于FMCW雷达的非接触式心率估计方法[J].电子测量技术,2023,46(14):117-122.
6徐菁,倪淑燕.基于改进小波阈值的时差频差联合估计[J].电声技术,2022,46(8):112-117.
7曹栋,毕研钊,黄秋茗,陈映恺,郭林峰,赖敏.联合改进小波阈值的BOTDR降噪技术研究[J].国外电子测量技术,2022,41(4):83-86. 被引量：9
8王腾,陈丁.基于EMS的电力系统安全运行规划设计[J].农村电气化,2019,0(8):49-50. 被引量：5
9邱帆,陈兰兰,林楠,左黎明.基于SM9的配电网Modbus报文安全性分析及改进[J].中国电力,2019,52(10):18-25. 被引量：8
10管荑,郭伟琪,沈涛,王先富.基于多数据源校验的配电网数据质量在线监控方法与实现[J].微型电脑应用,2020,36(1):30-32. 被引量：6

同被引文献49

1丁宇,李瑞祥.利用pandas的数据清洗功能来提取宽带用户的相关信息[J].网络安全和信息化,2021(9):94-96. 被引量：6
2施择,毕丽玫,史建武,向峰,钱丽艳,宁平.昆明多风季节大气PM_(2.5)污染特征及来源分析[J].环境科学与技术,2014,37(12):143-147. 被引量：15
3毕丽玫,郝吉明,宁平,史建武,施择,徐晓峰.昆明城区大气PM_(2.5)中PAHs的污染特征及来源分析[J].中国环境科学,2015,35(3):659-667. 被引量：40
4淡军.基于并行二分K-means算法在异常检测中的应用[J].福建电脑,2016,32(2):104-106. 被引量：2
5董娴,周俊.基于优化BP神经网络的预测模型在纺纱企业能源管理中的应用[J].工业控制计算机,2016,29(5):150-152. 被引量：1
6赵一凡,卞良,丛昕.数据清洗方法研究综述[J].软件导刊,2017,16(12):222-224. 被引量：24
7刘寅,向峰,韩新宇,施择,王成辉,黄云,史建武,宁平.昆明中心城区夏秋季大气VOCs的污染特征及来源解析[J].云南大学学报（自然科学版）,2018,40(1):104-112. 被引量：10
8严英杰,盛戈皞,陈玉峰,江秀臣,郭志红,秦少鹏.基于时间序列分析的输变电设备状态大数据清洗方法[J].电力系统自动化,2015,39(7):138-144. 被引量：89
9郭蒙蒙,姜楠,王申博,段时光,张瑞芹.郑州市2014～2017年大气污染特征及气象条件影响分析[J].环境科学,2019,40(9):3856-3867. 被引量：57
10李兆彪.昆明大气中NO、NO2和O3浓度变化的相关性和影响因素[J].环境与发展,2019,31(9):144-145. 被引量：4

引证文献5

1朱小社.一种基于机器学习的大学生体能测试综合评价及运动干预处方智能推荐方法研究[J].广州城市职业学院学报,2023,17(3):96-100. 被引量：2
2刘聪.基于深度学习的配电网负荷自动协调控制方法[J].自动化应用,2023,64(23):194-196. 被引量：1
3赵旸,董泽宇,杨芳园.2014-2022年昆明市空气质量与气象因子关系探析[J].云南地理环境研究,2023,35(5):70-76.
4符艺超,吴海杰,谢敏.基于改进型SVM的电网计量信息快速清洗研究[J].长江信息通信,2024,37(1):94-96.
5黄启航,汝欣,戴宁,俞博,陈炜,徐郁山.基于聚类分析法的织造车间能耗数据清洗[J].软件工程,2024,27(7):22-27.

二级引证文献3

1谢彬.机器学习与职业院校网球教学的融合:智能辅助训练系统的设计与应用[J].网球天地,2024(6):58-60.
2李鹏,余涛,李立浧,张孝顺,潘振宁,黄文琦,黄展鸿.电力人工智能的演变与展望——从专业智能走向通用智能[J].电力系统自动化,2024,48(16):1-17. 被引量：1
3任鹏.带约束弱监督学习算法的企业专利附图高关联性自动化推荐[J].电子设计工程,2024,32(20):134-139.

1韦金华.高校图书馆提升服务能力的作用、瓶颈及改进路径[J].教育观察,2023,12(10):105-108.
2梁露,张智晟.基于多尺度特征增强DHTCN的电力系统短期负荷预测研究[J].电力系统保护与控制,2023,51(10):172-179. 被引量：5
3张飞.深度调峰下燃煤机组运行方式对能耗的影响分析[J].中国设备工程,2023(12):150-152. 被引量：3
4陈浩然,赵晓丽.考虑分布式光伏发电的电动汽车充电策略研究[J].中国管理科学,2023,31(4):161-170. 被引量：3
5吕信,吴丽娟,刘兆国.关于知识产权证券化赋能科创企业发展的路径探析[J].现代金融,2023(5):28-33. 被引量：1
6蔡新雷,祝锦舟,刘霡,刘佳乐,孟子杰,余洋.基于改进野狗优化算法的电动汽车调峰策略[J].储能科学与技术,2023,12(6):1913-1919. 被引量：4
7王振科,白云鹏.社区建成环境对中等收入群体机动车行驶里程的非线性影响模型[J].重庆理工大学学报（自然科学）,2023,37(5):159-168. 被引量：1
8周剑冰.平衡计分卡在Y报业传媒集团的应用设计[J].老字号品牌营销,2023(11):172-174.
9洪继炜,王佳斌,刘成.基于项目相似度的加权Slope One算法研究[J].现代计算机,2023,29(9):60-63.
10杨宏伟,赵和萍,马瑛.新疆农业经济高质量发展水平测度与实现路径[J].中国农机化学报,2023,44(5):249-256. 被引量：6

船电技术

2023年第6期

浏览历史

内容加载中请稍等...

基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重被引量：5

参考文献8

二级参考文献102

共引文献121

同被引文献49

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重 被引量：5

参考文献8

二级参考文献102

共引文献121

同被引文献49

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重被引量：5