摘要
针对经典K-means选取初始值具有一定的盲目性和不确定性,提出了基于Canopy+算法的改进K-means聚类算法。首先对实验数据进行预处理,并从每条日负荷数据提取六个特征值;然后搭建Spark大数据集群,利用集群具有的内存并行化特点,提升改进聚类算法处理大规模数据的能力;最后将预处理后的用户日负荷数据进行单机K-means以及改进后算法的集群聚类。实验结果表明,在降低迭代次数的基础上,改进后集群聚类算法误差平方和降低3 659.906、轮廓系数提高0.03、DB指数下降0.06。使用改进后算法将电力用户划分为五个类别,其中具有调峰潜力、较优质的需求侧响应用户为第5类用户。
作者
黄东升
郭崇
HUANG Dongsheng;GUO Chong
出处
《信息技术与信息化》
2023年第7期116-118,122,共4页
Information Technology and Informatization