-
题名基于流数据聚类算法的电力大数据异常检测
被引量:15
- 1
-
-
作者
于小青
齐林海
-
机构
华北电力大学控制与计算机工程学院
-
出处
《电力信息与通信技术》
2020年第3期8-14,共7页
-
基金
国家电网公司科技项目资助“城市电网电能质量大数据深化分析及应用技术研究”(52094018001C)。
-
文摘
针对电力大数据流的异常检测问题,该文将流数据聚类算法与电力大数据相结合,针对现有流数据聚类算法不易存储全部数据、断电数据易丢失等问题,以及流数据聚类算法对于离线阶段聚类算法实时应答的要求,从数据的完整性、安全性以及流数据聚类算法的低时间复杂度的角度出发,对CluStream流数据聚类算法进行改进,提出流式K-means聚类算法。对在线阶段,使用Redis集群进行流数据的缓冲,并设计节点时间衰减策略,增大心跳消息中有效消息所占比例;对离线阶段聚类算法进行优化,使用最佳距离法确定初始聚类中心,减少迭代次数;最后,使用所提出的流式K-means聚类算法进行用户用电异常行为检测,实验结果表明,该算法能够很好的发现用户用电异常行为。
-
关键词
电力大数据
流数据聚类
流式K-means聚类
用户用电异常
-
Keywords
power big data
stream data clustering
streaming K-means clustering
abnormal customer electricity behavior
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名传统与流数据聚类算法
被引量:2
- 2
-
-
作者
刘晓璐
王志栋
单广荣
-
机构
西北民族大学
大连交通大学机车车辆工程学院
-
出处
《现代计算机》
2020年第29期25-28,共4页
-
文摘
在数据骤增的大数据时代,聚类算法成为研究热点。首先,介绍传统聚类算法与流数据聚类算法,流数据聚类算法可以达到数据快速扫描并分类形成簇集合的效果。此外,介绍基于划分的传统算法K-means、K-means++、K-中心点以及基于流数据的Stream算法;基于层次的传统算法BIRCH以及基于流数据的CluStream算法;基于密度的传统算法DNSCAN以及基于流数据的DenStream算法;基于网格的传统算法CLIQUE以及基于流数据的D-Stream算法。
-
关键词
传统聚类
流数据聚类
类
大数据
-
Keywords
Traditional Clustering
Streaming Data Clustering
Class
Big Data
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网格和MST的混合属性流数据聚类算法
- 3
-
-
作者
俞智君
张凤斌
-
机构
哈尔滨理工大学计算机科学与技术学院
-
出处
《电脑知识与技术》
2010年第7期5220-5222,共3页
-
文摘
现有的流数据聚类算法往往只能处理单一属性类型的流数据,或是不能发现任意形状的聚类。针对这个问题,该文提出一种混合属性流数据聚类算法GTMS,算法使用了网格及MST(最小生成树)技术,采用基于信息增益和几何相邻的方法来计算混合类型数据相似度。实验表明该算法能够有效地处理混合属性流数据。
-
关键词
流数据聚类
混合属性
网格
最小生成树
-
Keywords
stream data
mixed attributes
grid
minimum spanning tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Spark的云数据中心性能异常实时检测方法
- 4
-
-
作者
蔡斌雷
郭芹
-
机构
山东省科学院情报研究所
南开大学数学科学学院
-
出处
《西安职业技术学院学报》
2016年第3期1-5,19,共6页
-
基金
本文系2014年度山东省科技发展计划资助项目“智能交通大数据实时计算关键技术研究及应用”(项目编号:2014GGX101013)
2015年度山东省重点研发计划资助项目“基于大数据实时计算方法的交通流在线知识发现关键技术研究”(项目编号:2015GGX101032)阶段性成果.
-
文摘
针对当前云计算环境下数据中心性能异常检测方法的实时性、可扩展性问题,提出一种云数据中心环境下基于Spark的性能异常实时检测方法Spark—ADOPD(Spark-based Anomaly Detection OverPerformance DataInRealtime).方法设计基于Spark的分布式、可扩展流数据聚类算法对采集的云数据中心性能数据进行自动分类,建立性能异常预测模型;定义相似度函数,通过计算持续到达的性能数据与预测模型的相似度,挖掘性能异常行为,以动态调整资源分配.实验结果证明Spark-ADOPD具有较好的实时性和准确性.
-
关键词
异常检测
流数据聚类
SPARK
资源调度
云数据中心
-
Keywords
anomaly detection
stream data clustering
Spark
resource scheduling
cloud data center
-
分类号
TH453
[机械工程—机械制造及自动化]
-