首先证明了快速核密度估计(Fast kernel density estimate,FKDE)定理:基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关,而与总样本容量无关.接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based ...首先证明了快速核密度估计(Fast kernel density estimate,FKDE)定理:基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关,而与总样本容量无关.接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based relaxed clustering,GRC)算法的目标表达式可分解成"Parzen窗加权和+平方熵"的形式,即此时GRC可视作一个核密度估计问题,这样基于KDE近似策略,本文提出了大规模图论松弛聚类方法(Scaling up GRC by KDEapproximation,SUGRC-KDEA).较之先前的工作,这一方法的优势在于为GRC作用于大规模数据集提供了更简单和易于实现的方案.展开更多
[目的]供电部门记录的正确的拓扑信息有助于工作人员监测电网信息,分析故障,优化电网运行以满足低压配电台区精益化、智能化管理的需要。目前,各式新型用电设备及用户的加入使低压配电网络结构呈现出持续变化的特征,线路维护成本被大大...[目的]供电部门记录的正确的拓扑信息有助于工作人员监测电网信息,分析故障,优化电网运行以满足低压配电台区精益化、智能化管理的需要。目前,各式新型用电设备及用户的加入使低压配电网络结构呈现出持续变化的特征,线路维护成本被大大提高。[方法]为此,提出基于密度聚类的低压台区归属关系识别方法。首先,提取智能电表有效电压数据生成高维时序电压矩阵;其次,采用t分布随机近邻嵌入方法(t-distributed Stochastic Neighbor Embedding,t-SNE)对高维时序电压数据进行特征提取与降维;然后,应用基于数据密度的噪声应用空间聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)对降维后的数据进行聚类分析,实现低压用户台区归属信息的识别;最后,对海南省三亚市某台区实际数据进行分析,并将所提方法与其他主流的拓扑识别算法进行对比。[结果]分析结果表明所提方法能够达到95%以上的台区识别准确率,高于目前其他主流的拓扑信息识别方法。[结论]文章中的方法在解决此类问题上具有有效性与优势性,可以为实际工程应用提供参考,为低压台区拓扑信息识别领域提供不一样的研究思路。展开更多
聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法,算法简单实用,但聚类结果依赖于参数dc的经验选择。论文提...聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法,算法简单实用,但聚类结果依赖于参数dc的经验选择。论文提出一种改进的搜索密度峰值的聚类算法,引入密度估计熵自适应优化算法参数。对比实验结果表明,改进方法不仅可以较好地解决原算法的参数人为确定的不足,而且具有相对更好的聚类性能。展开更多
文摘首先证明了快速核密度估计(Fast kernel density estimate,FKDE)定理:基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关,而与总样本容量无关.接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based relaxed clustering,GRC)算法的目标表达式可分解成"Parzen窗加权和+平方熵"的形式,即此时GRC可视作一个核密度估计问题,这样基于KDE近似策略,本文提出了大规模图论松弛聚类方法(Scaling up GRC by KDEapproximation,SUGRC-KDEA).较之先前的工作,这一方法的优势在于为GRC作用于大规模数据集提供了更简单和易于实现的方案.
文摘[目的]供电部门记录的正确的拓扑信息有助于工作人员监测电网信息,分析故障,优化电网运行以满足低压配电台区精益化、智能化管理的需要。目前,各式新型用电设备及用户的加入使低压配电网络结构呈现出持续变化的特征,线路维护成本被大大提高。[方法]为此,提出基于密度聚类的低压台区归属关系识别方法。首先,提取智能电表有效电压数据生成高维时序电压矩阵;其次,采用t分布随机近邻嵌入方法(t-distributed Stochastic Neighbor Embedding,t-SNE)对高维时序电压数据进行特征提取与降维;然后,应用基于数据密度的噪声应用空间聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)对降维后的数据进行聚类分析,实现低压用户台区归属信息的识别;最后,对海南省三亚市某台区实际数据进行分析,并将所提方法与其他主流的拓扑识别算法进行对比。[结果]分析结果表明所提方法能够达到95%以上的台区识别准确率,高于目前其他主流的拓扑信息识别方法。[结论]文章中的方法在解决此类问题上具有有效性与优势性,可以为实际工程应用提供参考,为低压台区拓扑信息识别领域提供不一样的研究思路。
文摘聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法,算法简单实用,但聚类结果依赖于参数dc的经验选择。论文提出一种改进的搜索密度峰值的聚类算法,引入密度估计熵自适应优化算法参数。对比实验结果表明,改进方法不仅可以较好地解决原算法的参数人为确定的不足,而且具有相对更好的聚类性能。