期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
高维数据集聚类结果的可视化分析
1
作者 华丹阳 《黄山学院学报》 2011年第5期24-26,共3页
面向高维数据的聚类分析是当今数据挖掘研究的重要领域,其中的关键问题在于如何对高维数据的聚类结果进行高效率的可视化分析。针对这一问题首先使用了数据聚合树(DA树)作为代表高维数据集的数据结构,并将一个新的聚集算法(CLUK算法)应... 面向高维数据的聚类分析是当今数据挖掘研究的重要领域,其中的关键问题在于如何对高维数据的聚类结果进行高效率的可视化分析。针对这一问题首先使用了数据聚合树(DA树)作为代表高维数据集的数据结构,并将一个新的聚集算法(CLUK算法)应用于该数据集,获得聚类分析的结果,然后搭建了一个可视化平台(Hvis),最后利用平行坐标法在这个可视化平台上对聚类结果进行可视化分析,得到了令人满意的可视化结果。 展开更多
关键词 高维数据集 聚类结果 可视化
下载PDF
高维数据集之中基于距离的离群快速检测算法
2
作者 乔天成 《科技创新与生产力》 2017年第11期67-71,共5页
针对现有的挖掘算法并不适用于大规模的高维数据集的问题,给出了一种针对高维数据集的RBRP算法,能够快速检测出数据集中基于距离的异常,该算法将对数线性作为数据点个数的函数,线性作为维数的函数。实验结果表明,RBRP算法始终优于ORCA算... 针对现有的挖掘算法并不适用于大规模的高维数据集的问题,给出了一种针对高维数据集的RBRP算法,能够快速检测出数据集中基于距离的异常,该算法将对数线性作为数据点个数的函数,线性作为维数的函数。实验结果表明,RBRP算法始终优于ORCA算法,且是一种针对高维数据集的最优的基于距离的异常检测算法,并且RBRP算法的优势往往超过ORCA算法一个数量级。 展开更多
关键词 数据挖掘 算法 离群 高维数据集 近似K-近邻 聚类
下载PDF
基于SVM的高维不平衡数据集分类算法 被引量:3
3
作者 赵小强 张露 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期452-461,共10页
由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算... 由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算法,首先通过核函数将数据集映射到特征空间中,再引入改进的核SMOTE(Kernel Synthetic Minority Over-sampling Technique)算法而得到正类样本,使两类样本数目平衡化;然后将维数高的数据集通过稀疏表示的方法投影到低维的空间中,实现降维;最后根据空间的距离关系来确定在输入空间中合成样本的原像,再对得到的平衡样本集通过SVM来分类,通过仿真实验验证了该算法对于高维不平衡数据集有较优的分类性能. 展开更多
关键词 高维不平衡数据 分类算法 支持向量机(SVM) 核SMOTE 稀疏表示
下载PDF
具有输入知识的高维数据聚类算法研究 被引量:1
4
作者 吴红艳 王蔚韬 +1 位作者 文俊浩 何光辉 《计算机科学》 CSCD 北大核心 2006年第1期240-242,共3页
针对目前聚类算法没有充分地利用输入知识,不便于知识的学习和增长的情形,提出在高维数据集的情况下,恰当地利用输入知识可以更准确有效地发现聚类,提出聚类的相关维集的概念,分析输入知识的特点,对带有输入知识的高维聚类算法进行研究... 针对目前聚类算法没有充分地利用输入知识,不便于知识的学习和增长的情形,提出在高维数据集的情况下,恰当地利用输入知识可以更准确有效地发现聚类,提出聚类的相关维集的概念,分析输入知识的特点,对带有输入知识的高维聚类算法进行研究,指导聚类的学习过程。 展开更多
关键词 聚类 聚类算法 高维数据集 输入知识 相关维 数据聚类 知识 算法研究 高维 学习过程
下载PDF
基于二分K均值的SVM决策树的高维数据分类方法 被引量:1
5
作者 张娇 裘国永 张奇 《赤峰学院学报(自然科学版)》 2012年第7期13-15,共3页
针对数据挖掘中高维数据多分类问题,提出了一种基于二分K均值的SVM决策树的高维数据分类方法.该方法先利用二分K-均值将高维数据基本聚为k类,再构造SVM多分类模型,利用它对各类进行细分.本文给出了该模型的构造及应用方法,并在标准数据... 针对数据挖掘中高维数据多分类问题,提出了一种基于二分K均值的SVM决策树的高维数据分类方法.该方法先利用二分K-均值将高维数据基本聚为k类,再构造SVM多分类模型,利用它对各类进行细分.本文给出了该模型的构造及应用方法,并在标准数据集上验证了该方法的有效性. 展开更多
关键词 高维数据集 二分K-均值 SVM 分类
下载PDF
高维离散分布数据集中NSD算法精度、敏感度校正及应用
6
作者 韩孝明 《兰州文理学院学报(自然科学版)》 2022年第4期20-24,共5页
在离群点的研究过程中发现,传统的离群点检测算法精度较低而敏感性过高.为了改善这一现状,在相邻区域数据对象密度差异计算的基础上提出了一种NSD离群点检测算法.首先确定截取距离内与数据集中对象相邻的点的数量,接下来计算邻域点的分... 在离群点的研究过程中发现,传统的离群点检测算法精度较低而敏感性过高.为了改善这一现状,在相邻区域数据对象密度差异计算的基础上提出了一种NSD离群点检测算法.首先确定截取距离内与数据集中对象相邻的点的数量,接下来计算邻域点的分布密度并与对象密度进行对比,以判断二者在同一簇特征下的相似性,最后对离群点进行定位.对所提出算法的精度和参数敏感度进行了校正,实际应用结果表明,算法切实有效,适于推广. 展开更多
关键词 高维离散分布数据 NSD算法精度 敏感度 数据挖掘
下载PDF
基于高维拉曼光谱数据的变压器油纸绝缘老化评估方法研究 被引量:4
7
作者 陈新岗 陈姝婷 +3 位作者 杨定坤 罗浩 杨平 崔炜康 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2021年第5期1463-1469,共7页
采用激光拉曼光谱技术对变压器油纸绝缘老化状态检测是一种有效的方法。随着样本量的扩充,亟待处理的数据集维度逐渐增大,研究适用于高维拉曼光谱数据的变压器油纸绝缘老化评估方法具有重要的意义。设计与现场变压器内部绝缘结构相似的... 采用激光拉曼光谱技术对变压器油纸绝缘老化状态检测是一种有效的方法。随着样本量的扩充,亟待处理的数据集维度逐渐增大,研究适用于高维拉曼光谱数据的变压器油纸绝缘老化评估方法具有重要的意义。设计与现场变压器内部绝缘结构相似的油纸绝缘环境,进行加速热老化实验并定期采样,获取到10类老化程度依次递增的油样本,采用激光拉曼光谱技术对样本进行检测。选用复合稀疏导数建模法对样本原始拉曼光谱数据预处理,可以一步完成去噪与基线校正;引入差异特征选取方法筛选不同老化程度下光谱中变化显著的特征,计算同一拉曼频移下不同老化程度的特征点数据集方差,选择差异较大的数据序列所对应的拉曼特征变量,设定方差阈值为0.5进行特征选择,每个样本都从1023个光谱特征点抽取出304个特征点进行后续分析;针对变压器油纸绝缘老化拉曼光谱高维样本数据集,引入多种不同类型的算法对其处理。分别运用K-means聚类算法、Fisher算法与随机森林算法对获取到的样本预处理后的数据建立模型,引入评估准确度、提升度以及Kapp a系数对各算法建立的模型判别效果进行评估。结果表明:有监督学习的Fisher算法与随机森林算法效果较好,相对于无监督学习的K-means聚类算法,模型判别能力分别提升了1.1666和1.95,论证了有监督学习模型在变压器油纸绝缘老化的评估中具有判别优势;从模型判别准确度和Kappa系数来看,强分类器随机森林算法建立的判别模型均高于F isher判别模型,其准确度提升了10%,且Kappa系数上升了0.1115,论证了随机森林算法作为由多个单一分类器组成的强分类器,相对单一分类器来说,在变压器油纸绝缘老化的评估中模型的泛化能力较好,且模型较为稳定可靠。通过对三种不同类型的算法对比,确定了在变压器油纸绝缘老化评估中,有监督学习强分类器随机森林算法的判别优势,为变压器油纸绝缘老化的有效评估打下了基础。 展开更多
关键词 变压器 油纸绝缘 拉曼光谱 高维数据集 老化评估
下载PDF
相关子空间中的局部离群数据挖掘算法研究 被引量:17
8
作者 李永红 张继福 荀亚玲 《小型微型计算机系统》 CSCD 北大核心 2015年第3期460-465,共6页
针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子... 针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了"维灾"的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性. 展开更多
关键词 局部离群数据 高维数据集 局部稀疏差异 局部密度差异 相关子空间
下载PDF
一种基于马尔可夫链的高维离群点挖掘算法
9
作者 唐志刚 杨炳儒 杨珺 《系统工程与电子技术》 EI CSCD 北大核心 2010年第12期2721-2724,共4页
提出了一种基于马尔可夫链的离群点检测(outlier detection algorithms based on Markov chain,MRKFOD)算法。该算法把基本数据集看作一个加权无向图,数据集中的每个数据表示一个节点,用每条加权边表示节点之间的相似度;形成一个邻接矩... 提出了一种基于马尔可夫链的离群点检测(outlier detection algorithms based on Markov chain,MRKFOD)算法。该算法把基本数据集看作一个加权无向图,数据集中的每个数据表示一个节点,用每条加权边表示节点之间的相似度;形成一个邻接矩阵,把邻接矩阵当作马尔可夫链中的概率转移矩阵;寻求概率转移矩阵的主要特征向量;把每个节点的主要特征向量值作为每个数据的离群度。实验结果表明,该算法与其他高维离群点挖掘算法相比,在效率及有效处理的维数方面均有显著提高。 展开更多
关键词 数据挖掘 离群点 高维数据集 马尔可夫链 加权无向图
下载PDF
一种改进的自适应网格划分的分布式聚类算法
10
作者 蔡莉 王浩宇 +2 位作者 周君 何婧 刘俊晖 《小型微型计算机系统》 CSCD 北大核心 2023年第4期731-736,共6页
在众多聚类算法中,基于网格划分思想的聚类算法是较为常用的算法类型之一,但现有的算法对于处理海量高维数据而言,会存在以下两个问题:一是聚类结果的准确率较低;二是算法耗时较长.为了解决现有算法的不适应性,该文在网格聚类算法的基... 在众多聚类算法中,基于网格划分思想的聚类算法是较为常用的算法类型之一,但现有的算法对于处理海量高维数据而言,会存在以下两个问题:一是聚类结果的准确率较低;二是算法耗时较长.为了解决现有算法的不适应性,该文在网格聚类算法的基础上结合降维技术、自适应网格划分、相对熵和分布式计算,提出了一种改进的自适应网格划分的分布式聚类算法(AMCBS),可以较好解决以上问题.经实验证明,该算法对于D31标准数据集、UCI数据集、人脸图片数据集和GitHub文本数据集等的效果均优于常见的聚类算法,具有较好的准确率和较高的运行效率. 展开更多
关键词 聚类 自适应网格划分 相对熵 高维数据集 Spark平台
下载PDF
基于共享策略的k-支配轮廓体的求解算法 被引量:3
11
作者 董雷刚 刘国华 +2 位作者 崔晓微 张东明 金晓丹 《小型微型计算机系统》 CSCD 北大核心 2009年第6期1072-1076,共5页
现有的k支-配轮廓算法虽然可以对给定的高维数据集计算出不同k(k≤d)值对应的k-支配轮廓,但是,由于不能共享计算结果,会导致很多冗余操作.提出k-支配轮廓体的概念,即所有的k(k≤d)值对应的k-支配轮廓的集合,在此基础上,提出两种基于共... 现有的k支-配轮廓算法虽然可以对给定的高维数据集计算出不同k(k≤d)值对应的k-支配轮廓,但是,由于不能共享计算结果,会导致很多冗余操作.提出k-支配轮廓体的概念,即所有的k(k≤d)值对应的k-支配轮廓的集合,在此基础上,提出两种基于共享策略的k-支配轮廓体算法——由下到上算法(BTA)和由上到下算法(TBA).理论分析和实验验证表明,所提算法可有效的减少冗余操作. 展开更多
关键词 k-支配轮廓 高维数据集 k-支配轮廓体 共享策略
下载PDF
子空间聚类算法的研究新进展 被引量:3
12
作者 陈慧萍 王煜 王建东 《计算机仿真》 CSCD 2007年第3期6-10,34,共6页
高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。该文从不同的搜索策略即自顶向下策略和自底向上策略两个方面对... 高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。该文从不同的搜索策略即自顶向下策略和自底向上策略两个方面对子空间聚类算法的思想进行了介绍,对近几年提出的子空间聚类算法作了综述,从算法所需参数、算法对参数的敏感度、算法的可伸缩性以及算法发现聚类的形状等多个方面对典型的子空间聚类算法进行了比较分析,对子空间聚类算法面临的挑战和未来的发展趋势进行了讨论。 展开更多
关键词 数据挖掘 聚类 高维数据集 子空间
下载PDF
基于PCA的H-K聚类算法研究 被引量:3
13
作者 何莹 秦亮曦 《微计算机信息》 2012年第6期163-165,共3页
传统的H-K聚类算法将层次聚类算法和k-means聚类算法有机结合起来,从而使得H-K聚类算法具有单个聚类算法所不具有的诸多优点。为了将H-K聚类算法更好地应用于对高维数据集的聚类中,以缓解维度灾难问题,本文应用PCA(主成分分析)方法对H-... 传统的H-K聚类算法将层次聚类算法和k-means聚类算法有机结合起来,从而使得H-K聚类算法具有单个聚类算法所不具有的诸多优点。为了将H-K聚类算法更好地应用于对高维数据集的聚类中,以缓解维度灾难问题,本文应用PCA(主成分分析)方法对H-K算法进行改进,提出新的聚类算法PCAHK。该算法首先采用PCA方法,将高维数据投影到较低维空间中,再对降维后的数据进行H-K聚类。实验表明,在对高维数据集进行聚类时,与传统的H-K算法相比,PCAHK算法的性能明显提高。 展开更多
关键词 聚类 高维数据集 PCAHK 轮廓系数
下载PDF
基于特征选择的统计最优样本大小算法 被引量:3
14
作者 邓杰 钱雪忠 +1 位作者 钱恒 吴秦 《计算机应用研究》 CSCD 北大核心 2014年第12期3535-3538,3549,共5页
针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基... 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法。实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的。 展开更多
关键词 统计最优样本大小算法 高维数据集 特征选择 聚类
下载PDF
CABOSFV algorithm for high dimensional sparse data clustering 被引量:7
15
作者 Sen Wu Xuedong Gao Management School, University of Science and Technology Beijing, Beijing 100083, China 《Journal of University of Science and Technology Beijing》 CSCD 2004年第3期283-288,共6页
An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV), was proposed for the high dimensional clustering of binary sparse data. This algorithm compresses the data effectively by using a tool '... An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV), was proposed for the high dimensional clustering of binary sparse data. This algorithm compresses the data effectively by using a tool 'Sparse Feature Vector', thus reduces the data scale enormously, and can get the clustering result with only one data scan. Both theoretical analysis and empirical tests showed that CABOSFV is of low computational complexity. The algorithm finds clusters in high dimensional large datasets efficiently and handles noise effectively. 展开更多
关键词 数据采矿 高维分散数据 聚类算法 分散特征矢量 CABOSFV
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部