期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
The Refinement Algorithm Consideration in Text Clustering Scheme Based on Multilevel Graph
1
作者 CHENJian-bin DONGXiang-jun SONGHan-tao 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期671-675,共5页
To construct a high efficient text clustering algorithm the multilevel graph model and the refinement algorithm used in the uncoarsening phase is discussed. The model is applied to text clustering. The performance of ... To construct a high efficient text clustering algorithm the multilevel graph model and the refinement algorithm used in the uncoarsening phase is discussed. The model is applied to text clustering. The performance of clustering algorithm has to be improved with the refinement algorithm application. The experiment result demonstrated that the multilevel graph text clustering algorithm is available. Key words text clustering - multilevel coarsen graph model - refinement algorithm - high-dimensional clustering CLC number TP301 Foundation item: Supported by the National Natural Science Foundation of China (60173051)Biography: CHEN Jian-bin(1970-), male, Associate professor, Ph. D., research direction: data mining. 展开更多
关键词 text clustering multilevel coarsen graph model refinement algorithm high-dimensional clustering
下载PDF
结合力导向图分布算法的特征加权深度嵌入聚类
2
作者 吕维 钱宇华 +2 位作者 王婕婷 李飞江 胡深 《小型微型计算机系统》 CSCD 北大核心 2024年第6期1318-1324,共7页
聚类分析作为无监督学习领域的一个重要研究方向,是许多数据驱动应用的核心.但是高维数据特有的高维距离趋同特性,使得高维空间样本近邻结构遭到破坏,从而使得大量基于距离(基于近邻)的聚类算法性能急剧下降.目前,大量研究者认为,高维... 聚类分析作为无监督学习领域的一个重要研究方向,是许多数据驱动应用的核心.但是高维数据特有的高维距离趋同特性,使得高维空间样本近邻结构遭到破坏,从而使得大量基于距离(基于近邻)的聚类算法性能急剧下降.目前,大量研究者认为,高维数据往往包含大量与任务不相关特征及相互关联的特征,其真实特征维度往往要比原始特征维度低很多.在学习样本低维等价表示上,基于深度自编码器的深度嵌入学习尽可能地保留重构信息.然而,现有此类方法往往需要聚类损失引导聚类,这虽然提高了聚类性能,但聚类损失与重构损失间的内在矛盾,限制了聚类性能的进一步提高.基于力导向图分布算法的降维算法则是尽可能保留近邻结构信息的基础上学习样本低维表示,但是高维距离趋同的特性使得此类算法较难准确获取样本高维近邻结构信息.本文在深度自编码器与力导向图分布算法的基础上引入特征加权思想,使模型在具有强大的低维等价表示能力及根据数据近邻结构凸显簇结构能力的同时考虑特征对聚类任务的适合程度.5个数据集上与最新高维聚类算法的对比实验充分证明了本文算法的合理性与优越性. 展开更多
关键词 高维聚类 深度自编码器 特征加权 力导向图分布算法
下载PDF
异构并行计算下高维混合型数据聚类算法研究 被引量:1
3
作者 祝鹏 《现代电子技术》 北大核心 2024年第9期139-142,共4页
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特... 高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K⁃Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K⁃Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K⁃Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 展开更多
关键词 异构并行计算 高维混合型数据 K⁃Prototypes聚类算法 欧氏距离 统计序列特征 负载平衡
下载PDF
新能源场站电力二次系统安全预警方法研究 被引量:1
4
作者 蒋亚坤 王彬筌 《自动化仪表》 CAS 2024年第4期87-91,共5页
新能源场站电力二次系统设备较多。其安全预警性相关数据存在明显高维性、复杂性的特点,不利于电力二次系统安全预警的效率和精度计算,导致预警性能较差。为此,提出新能源场站电力二次系统安全预警方法。采用拉普拉斯映射方法降低新能... 新能源场站电力二次系统设备较多。其安全预警性相关数据存在明显高维性、复杂性的特点,不利于电力二次系统安全预警的效率和精度计算,导致预警性能较差。为此,提出新能源场站电力二次系统安全预警方法。采用拉普拉斯映射方法降低新能源场站电力二次系统的电力数据维数,将高维数据源空间中的初始电力数据映射至低维子空间。分别计算在x、y、z方向上电力数据的行向量和对角权值,获取优化数据,为系统安全预警提供训练样本。从波动程度、时间序列变化趋势和能量随机分布特点三个角度,提取电力数据安全预警特征,并输入到K-means聚类算法中,以确定特征聚类中心、实现安全预警。试验结果表明:所提方法预警效率、预警精度较高。 展开更多
关键词 新能源场站 电力二次系统 特征提取 K-MEANS聚类算法 安全预警 高维数据源空间
下载PDF
考虑模糊时间序列的高维大数据挖掘方法研究 被引量:5
5
作者 陈婷婷 赵世忠 《计算机仿真》 北大核心 2023年第3期467-470,475,共5页
高维空间的大数据维数越高,其高维索引结构的性能越差,无法通过数据之间的相似性度量完成挖掘。为此,提出基于模糊时间序列预测的高维大数据挖掘方法。对初始的高维大数据集求取各维度数据的属性信息熵,根据信息熵筛选数据,通过主成分... 高维空间的大数据维数越高,其高维索引结构的性能越差,无法通过数据之间的相似性度量完成挖掘。为此,提出基于模糊时间序列预测的高维大数据挖掘方法。对初始的高维大数据集求取各维度数据的属性信息熵,根据信息熵筛选数据,通过主成分分析备选集合中的数据属性,结合成分协方差与特征值,降低数据维度。采用K均值聚类算法二分聚类处理降维数据,取得粗聚类结果。利用支持向量机的最优超平面与决策树作细化分类。基于时间序列上的数据极值,明确数据集的论域个数与范围,根据模糊化处理的模糊集序数,建立模糊逻辑关系,建立模糊时间序列预测模型,对大数据去模糊化处理,完成高维大数据挖掘。选用UCI大数据库作为样本集设计对比测试实验。实验结果验证了研究方法的大数据挖掘精度更高,数据挖掘加速比高达0.9以上,说明所提方法的实时性较强,具备更好的应用性能。 展开更多
关键词 高维数据挖掘 模糊时间序列预测模型 主成分分析法 聚类算法 支持向量机
下载PDF
基于高维数据优化聚类的长周期峰谷时段划分模型研究 被引量:13
6
作者 李娜 王磊 +3 位作者 张文月 王玉玮 舒艳 张超 《现代电力》 北大核心 2016年第4期67-71,共5页
为了使峰谷时段划分结果客观反映出各时段的负荷差异,且能够在一个较长的时间周期(例如1a)内适用,本文提出一种以数据样本集高维化处理和K-均值聚类分析相结合的时段划分模型。首先,通过数据高维化的处理方法构建涵盖较长时间周期(例如... 为了使峰谷时段划分结果客观反映出各时段的负荷差异,且能够在一个较长的时间周期(例如1a)内适用,本文提出一种以数据样本集高维化处理和K-均值聚类分析相结合的时段划分模型。首先,通过数据高维化的处理方法构建涵盖较长时间周期(例如1a)内所有负荷信息的数据样本集;其次,以K-均值算法为聚类分析工具,在高维数据样本集上构建峰谷时段划分模型。最后,结合某区全年负荷数据,对所构建的模型进行算例仿真,在验证模型的合理性基础上,最终输出时段划分结果。 展开更多
关键词 时段划分 聚类分析 K-均值算法 数据高维化
下载PDF
基于k最相似聚类的子空间聚类算法 被引量:8
7
作者 单世民 闫妍 张宪超 《计算机工程》 CAS CSCD 北大核心 2009年第14期4-6,共3页
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通... 子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。 展开更多
关键词 聚类算法 子空间聚类 高维数据
下载PDF
基于单元区域的高维数据聚类算法 被引量:3
8
作者 谢坤武 毕晓玲 叶斌 《计算机研究与发展》 EI CSCD 北大核心 2007年第9期1618-1623,共6页
高维数据空间维数较高,数据点分布稀疏、密度平均,从中发现数据聚类比较困难,而用基于距离的方法进行高维数据聚类,维数的增多会使得计算对象间距离的时间开销增大.CAHD(clustering algorithmof high-di mensional data)算法首先采用双... 高维数据空间维数较高,数据点分布稀疏、密度平均,从中发现数据聚类比较困难,而用基于距离的方法进行高维数据聚类,维数的增多会使得计算对象间距离的时间开销增大.CAHD(clustering algorithmof high-di mensional data)算法首先采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,然后采用逐位与的方法为这些密集单元区域进行聚类分析.双向搜索策略能够有效地减少搜索空间,从而提高算法效率,同时,聚类密集单元区域只用到逐位与和位移两种机器指令,使得算法效率得到进一步提高.算法CAHD可以有效地处理高维数据的聚类问题.基于数据集的实验表明,算法具有很好的有效性. 展开更多
关键词 数据挖掘 聚类算法 高维数据 单元区域 位运算
下载PDF
局部显著单元高维聚类算法 被引量:1
9
作者 宗瑜 李明楚 +1 位作者 徐贯东 张彦春 《电子与信息学报》 EI CSCD 北大核心 2010年第11期2707-2712,共6页
以等宽或随机宽度网格密度单元为基础的高维聚类算法不能保证复杂数据集中的聚类结果的质量。该文在核密度估计和空间统计理论的基础上,给出一种基于局部显著单元的高维聚类算法来处理复杂数据的高维聚类问题。该方法以局部核密度估计... 以等宽或随机宽度网格密度单元为基础的高维聚类算法不能保证复杂数据集中的聚类结果的质量。该文在核密度估计和空间统计理论的基础上,给出一种基于局部显著单元的高维聚类算法来处理复杂数据的高维聚类问题。该方法以局部核密度估计和空间统计理论为基础定义了局部显著单元结构来捕获局部数据分布;设计了能快速发现覆盖数据分布的局部显著区域的贪婪算法;对具有相同属性子集的局部显著单元执行Single-linkage算法发现其中的聚类结果。实验结果表明,以局部显著单元为基础的高维聚类算法能够发现复杂数据集中隐含的高质量聚类结果。 展开更多
关键词 聚类分析 高维聚类算法 核密度估计 局部显著单元
下载PDF
基于特征选择的统计最优样本大小算法 被引量:3
10
作者 邓杰 钱雪忠 +1 位作者 钱恒 吴秦 《计算机应用研究》 CSCD 北大核心 2014年第12期3535-3538,3549,共5页
针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基... 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法。实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的。 展开更多
关键词 统计最优样本大小算法 高维数据集 特征选择 聚类
下载PDF
基于遗传算法的高维数据模糊聚类 被引量:2
11
作者 王宝文 阎俊梅 +1 位作者 刘文远 石岩 《计算机工程与应用》 CSCD 北大核心 2007年第16期191-192,221,共3页
提出了一种基于遗传算法的高维数据模糊聚类方法。引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本初始化到二维平面。利用遗传算法进行迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相... 提出了一种基于遗传算法的高维数据模糊聚类方法。引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本初始化到二维平面。利用遗传算法进行迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相似度的趋近,使高维样本映射到二维平面。最后将得到的最优的二维样本利用模糊C-均值聚类(FCM)算法聚类,克服了聚类有效性对高维样本空间分布的依赖。实验仿真表明利用该方法有较好的聚类效果,且比用FCM算法直接聚类收敛速度快。 展开更多
关键词 模糊聚类 模糊非相似矩阵 遗传算法 高维数据
下载PDF
考虑数据排序的改进CABOSFV聚类 被引量:2
12
作者 武森 王静 谭一松 《计算机工程与应用》 CSCD 北大核心 2011年第34期127-129,共3页
CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序... CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序以改进CABOSFV算法的聚类质量。采用UCI基准数据集进行实验,结果表明与传统的CABOSFV算法相比,CABOSFV_CS有效地提高了聚类准确率。 展开更多
关键词 CABOSFV算法 高维数据 稀疏特征 聚类
下载PDF
基于单元区域的高维数据聚类算法 被引量:1
13
作者 谢坤武 胡俊鹏 《计算机工程》 CAS CSCD 北大核心 2008年第10期101-102,107,共3页
提出一种高维数据集合聚类算法(CAHD)。采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,采用逐位相与的方法为这些密集单元区域聚类。双向搜索策略能够有效地减少搜索空间,提高算法效率,聚类密集单元区域只用到... 提出一种高维数据集合聚类算法(CAHD)。采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,采用逐位相与的方法为这些密集单元区域聚类。双向搜索策略能够有效地减少搜索空间,提高算法效率,聚类密集单元区域只用到逐位与和位移2种机器指令。实验结果表明,在发现的类数量相同的情况下,CAHD算法的运行时间比其他算法减少30%。 展开更多
关键词 聚类算法 高维数据 单元
下载PDF
快速识别密度骨架的聚类算法 被引量:5
14
作者 邱保志 唐雅敏 《计算机应用》 CSCD 北大核心 2017年第12期3482-3486,共5页
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点... 针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.877 9和0.962 2。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。 展开更多
关键词 聚类算法 高维数据 K近邻 密度骨架 局部密度
下载PDF
基于神经网络树和人工蜂群优化的数据聚类 被引量:5
15
作者 吉珊珊 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2021年第1期119-127,共9页
针对高维数据引起的“维数灾难”问题,设计了一种基于神经网络树和人工蜂群优化的高维数据聚类算法.首先,设计了改进的二元人工蜂群优化算法,以封装式方法最大化径向基函数网络的准确率,以过滤式方法最小化特征的冗余度;然后,基于每个... 针对高维数据引起的“维数灾难”问题,设计了一种基于神经网络树和人工蜂群优化的高维数据聚类算法.首先,设计了改进的二元人工蜂群优化算法,以封装式方法最大化径向基函数网络的准确率,以过滤式方法最小化特征的冗余度;然后,基于每个特征子集的样本集训练径向基函数网络,构建以径向基函数网络为节点的神经树;最终,采用门网络将连接的类簇分离,获得最终的聚类结果.基于高维数据集和低维数据集均完成了仿真实验,结果表明本算法对于高维数据集实现了较高的聚类准确率. 展开更多
关键词 高维数据 神经网络树 人工蜂群优化 聚类算法 特征选择
下载PDF
一种高维数据聚类遗传算法 被引量:1
16
作者 孙浩军 熊琅环 《计算机工程与科学》 CSCD 北大核心 2010年第8期94-97,共4页
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典... 聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。 展开更多
关键词 高维数据聚类 遗传算法 特征子空间
下载PDF
CLIQUE聚类算法的分析研究 被引量:7
17
作者 项响琴 李红 陈圣兵 《合肥学院学报(自然科学版)》 2011年第1期54-58,66,共6页
CLIQUE算法是基于密度和网格的一种聚类分析算法,对于大型高维空间数据的聚类分析具有很高的效率,能得到优质的聚类结果.通过分析CLIQUE算法的特点、聚类过程中的关键问题及算法步骤,运用实验数据对算法进行了测试,对聚类结果进行分析讨... CLIQUE算法是基于密度和网格的一种聚类分析算法,对于大型高维空间数据的聚类分析具有很高的效率,能得到优质的聚类结果.通过分析CLIQUE算法的特点、聚类过程中的关键问题及算法步骤,运用实验数据对算法进行了测试,对聚类结果进行分析讨论,发现算法的不足,说明了改进的思路,为以后研究工作指明了方向. 展开更多
关键词 聚类分析 高维空间数据 CLIQUE算法 优化分析
下载PDF
基于最大频繁项集的聚类算法 被引量:1
18
作者 张伟 张泽洪 《江南大学学报(自然科学版)》 CAS 2007年第3期288-292,共5页
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的... 鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性. 展开更多
关键词 高维分类数据 最大频繁项集 频繁模式树 投影聚类算法
下载PDF
基于信息熵的高维数据流子空间聚类方法 被引量:2
19
作者 张俊 《安徽师范大学学报(自然科学版)》 CAS 2015年第1期36-39,共4页
提出了一种数据流概率密度估计方法,在此基础上,经计算得到整个数据集在低维空间投影的信息熵,基于该信息熵实现了一种新的高维数据流的子空间聚类算法EPStream.实验表明,与传统的算法相比,该算法在聚类精度和时间方面都有所提高.
关键词 高维数据流 聚类算法 信息熵
下载PDF
一种新的高维数据聚类自适应算法的研究 被引量:1
20
作者 余元辉 邓莹 《沈阳化工大学学报》 CAS 2010年第2期165-169,共5页
聚类有效性是用来评估在不同输入条件下的聚类算法性能的处理过程.高维数据空间的稀疏性和"维灾"问题使得传统有效性指标失去作用.提出新的可用于高维数据集的有效性指标,并结合启发式递减算法,提出一种高维数据的自适应聚类... 聚类有效性是用来评估在不同输入条件下的聚类算法性能的处理过程.高维数据空间的稀疏性和"维灾"问题使得传统有效性指标失去作用.提出新的可用于高维数据集的有效性指标,并结合启发式递减算法,提出一种高维数据的自适应聚类算法,用于确定高维数据集的最佳聚类数目.实验结果表明:提出的聚类算法有较好的性能. 展开更多
关键词 高维数据 子空间聚类 有效性指标 启发式递减算法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部