期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
基于平衡分层K均值的正交无监督大型图嵌入降维算法
1
作者 张志丽 古晓明 王文晶 《计算机应用与软件》 北大核心 2024年第9期348-356,362,共10页
为了降低大规模数据集降维的计算代价,提出一种基于平衡分层K均值的正交无监督图嵌入降维方法。该文给出局部保持投影和谱回归等价的充分必要条件;基于平衡分层K-means的锚生成策略,构建加快局部保持投影求解过程的特殊相似矩阵;再结合... 为了降低大规模数据集降维的计算代价,提出一种基于平衡分层K均值的正交无监督图嵌入降维方法。该文给出局部保持投影和谱回归等价的充分必要条件;基于平衡分层K-means的锚生成策略,构建加快局部保持投影求解过程的特殊相似矩阵;再结合正交约束,提出正交化无监督大型图嵌入降维方法;在几种公开数据集上进行扩展实验,结果表明提出的方法能够对大规模数据集实现高效快速的降维。 展开更多
关键词 数据降维 平衡分层K均值 局部保持投影 无监督大型图嵌入
下载PDF
A Data Stream Subspace Clustering Algorithm
2
作者 Xiang Yu Xiandong Xu Liandong Lin 《国际计算机前沿大会会议论文集》 2015年第1期97-99,共3页
The main aim of data stream subspace clustering is to find clusters in subspace in rational time accurately. The existing data stream subspace clustering algorithms are greatly influenced by parameters. Due to the fla... The main aim of data stream subspace clustering is to find clusters in subspace in rational time accurately. The existing data stream subspace clustering algorithms are greatly influenced by parameters. Due to the flaws of traditional data stream subspace clustering algorithms, we propose SCRP, a new data stream subspace clustering algorithm. SCRP has the advantages of fast clustering and being insensitive to outliers. When data stream changes, the changes will be recorded by the data structure named Region-tree, and the corresponding statistics information will be updated. Further SCRP can regulate clustering results in time when data stream changes. According to the experiments on real datasets and synthetic datasets, SCRP is superior to the existing data stream subspace clustering algorithms on both clustering precision and clustering speed, and it has good scalability to the number of clusters and dimensions. 展开更多
关键词 data MINING data STREAM SUBSPACE clustering FEATURE selection dimension reduction
下载PDF
基于谱聚类算法的高速网络数据流快速分类方法研究 被引量:2
3
作者 张震 胡贵恒 +1 位作者 盖昊宇 任远林 《齐齐哈尔大学学报(自然科学版)》 2023年第5期24-30,共7页
当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,... 当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,去除冗余特征,保留有效的特征信息。应用支持向量机算法构建网络数据流快速分类模型,结合谱聚类算法对多数类样本进行聚类,组成新的数据集并将其输入到分类模型中得出相关的分类结果。实验结果表明,所提方法的平均F1值为0.95,F1值越大分类结果越准确,说明该方法能够满足高速网络数据流快速准确分类,具有优越的数据分类性能,应用价值更高。 展开更多
关键词 谱聚类算法 网络数据流 分类 特征选择 降维 支持向量机
下载PDF
高维支持向量机的一些新发展
4
作者 史宏炜 饶昊宸 郭旭 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期319-327,共9页
对高维支持向量机(SVM)的一些新发展如非凸惩罚SVM,L_(1)范数SVM的误差界以及SVM在充分性降维中的应用进行了介绍;通过数值模拟和实例分析,展示了这些新方法在有限样本时的表现;讨论了一些可能的方向和问题.
关键词 二元响应变量 支持向量机 惩罚估计 误差界 变量选择 充分性降维
下载PDF
基于特征选择的学生成绩预测方法研究
5
作者 刘晓雲 刘鸿雁 +1 位作者 李劲松 王冠帮 《信息技术》 2023年第10期17-22,共6页
学习成绩是反映学习效果和教学质量的重要指标,对成绩进行预测可改进学习和教学方法,进而提高教学质量,如何准确地预测成绩已成为教育数据挖掘领域的一个热点研究课题。为提高预测的准确度,提出了基于特征选择的成绩预测方法。首先利用... 学习成绩是反映学习效果和教学质量的重要指标,对成绩进行预测可改进学习和教学方法,进而提高教学质量,如何准确地预测成绩已成为教育数据挖掘领域的一个热点研究课题。为提高预测的准确度,提出了基于特征选择的成绩预测方法。首先利用序列前向选择算法对样本数据进行特征选择,从而选出最优特征子集来构建多元线性回归预测模型,再利用模型对成绩进行预测。为检验方法的有效性,在真实数据集上进行了验证,实验结果表明:文中方法具有更高的预测精度,可以为改进教学方法和教学质量提供数据支持。 展开更多
关键词 数据挖掘 特征选择 数据降维 多元线性回归 成绩预测
下载PDF
变工况滚动轴承异常状态局部切空间分类检测
6
作者 肖焕丽 《机械制造与自动化》 2023年第6期58-62,共5页
变工况滚动轴承异常状态数据在特征空间上呈现高维模糊分类特征,异常状态数据的子特征分区极为困难,增加了轴承异常检测的难度。为此,提出变工况滚动轴承异常状态局部切空间分类检测方法。采用局部切空间排列法,降维处理变工况滚动轴承... 变工况滚动轴承异常状态数据在特征空间上呈现高维模糊分类特征,异常状态数据的子特征分区极为困难,增加了轴承异常检测的难度。为此,提出变工况滚动轴承异常状态局部切空间分类检测方法。采用局部切空间排列法,降维处理变工况滚动轴承数据,使其在局部切空间满足分类空间映射条件,再利用深度置信网络,通过异常数据训练提取数据的异常特征。将提取的特征输入到SVM分类器中,利用非线性映射函数将二维特征矩阵映射到三维分类空间中再将超平面结构加入其中。在多项式核函数的引导下,找到对应的子特征分类区域,根据分类结果检测变工况滚动轴承的异常状态。实验结果表明:在调整轴承承载负荷前后,该方法针对异常状态的检测率较高,早期异常点检出所花时间较少。 展开更多
关键词 变工况滚动轴承 局部切空间法 数据降维 深度置信网络 SVM分类器 异常状态检测
下载PDF
一种基于区域划分的数据流子空间聚类方法 被引量:15
7
作者 于翔 印桂生 +1 位作者 许宪东 王建伟 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期88-95,共8页
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种... 数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性. 展开更多
关键词 数据挖掘 数据流 子空间聚类 特征选择 维度约简
下载PDF
基于主基底分析的变量筛选 被引量:18
8
作者 王惠文 仪彬 叶明 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2008年第11期1288-1291,共4页
利用Gram-Schmidt变换,提出一种主基底分析方法.解释并证明了Gram-Schmidt变换所删除的信息量.给出"主基底"的定义及构造方法,并提出"净信息含量比"的概念,用以测度所选基底包含的信息.该方法能在原始数据信息损失... 利用Gram-Schmidt变换,提出一种主基底分析方法.解释并证明了Gram-Schmidt变换所删除的信息量.给出"主基底"的定义及构造方法,并提出"净信息含量比"的概念,用以测度所选基底包含的信息.该方法能在原始数据信息损失尽可能小的前提下,排除所有的冗余变量以及变量集合中的重叠信息,得到一个正交的主基底,从而更有效地对大规模变量集合中的信息进行筛选.多角度的理论分析指出,主基底在尽可能多地携带原始变量信息的同时,还可保证样本点间的相似性改变最小.实际案例分析说明了该方法的合理性和有效性. 展开更多
关键词 Gram—Schmidt变换 变量筛选 数据降维 主基底
下载PDF
基于可变k近邻LLE数据降维的图像检索方法 被引量:10
9
作者 李勇 陈贺新 +2 位作者 赵刚 孙中华 陈绵书 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期946-949,共4页
在基于内容的图像检索中,其计算复杂度随着描述图像内容的特征向量的维数的增加而急剧增加,而应用局部嵌入算法(LLE)进行数据降维时,需要确定近邻点k的个数。根据图像特征在原空间的分布情况,提出了一种可变k近邻LLE的数据降维方法,使... 在基于内容的图像检索中,其计算复杂度随着描述图像内容的特征向量的维数的增加而急剧增加,而应用局部嵌入算法(LLE)进行数据降维时,需要确定近邻点k的个数。根据图像特征在原空间的分布情况,提出了一种可变k近邻LLE的数据降维方法,使得降维后的特征向量有效地保持了其在高维空间中的拓扑结构。实验结果表明,提出的可变k近邻LLE数据降维方法在基于内容的图像检索中有较高的检索准确率。 展开更多
关键词 信息处理技术 局部嵌入算法 可变k近邻 数据降维
下载PDF
基于弹性网降维及花授粉算法优化BP神经网络的短期电力负荷预测 被引量:43
10
作者 张淑清 杨振宁 +2 位作者 张立国 苑世钰 王志义 《仪器仪表学报》 EI CAS CSCD 北大核心 2019年第7期47-54,共8页
电力负荷预测为电力系统规划和运行提供可靠的决策依据。随着智能电网的全面发展,数据采集与监视控制系统(SCADA)获取数据量增加,数据的结构也更加复杂,负荷的频繁变化以及地区性的气象因素等都将影响负荷的预测的准确性。提出一种弹性... 电力负荷预测为电力系统规划和运行提供可靠的决策依据。随着智能电网的全面发展,数据采集与监视控制系统(SCADA)获取数据量增加,数据的结构也更加复杂,负荷的频繁变化以及地区性的气象因素等都将影响负荷的预测的准确性。提出一种弹性网(EN)进行大数据降维以及花授粉算法(FPA)优化BP神经网络的短期电力负荷预测方法。首先采用弹性网对负荷和气象等高维大数据进行选择和降维。弹性网通过在惩罚项中添加L1范数和L2范数,兼具了最小绝对值收缩及变量选择(LASSO)和岭回归的优点,克服了LASSO降维时因为数据内部存在共线性和群组效应而影响降维效果的问题;然后,考虑到BP神经网络权值和阈值容易受到初值的影响、收敛速度慢以及容易陷入局部最优,引入花授粉算法(FPA)优化BP神经网络,通过与粒子群算法(PSO)对比得出花授粉算法寻优速度更快,效果更好。本文方法应用于实际电力负荷预测,结果表明能有效提高预测精度。 展开更多
关键词 短期电力负荷预测 大数据变量选择及降维 最小绝对值收缩及变量选择 弹性网 花授粉算法优化BP神经网络
下载PDF
光谱数据的特征挖掘降维方法 被引量:4
11
作者 戴琼海 张晶 +1 位作者 李菲菲 范静涛 《数据采集与处理》 CSCD 北大核心 2016年第6期1097-1105,共9页
"去繁存精"的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。应用各异性和光谱特征优选方法普适性所构成的矛盾,在一定程度上制约了光谱仪器的应用。本文提出了序列前向选... "去繁存精"的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。应用各异性和光谱特征优选方法普适性所构成的矛盾,在一定程度上制约了光谱仪器的应用。本文提出了序列前向选择(Sequential forward selection,SFS)的光谱特征自适应数据挖掘方法,生成最优变量组合作为支持向量机(Support vector machine,SVM)分类模型的输入,在对光谱数据降维的同时,实现了高精度的数据分类。本文方法可有效解决大量光谱数据的多类分类问题,并在红木分类中得到了实际验证和应用,为破解因光谱特征峰高度混叠而难以进行主观经验特征选择的困境提供了新思路。 展开更多
关键词 光谱数据 特征挖掘 序列前向选择 数据降维
下载PDF
基于高斯过程隐变量模型的图像数据降维算法 被引量:4
12
作者 郭莉莉 刘春光 +1 位作者 王迪 韩忠华 《控制工程》 CSCD 北大核心 2014年第5期687-690,共4页
针对传统谱算法在数据降维计算复杂度高的缺点,提出一种基于高斯过程隐变量模型的图像数据降维算法。首先,通过高斯过程(Gaussian Process,GP)建立图像数据的概率模型,得到图像数据的隐变量模型;其次,利用概率最大化原则得到最优超参数... 针对传统谱算法在数据降维计算复杂度高的缺点,提出一种基于高斯过程隐变量模型的图像数据降维算法。首先,通过高斯过程(Gaussian Process,GP)建立图像数据的概率模型,得到图像数据的隐变量模型;其次,利用概率最大化原则得到最优超参数,通过最优超参数求取最优数据降维结果;最后,实现图像数据降维。选取Yale,ORL两类数据集与传统算法进行人脸识别对比实验,实验结果表明:所提出的算法针对图像数据降维问题有较好的效果,结合支持向量机算法,可有效地对人脸图像进行识别,且有较高的识别率,从而体现出算法对高维数据降维的准确性。 展开更多
关键词 高斯过程隐变量模型 数据降维 人脸识别 超参数 概率最大化
下载PDF
基于神经网络的大规模数据集离群点检测算法 被引量:7
13
作者 高志宇 宋学坤 +2 位作者 肖俊生 闫培玲 孙新娟 《沈阳工业大学学报》 CAS 北大核心 2022年第4期420-425,共6页
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在... 针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点. 展开更多
关键词 神经网络 大规模数据集 离群点检测 冗余数据 降维处理 误差函数 核主成分分析 中心势值
下载PDF
高维面板数据降维与变量选择方法研究 被引量:5
14
作者 张波 方国斌 《统计与信息论坛》 CSSCI 2012年第6期21-28,共8页
从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据... 从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行述评;针对高维面板数据未来的发展方向、理论与应用中尚待解决的一些关键问题进行分析与展望。 展开更多
关键词 高维 面板数据 降维 变量选择
下载PDF
基于可分性判据排序的RBF神经网络属性选择方法 被引量:2
15
作者 文专 王正欧 《计算机工程》 CAS CSCD 北大核心 2004年第23期40-42,共3页
提出一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,即可进行降维。它克服了现有的神经网络降维方法必须对全部属性进行训练的弊端,大大提高了属性选择的效率。该方法先用本文提出的一种简单的可分... 提出一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,即可进行降维。它克服了现有的神经网络降维方法必须对全部属性进行训练的弊端,大大提高了属性选择的效率。该方法先用本文提出的一种简单的可分性判据方法对数据属性进行重要性排序,然后按重要次序用RBF神经网络进行属性选择。仿真实例表明,该方法具有良好的效果。 展开更多
关键词 属性选择 可分性判据 RBF神经网络 降维 排序 属性重要性 数据 方法 训练 克服
下载PDF
数据维数消减方法研究 被引量:2
16
作者 吴新玲 《计算机工程与设计》 CSCD 北大核心 2006年第16期3000-3002,共3页
对高维数据集合的维数消减方法及其应用进行了分类研究。将数据维数消减方法主要分为两类:子集选择法和数据变换法。基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行... 对高维数据集合的维数消减方法及其应用进行了分类研究。将数据维数消减方法主要分为两类:子集选择法和数据变换法。基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行了分析、探讨,给出了一些可行的方法实现策略。 展开更多
关键词 数据挖掘 维数消减 子集选择 数据变换 数据分析
下载PDF
基于变量选择深度信念神经网络的风速预测 被引量:6
17
作者 李大中 李昉 张克延 《华北电力大学学报(自然科学版)》 CAS 北大核心 2021年第1期62-68,共7页
风速波动具有随机性和不确定性,导致风速预测的准确度不高。准确的风速预测对于优化风电运行策略和提高发电效率具有重大意义。利用最大信息系数(Maximal Information Coefficient,MIC)对风机SCADA数据进行变量相关性分析,并以MIC值大... 风速波动具有随机性和不确定性,导致风速预测的准确度不高。准确的风速预测对于优化风电运行策略和提高发电效率具有重大意义。利用最大信息系数(Maximal Information Coefficient,MIC)对风机SCADA数据进行变量相关性分析,并以MIC值大小对原始变量排序,将包含7项变量的子集作为深度信念网络(Deep Belief Network,DBN)输入,得到MIC-DBN风速预测模型。基于风场实际数据将MIC-DBN模型与BP神经网络模型和GA-BP模型进行测试对比,实验结果表明,MIC-DBN风速预测模型的预测精度和泛化性能具有良好的效果。 展开更多
关键词 风场大数据 变量选择 深度信念网络 受限玻尔兹曼机 最大信息系数
下载PDF
基于互信息的变量选择方法 被引量:2
18
作者 周生彬 黄叶金 《统计与决策》 CSSCI 北大核心 2020年第1期20-23,共4页
文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和... 文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和实证研究表明,MI-SIS方法在小样本情形下能够有效地发现微弱信号。 展开更多
关键词 变量选择 互信息 非参数密度估计 超高维数据分析
下载PDF
大规模多视图数据的自降维K-means算法 被引量:1
19
作者 曹卫东 蔡浩天 《计算机应用研究》 CSCD 北大核心 2020年第10期2937-2940,2975,共5页
为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering)。通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分... 为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering)。通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分解(NMF)对损失函数进行重构,使不同视图共享相同的聚类指示矩阵从而实现多视图信息互补,完成大规模多视图数据的聚类。实验结果表明,在大规模多视图数据集上,该算法比其他多视图聚类算法资源消耗更小,并且能够进行更为准确的聚类。 展开更多
关键词 大规模数据 多视图 自降维 K-MEANS 信息互补
下载PDF
浅谈基础特征工程 被引量:3
20
作者 顾亚文 《数字技术与应用》 2020年第2期217-218,共2页
本文从数值型数据、分类型数据、文本与图像这四大最常见的数据源出发,尝试讲解部分常用特征工程方法,然后介绍了降维和特征选择这两大特征工程主题中的通用方法。本文从特征工程的视角看待机器学习问题,希望读者能更全面的了解机器学... 本文从数值型数据、分类型数据、文本与图像这四大最常见的数据源出发,尝试讲解部分常用特征工程方法,然后介绍了降维和特征选择这两大特征工程主题中的通用方法。本文从特征工程的视角看待机器学习问题,希望读者能更全面的了解机器学习的流程。 展开更多
关键词 常用特征工程 数据处理 降维 特征选择
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部