期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于图嵌入的正交局部保持投影无监督特征选择
1
作者 朱建勇 李兆祥 +2 位作者 徐彬 杨辉 聂飞平 《计算机科学》 CSCD 北大核心 2023年第S02期540-548,共9页
传统的基于图学习的无监督特征选择算法通常采用稀疏正则化方法来选择特征,但这种方法过于依赖于图学习的效率,并且存在正则化参数调优困难等问题。为解决这些问题,针对性地提出了一种基于图嵌入学习的正交局部保持投影无监督特征选择(O... 传统的基于图学习的无监督特征选择算法通常采用稀疏正则化方法来选择特征,但这种方法过于依赖于图学习的效率,并且存在正则化参数调优困难等问题。为解决这些问题,针对性地提出了一种基于图嵌入学习的正交局部保持投影无监督特征选择(Orthogonal Locality Preserving Projection Unsupervised Feature Selection via Graph Embedding,OLPPFS)算法。首先,利用能够保持数据局部几何流形结构的局部保持投影方法增强数据的线性映射能力,同时约束正交方向投影以方便数据重构;其次,通过图嵌入学习方法快速构建稀疏相似图来描述样本数据的内在结构;接着,采用l_(2,0)范数约束投影矩阵的值,准确选择指定数目的判别性特征子集;最后,针对l_(2,0)范数NP难题,设计一种有效求解l_(2,0)范数问题的无参迭代算法求解该模型。仿真结果表明了所提算法的有效性和优越性。 展开更多
关键词 无监督特征选择 正交局部保持投影 图嵌入学习 l_(2 0)范数 无参迭代算法
下载PDF
一种基于极大熵的快速无监督线性降维方法 被引量:2
2
作者 王继奎 杨正国 +3 位作者 刘学文 易纪海 李冰 聂飞平 《软件学报》 EI CSCD 北大核心 2023年第4期1779-1795,共17页
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇... 现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类. 展开更多
关键词 无监督学习 线性降维 邻接图 聚类 极大熵
下载PDF
基于锚点策略的快速无监督特征选择算法
3
作者 朱建勇 徐彬 +1 位作者 杨辉 聂飞平 《传感器与微系统》 CSCD 北大核心 2023年第1期149-153,160,共6页
针对传统采用稀疏正则化方法的无监督特征选择算法相似图构建效率不高、优化过程引入正则参数等问题,提出了一种基于图学习锚点嵌入策略的快速无监督特征选择算法。利用局部保持投影思想探索数据内部几何流形结构,约束投影正交方向增强... 针对传统采用稀疏正则化方法的无监督特征选择算法相似图构建效率不高、优化过程引入正则参数等问题,提出了一种基于图学习锚点嵌入策略的快速无监督特征选择算法。利用局部保持投影思想探索数据内部几何流形结构,约束投影正交方向增强线性映射和数据重构能力;采用基于锚点策略构建原始数据相似图,快速学习相似度矩阵;通过L 2,0范数结构化稀疏投影矩阵精确选择具有代表性的特征子集;设计了一个有效迭代算法求解目标函数问题。在4个公开数据集上的对比实验表明算法的有效性。 展开更多
关键词 无监督特征选择 锚点策略 正交局部保持投影 结构化稀疏
下载PDF
基于二部图的快速聚类算法 被引量:5
4
作者 聂飞平 王成龙 王榕 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2019年第1期18-23,共6页
谱聚类算法是一种可有效学习数据流形分布和非凸状分布的聚类算法,但其过程涉及构建相似图、特征分解等高计算复杂度步骤,难以直接用于大规模聚类.提出一种基于二部图的快速聚类算法(fast clustering based on bipartite graph,FCBG),... 谱聚类算法是一种可有效学习数据流形分布和非凸状分布的聚类算法,但其过程涉及构建相似图、特征分解等高计算复杂度步骤,难以直接用于大规模聚类.提出一种基于二部图的快速聚类算法(fast clustering based on bipartite graph,FCBG),通过对数据采样降低原有数据结构规模,然后基于二部图学习采样数据和原有数据关系.通过对二部图对应的拉普拉斯矩阵施加秩约束,FCBG算法可在优化二部图的边的权重的同时,保持二部图的类簇结构,最终直接给出聚类结果,不依赖构图时每条边的初始权重分配.算法计算复杂度与数据大小呈线性关系.实验表明,FCBG算法可有效学习二部图的权重,并在较少的时间消耗下获得高质量的聚类结果. 展开更多
关键词 计算机应用技术 聚类 大数据 谱图理论 二部图 秩约束
下载PDF
基于特征气体加权的油浸式变压器故障预报 被引量:1
5
作者 朱建勇 凤冰霞 +1 位作者 杨辉 聂飞平 《控制工程》 CSCD 北大核心 2022年第10期1743-1751,共9页
电力变压器担负着电网中电能变换与传输任务,是电力系统安全可靠、经济优质运行的重要保障,减少和防止其故障发生对电网意义重大。首先,针对时序数据样本的相关性,为减少时间序列间隔与数据变化给预测模型带来的影响,通过分析气体浓度... 电力变压器担负着电网中电能变换与传输任务,是电力系统安全可靠、经济优质运行的重要保障,减少和防止其故障发生对电网意义重大。首先,针对时序数据样本的相关性,为减少时间序列间隔与数据变化给预测模型带来的影响,通过分析气体浓度的历史数据,对其迭代计算GM(1,1)模型中背景值系数,优化准光滑数列的平移量,得到最佳背景值系数序列,提出了基于改进背景值系数序列的灰色模型;其次,对预测气体加权处理,采用表征变量关联程度的互信息方法确定特征气体的权重;然后,建立基于PSO-LSSVM模型的多分类变压器故障诊断器;最后,仿真实验验证了所提方法的有效性。 展开更多
关键词 变压器 灰色模型 故障诊断 LS-SVM模型
下载PDF
稀疏约束的嵌入式模糊均值聚类算法 被引量:3
6
作者 王继奎 杨正国 +3 位作者 易纪海 刘学文 王会勇 聂飞平 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期725-733,共9页
降维作为聚类问题的关键预处理步骤被用来抽取高维数据潜在的低维子空间结构.面对高维数据聚类,传统的策略是首先采用降维技术提取高维数据嵌入在低维空间的潜在数据结构,然后利用一个聚类算法完成数据聚类.然而,这种两阶段优化策略的... 降维作为聚类问题的关键预处理步骤被用来抽取高维数据潜在的低维子空间结构.面对高维数据聚类,传统的策略是首先采用降维技术提取高维数据嵌入在低维空间的潜在数据结构,然后利用一个聚类算法完成数据聚类.然而,这种两阶段优化策略的聚类性能往往不如直接优化统一的目标函数.因此,在模糊聚类算法的基础上,本文提出了一种稀疏约束的嵌入式模糊均值聚类算法(EFSC),该方法结合线性正交投影技术在对高维数据降维的同时完成聚类.EFSC模型对模糊矩阵施加了稀疏约束来提升聚类性能.理论分析与实验结果证明了本文提出的EFSC算法的有效性. 展开更多
关键词 高维数据 降维 模糊聚类 稀疏约束
下载PDF
密度峰值优化的球簇划分欠采样不平衡数据分类算法 被引量:6
7
作者 刘学文 王继奎 +4 位作者 杨正国 李强 易纪海 李冰 聂飞平 《计算机应用》 CSCD 北大核心 2022年第5期1455-1463,共9页
在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoos... 在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。 展开更多
关键词 不平衡数据分类 密度峰值 球聚类 代价敏感 欠采样
下载PDF
基于锚点的快速无监督图嵌入 被引量:1
8
作者 杨辉 陶力宏 +1 位作者 朱建勇 聂飞平 《计算机科学》 CSCD 北大核心 2022年第4期116-123,共8页
图嵌入降维算法由于其有效性被广泛应用。传统图嵌入算法构造K-Nearest Neighbors(K-NN)图的计算复杂度至少为O(n^(2)d),其中n为样本数,d为样本维度。在数据量大的情况下,构造K-NN图将非常耗时,因为其计算复杂度与样本数的平方成正比,... 图嵌入降维算法由于其有效性被广泛应用。传统图嵌入算法构造K-Nearest Neighbors(K-NN)图的计算复杂度至少为O(n^(2)d),其中n为样本数,d为样本维度。在数据量大的情况下,构造K-NN图将非常耗时,因为其计算复杂度与样本数的平方成正比,这将限制图嵌入算法在大规模数据集上的应用。为降低构图过程的计算复杂度,提出一种基于锚点的快速无监督图嵌入算法(Fast Unsupervised Graph Embedding Based on Anchors,FUGE)。该算法首先从数据集中选取锚点(代表点),然后构造数据点-锚点相似度图,最后执行图嵌入分析。由于锚点数量远小于数据量,所提方法能有效地降低构图过程的计算复杂度;不同于使用核函数来构造相似度图,该算法直接通过数据点的近邻信息来学习数据点-锚点的相似度图,这进一步加快了构图过程。整个算法的计算复杂度为O(nd^(2)+nmd),其中m为锚点数。在基准数据集上的大量实验证明了所提算法的有效性和高效性。 展开更多
关键词 降维 图嵌入 锚点 K-means++ 正交约束
下载PDF
一种高效的双边聚类集成算法 被引量:1
9
作者 杨辉 彭晗 +1 位作者 朱建勇 聂飞平 《计算机仿真》 北大核心 2021年第8期328-332,343,共6页
谱聚类可以任意形状的数据进行聚类,在聚类集成中能够有效的提高基聚类的质量。以往的聚类集成算法中,聚类集成得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散-连续-离散的转变。提出... 谱聚类可以任意形状的数据进行聚类,在聚类集成中能够有效的提高基聚类的质量。以往的聚类集成算法中,聚类集成得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散-连续-离散的转变。提出了一种基于谱聚类的双边聚类集成算法。算法首先在生成阶段使用谱聚类算法来获得基聚类,通过标准互信息来选取基聚类。将选出来基聚类和样本作为图的顶点,并对构建的图利用双边聚类算法对基聚类和样本同时聚类直接得到最终聚类结果。在实验中,将所提方法与一些聚类集成算法进行了比较,取得了较好的结果。 展开更多
关键词 聚类集成 聚类 谱聚类 基聚类
下载PDF
强化青年教师培养 提升立德树人成效 被引量:3
10
作者 王榕 聂飞平 《高教学刊》 2022年第13期145-148,共4页
青年教师是高等学历院校教师力量的中流砥柱,不断增强青年教师的教学能力是高等学历院校建设的一项非常重要的历史和现实任务。文章对高校青年教师培养和任职中的问题进行探讨和分析,指出影响青年教师发展的四个关键因素,包括缺乏政策... 青年教师是高等学历院校教师力量的中流砥柱,不断增强青年教师的教学能力是高等学历院校建设的一项非常重要的历史和现实任务。文章对高校青年教师培养和任职中的问题进行探讨和分析,指出影响青年教师发展的四个关键因素,包括缺乏政策支持、缺乏教学经验、缺乏教学能力认知、缺乏评价机制。与此同时,提出提高青年教师培养的有效措施,多举并措全面强化青年教师培养,深入贯彻落实新时代教育方针,坚持以学科发展和建设为牵引,牢固打牢教学基本功,夯实青年教师专业基础,科研与教学高效协同,合力构建高等学历院校青年教师教学能力塑造与奖励办法,加速助力教学能力稳步提升。文章内容对提升人才培养质量、立德树人成效具有重要意义。 展开更多
关键词 青年教师 立德树人 高等学历院校
下载PDF
密度峰值隶属度优化的半监督Self-Training算法
11
作者 刘学文 王继奎 +2 位作者 杨正国 李冰 聂飞平 《计算机科学与探索》 CSCD 北大核心 2022年第9期2078-2088,共11页
现实中由于获取标签的成本很高,大部分的数据只含有少量标签。相比监督学习和无监督学习,半监督学习能充分利用数据集中的大量无标签数据和少量有标签数据,以较少的标签成本获得较高的学习性能。自训练算法是一种经典的半监督学习算法,... 现实中由于获取标签的成本很高,大部分的数据只含有少量标签。相比监督学习和无监督学习,半监督学习能充分利用数据集中的大量无标签数据和少量有标签数据,以较少的标签成本获得较高的学习性能。自训练算法是一种经典的半监督学习算法,在其迭代优化分类器的过程中,不断从无标签样本中选取高置信度样本并由基分类器赋予标签,再将这些样本和伪标签添加进训练集。选取高置信度样本是Self-Training算法的关键,受密度峰值聚类算法(DPC)启发,将密度峰值用于高置信度样本的选取,提出了密度峰值隶属度优化的半监督Self-Training算法(STDPM)。首先,STDPM利用密度峰值发现样本的潜在空间结构信息并构造原型树。其次,搜索有标签样本在原型树上的无标签近亲结点,将无标签近亲结点的隶属于不同类簇的峰值定义为簇峰值,归一化后作为密度峰值隶属度。最后,将隶属度大于设定阈值的样本作为高置信度样本,由基分类器赋予标签后添加进训练集。STDPM充分利用密度峰值所隐含的密度和距离信息,提升了高置信度样本的选取质量,进而提升了分类性能。在8个基准数据集上进行对比实验,结果验证了STDPM算法的有效性。 展开更多
关键词 密度峰值隶属度 簇峰值 原型树 近亲结点集 自训练
下载PDF
近亲结点图编辑的Self-Training算法
12
作者 刘学文 王继奎 +3 位作者 杨正国 易纪海 李冰 聂飞平 《计算机工程与应用》 CSCD 北大核心 2022年第14期144-152,共9页
Self-Training算法的性能很大程度上取决于高置信度样本的识别准确度。受DPC算法启发,利用密度峰值定义样本间的原型关系,并构造出近亲结点图这一新型数据结构。在此基础上,提出了一种近亲结点图编辑的Self Training算法(self-training ... Self-Training算法的性能很大程度上取决于高置信度样本的识别准确度。受DPC算法启发,利用密度峰值定义样本间的原型关系,并构造出近亲结点图这一新型数据结构。在此基础上,提出了一种近亲结点图编辑的Self Training算法(self-training algorithm with editing direct relative node graph-DRNG)。DRNG采用假设检验的方法选择高置信度样本,将其加入有标签样本集进行迭代训练。因误分的高密度样本点对Self-Training算法的分类性能影响较大,所以,DRNG综合考虑距离和密度两个方面定义了近亲结点图中割边的非对称权重,增大了高密度点的割边权重,使其落在拒绝域外的概率增加,减小了因其误分类而产生的风险。为了验证DRNG的性能,在8个基准数据集上与类似算法进行对比实验,实验结果验证了DRNG的有效性。 展开更多
关键词 近亲结点图 半监督分类 密度峰值 自训练
下载PDF
机器学习的基石:聚类任务的现状与挑战
13
作者 薛菁菁 陈慧敏 +2 位作者 孔令怡 樊欣怡 聂飞平 《科学观察》 2024年第1期4-17,共14页
[目的/意义]随着信息技术的快速发展,各个领域积累的数据呈现出规模大、种类多、结构复杂等特点,这些都为已有的无监督聚类算法提出了严峻挑战。[方法/过程]该文对近年来提出的各种聚类算法进行了综述。[结果/结论]根据聚类算法可处理... [目的/意义]随着信息技术的快速发展,各个领域积累的数据呈现出规模大、种类多、结构复杂等特点,这些都为已有的无监督聚类算法提出了严峻挑战。[方法/过程]该文对近年来提出的各种聚类算法进行了综述。[结果/结论]根据聚类算法可处理的数据类型不同,聚类算法可分为基于向量表示的聚类算法和基于关系表示的聚类算法;从建模策略的角度,聚类算法可分为基于模型优化的算法以及基于启发式的算法。其中,基于模型优化的算法重点分析了k-means算法以及图割算法的研究现状,并给出了两种算法之间的差别和联系,进而解释了为什么k-means模型只能处理球形数据,而图割模型可以处理非凸数据。基于启发式的算法以密度聚类算法为例展开分析。此外,鉴于无监督聚类算法面临的非凸优化难题,该文还分析讨论了无监督聚类算法的各种优化方法。最后,归纳总结了现有算法与优化方法的主要特点,并指出了现阶段聚类方法存在的问题以及未来的研究方向。 展开更多
关键词 数据挖掘 无监督学习 机器学习 聚类分析 非凸优化
原文传递
基于深度线性判别分析的哈希技术 被引量:2
14
作者 胡迪 聂飞平 李学龙 《中国科学:信息科学》 CSCD 北大核心 2021年第2期279-293,共15页
传统基于分类学习的监督哈希方法并不能完全满足哈希检索技术需求,但是线性判别分析却能够在一定程度上做到这一点.本文提出将线性判别分析作为深度网络的优化目标,以端到端训练的方式学习有效的哈希编码.但是,直接以上述目标训练神经... 传统基于分类学习的监督哈希方法并不能完全满足哈希检索技术需求,但是线性判别分析却能够在一定程度上做到这一点.本文提出将线性判别分析作为深度网络的优化目标,以端到端训练的方式学习有效的哈希编码.但是,直接以上述目标训练神经网络就必须解决具有较高计算复杂度的特征值分解问题.在本文中,线性判别分析目标被转化为一个简单的最小均方问题,这种转化可以解决上述问题,同时可以利用成熟的优化方法优化网络.这种基于线性判别分析的深度网络拓展可以弥补传统判别分析在简单线性投影和特征学习上的劣势.本文在3个基准数据集上进行大量对比实验,相对于传统线性判别分析,本文所提方法在检索基准指标上有70%的提升,并超过大多数基于深度模型的哈希方法,这些实验结果证明了本文方法的有效性. 展开更多
关键词 哈希技术 线性判别分析 最近邻检索 深度网络 量化技术
原文传递
基于稀疏化神经网络的浮选泡沫图像特征选择 被引量:5
15
作者 朱建勇 黄鑫 +1 位作者 杨辉 聂飞平 《控制与决策》 EI CSCD 北大核心 2021年第7期1627-1636,共10页
针对泡沫特征复杂繁多不利于建模控制的问题,提出一种基于稀疏化神经网络的泡沫图像特征选择方法.相较于大部分稀疏模型以线性回归模型作为损失函数的情况,选择以更为贴近实际工业过程非线性特点的神经网络模型作为损失函数,并加入L2,1... 针对泡沫特征复杂繁多不利于建模控制的问题,提出一种基于稀疏化神经网络的泡沫图像特征选择方法.相较于大部分稀疏模型以线性回归模型作为损失函数的情况,选择以更为贴近实际工业过程非线性特点的神经网络模型作为损失函数,并加入L2,1范数约束以起到特征选择的效果;此方法根据泡沫特征建立解决矿物品位回归问题的特征选择方法,并采用近点梯度法计算最优解,通过对第1层权值的综合排序得到特征选择子集;最后,利用支持向量机测试输入样本不同特征组合效果,对比各特征子集得到浮选过程最优特征组合.工业数据仿真结果表明,所提出方法可以有效地实现泡沫图像维数约简. 展开更多
关键词 泡沫浮选 稀疏模型 神经网络 特征选择 维度约简
原文传递
基于Hessian正则的自适应损失半监督特征选择 被引量:2
16
作者 朱建勇 周振辰 +1 位作者 杨辉 聂飞平 《控制与决策》 EI CSCD 北大核心 2021年第8期1862-1870,共9页
传统的基于拉普拉斯图的半监督特征选择算法处理高维、少标签样本时,缺乏外推能力且对数据异常值的鲁棒性差.基于此,提出一种基于Hessian正则的自适应损失半监督稀疏特征选择算法.首先,为提升线性映射能力,利用Hessian正则保留数据的局... 传统的基于拉普拉斯图的半监督特征选择算法处理高维、少标签样本时,缺乏外推能力且对数据异常值的鲁棒性差.基于此,提出一种基于Hessian正则的自适应损失半监督稀疏特征选择算法.首先,为提升线性映射能力,利用Hessian正则保留数据的局部流形结构;其次,为增强模型对具有较小或者较大损失数据的鲁棒性,引入自适应损失函数,通过调节自适应损失参数确定最小损失;再次,采用l2,p范数稀疏投影矩阵,提升特征的区分度,增加模型适应度;最后,采用递归迭代优化求解目标函数.仿真实验验证了所提方法的有效性和优越性. 展开更多
关键词 半监督 特征选择 自适应损失 稀疏约束 L2 p范数
原文传递
Semi-Supervised Additive Logistic Regression: A Gradient Descent Solution 被引量:1
17
作者 宋阳秋 蔡渠棠 +1 位作者 聂飞平 张长水 《Tsinghua Science and Technology》 SCIE EI CAS 2007年第6期638-646,共9页
This paper describes a semi-supervised regularized method for additive logistic regression. The graph regularization term of the combined functions is added to the original cost functional used in AdaBoost. This term ... This paper describes a semi-supervised regularized method for additive logistic regression. The graph regularization term of the combined functions is added to the original cost functional used in AdaBoost. This term constrains the learned function to be smooth on a graph. Then the gradient solution is computed with the advantage that the regularization parameter can be adaptively selected. Finally, the function step-size of each iteration can be computed using Newton-Raphson iteration. Experiments on benchmark data sets show that the algorithm gives better results than existing methods. 展开更多
关键词 SEMI-SUPERVISED BOOSTING graph regularization
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部