期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
大数据下的快速KNN分类算法 被引量:29
1
作者 苏毅娟 邓振云 +1 位作者 程德波 宗鸣 《计算机应用研究》 CSCD 北大核心 2016年第4期1003-1006,1023,共5页
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测... 针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。 展开更多
关键词 K最近邻 测试复杂度 大数据 分块 聚类中心
下载PDF
基于稀疏学习的kNN分类 被引量:8
2
作者 宗鸣 龚永红 +2 位作者 文国秋 程德波 朱永华 《广西师范大学学报(自然科学版)》 CAS 北大核心 2016年第3期39-45,共7页
在kNN算法分类问题中,k的取值一般是固定的,另外,训练样本中可能存在的噪声能影响分类结果。针对以上存在的两个问题,本文提出一种新的基于稀疏学习的kNN分类方法。本文用训练样本重构测试样本,其中,l_1-范数导致的稀疏性用来对每个测... 在kNN算法分类问题中,k的取值一般是固定的,另外,训练样本中可能存在的噪声能影响分类结果。针对以上存在的两个问题,本文提出一种新的基于稀疏学习的kNN分类方法。本文用训练样本重构测试样本,其中,l_1-范数导致的稀疏性用来对每个测试样本用不同数目的训练样本进行分类,这解决了kNN算法固定k值问题;l_(21)-范数产生的整行稀疏用来去除噪声样本。在UCI数据集上进行实验,本文使用的新算法比原来的kNN分类算法能取得更好的分类效果。 展开更多
关键词 稀疏学习 重构 l1-范数 l21-范数 噪声样本
下载PDF
基于子空间学习的图稀疏属性选择算法 被引量:3
3
作者 钟智 何威 +2 位作者 程德波 胡荣耀 刘星毅 《计算机应用研究》 CSCD 北大核心 2016年第9期2679-2682,共4页
针对处理高维度属性的大数据属性约减方法进行了研究,发现属性选择和子空间学习是属性约简的两种常见方法,其中属性选择具有很好的解释性,子空间学习的分类效果优于属性选择,而往往这两种方法是各自独立进行应用的。为此,综合这两种属... 针对处理高维度属性的大数据属性约减方法进行了研究,发现属性选择和子空间学习是属性约简的两种常见方法,其中属性选择具有很好的解释性,子空间学习的分类效果优于属性选择,而往往这两种方法是各自独立进行应用的。为此,综合这两种属性约简方法,设计出新的属性选择方法,即利用子空间学习的两种技术(即线性判别分析(LDA)和局部保持投影(LPP)),考虑数据的全局特性和局部特性,同时设置稀疏正则化因子实现属性选择。基于分类准确率、方差和变异系数等评价指标的实验结果表明,该算法相比其他算法,能更有效地选取判别属性,并能取得很好的分类效果。 展开更多
关键词 属性约简 属性选择 子空间学习 线性判别分析 局部保持投影 稀疏学习
下载PDF
稀疏编码的最近邻填充算法 被引量:2
4
作者 苏毅娟 程德波 +2 位作者 宗鸣 李凌 朱永华 《计算机应用研究》 CSCD 北大核心 2015年第7期1942-1945,共4页
针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果。为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题。该算法是用训练样本重构... 针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果。为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题。该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用1范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题。基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好。该算法能很好地避免了KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域。 展开更多
关键词 缺失值填充 稀疏编码 重构 均方根误差 相关系数 数据预处理
下载PDF
基于混合模重构的kNN回归 被引量:3
5
作者 龚永红 宗鸣 +1 位作者 朱永华 程德波 《计算机应用与软件》 CSCD 2016年第2期232-236,241,共6页
对于线性回归中k NN(k-Nearest Neighbor)算法的k值固定问题和训练样本中的噪声问题,提出一种新的基于重构的稀疏编码方法。该方法用训练样本重构每一个测试样本,重构过程中,l_1-范数被用来确保每个测试样本被不同数目的训练样本来预测... 对于线性回归中k NN(k-Nearest Neighbor)算法的k值固定问题和训练样本中的噪声问题,提出一种新的基于重构的稀疏编码方法。该方法用训练样本重构每一个测试样本,重构过程中,l_1-范数被用来确保每个测试样本被不同数目的训练样本来预测,以此解决kNN算法固定k值问题;l_(2,1)-范数导致的整行稀疏被用来去除噪声样本,以避免数据集上的噪声对重构产生不利影响。实验在UCI数据集上显示:新的改进算法比原来的kNN算法在线性回归中具有更好的预测效果。 展开更多
关键词 线性回归 稀疏编码 重构l1-范数l2 1-范数 噪声样本
下载PDF
基于图的特征选择算法在阿兹海默症诊断问题研究 被引量:3
6
作者 朱永华 程德波 +2 位作者 何威 文国秋 梁正友 《计算机应用研究》 CSCD 北大核心 2017年第4期1018-1021,共4页
针对神经性疾病难以确诊的问题,提出了一种基于图的特征选择方法,过滤掉不相干的特征,从而方便并且准确地对疾病患者进行诊断。算法首先基于先验知识定义了两种基本关系(特征关系和样本关系);然后将这两种关系嵌入到一个由最小二次损失... 针对神经性疾病难以确诊的问题,提出了一种基于图的特征选择方法,过滤掉不相干的特征,从而方便并且准确地对疾病患者进行诊断。算法首先基于先验知识定义了两种基本关系(特征关系和样本关系);然后将这两种关系嵌入到一个由最小二次损失函数和l2-范数正则化因子组成的多任务学习框架中进行特征选择;最后,将约简得到的降维矩阵送入支持向量机(SVM)中对阿兹海默症患者进行确诊。通过对Alzheimer’s disease neuroimaging initiative(ANDI)的研究数据集进行实验得知,提出算法的分类效果均优于一般常用分类算法,如K最近邻法(KNN)、支持向量机(SVM)等。提出的算法通过考虑特征选择和引入两种数据的内在关系,有效提高了阿兹海默疾病诊断的正确率。 展开更多
关键词 阿兹海默病诊断 特征选择 流型学习
下载PDF
基于稀疏学习的自适应近邻分类算法 被引量:1
7
作者 程德波 苏毅娟 +1 位作者 宗鸣 朱永华 《计算机工程与设计》 北大核心 2015年第7期1912-1916,共5页
为解决k-NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data-driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用l1-范数稀疏重构系数矩阵,使每个... 为解决k-NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data-driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用l1-范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k(不定值)个训练样本来重构,解决k-NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k-NN算法比经典k-NN算法效果要好。 展开更多
关键词 稀疏学习 重构技术 数据驱动 l1-范数 邻域
下载PDF
基于稀疏学习的鲁棒自表达属性选择算法
8
作者 何威 刘星毅 +1 位作者 程德波 胡荣耀 《计算机应用与软件》 CSCD 2016年第11期193-196,239,共5页
受属性选择处理高维数据表现的高效性和低秩自表达方法在子空间聚类上成功运用的启发,提出一种基于稀疏学习的自表达属性选择算法。算法首先将每个属性用其他属性线性表示得到自表达系数矩阵;然后结合稀疏学习的理论(即整合L2,1-范数为... 受属性选择处理高维数据表现的高效性和低秩自表达方法在子空间聚类上成功运用的启发,提出一种基于稀疏学习的自表达属性选择算法。算法首先将每个属性用其他属性线性表示得到自表达系数矩阵;然后结合稀疏学习的理论(即整合L2,1-范数为稀疏正则化项惩罚目标函数)实现属性选择。在以分类准确率和方差作为评价指标下,相比其他算法,实验结果表明该算法可更高效地选择出重要属性,且显示出非常好的鲁棒性。 展开更多
关键词 高维数据 属性选择 属性自表达 稀疏学习
下载PDF
鲁棒自表达的低秩属性选择算法 被引量:3
9
作者 胡荣耀 刘星毅 +2 位作者 程德波 何威 罗噭 《计算机工程》 CAS CSCD 北大核心 2017年第9期43-50,共8页
针对无监督属性选择算法无类别信息和未考虑属性的低秩问题,提出一种基于自表达方法的低秩属性选择算法。在损失函数中使用低秩和自表达方法描述属性间的相关结构,利用K均值聚类算法得到所有样本的伪类标签进行属性选择,采用稀疏学习方... 针对无监督属性选择算法无类别信息和未考虑属性的低秩问题,提出一种基于自表达方法的低秩属性选择算法。在损失函数中使用低秩和自表达方法描述属性间的相关结构,利用K均值聚类算法得到所有样本的伪类标签进行属性选择,采用稀疏学习方法中的l_(2,p)-范数参数p控制属性选择结果的稀疏性,并通过子空间学习方法使属性选择结果达到全局最优。实验结果表明,与无监督属性选择算法相比,该算法在6个公开数据集上均具有较高的分类准确率及稳定性。 展开更多
关键词 属性选择 子空间学习 K均值聚类 低秩约束 稀疏学习
下载PDF
基于稀疏学习的低秩属性选择算法 被引量:2
10
作者 胡荣耀 刘星毅 +1 位作者 程德波 何威 《计算机工程与应用》 CSCD 北大核心 2017年第10期132-138,共7页
针对回归模型在进行属性选择未考虑类标签之间关系从而导致回归效果不理想,提出了一种新的具有鲁棒性的低秩属性选择算法。具体为,在线性回归的模型框架下,通过低秩约束来考虑类标签间的相关性和通过稀疏学习理论中的l_(2,p)-范数来考... 针对回归模型在进行属性选择未考虑类标签之间关系从而导致回归效果不理想,提出了一种新的具有鲁棒性的低秩属性选择算法。具体为,在线性回归的模型框架下,通过低秩约束来考虑类标签间的相关性和通过稀疏学习理论中的l_(2,p)-范数来考虑属性间的关联结构,以此去除不相关的冗余属性的影响;算法通过嵌入子空间学习方法(线性判别分析(LDA))来调整属性选择结果。经实验验证,提出的属性选择算法在六个公开数据集上的效果均优于四种对比算法。 展开更多
关键词 线性回归 线性判别分析 属性选择 子空间学习 稀疏学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部