期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
An Improved Algorithm for Imbalanced Data and Small Sample Size Classification
1
作者 Yong Hu Dongfa Guo +7 位作者 Zengwei Fan Chen Dong Qiuhong Huang Shengkai Xie Guifang Liu Jing Tan Boping Li Qiwei Xie 《Journal of Data Analysis and Information Processing》 2015年第3期27-33,共7页
Traditional classification algorithms perform not very well on imbalanced data sets and small sample size. To deal with the problem, a novel method is proposed to change the class distribution through adding virtual s... Traditional classification algorithms perform not very well on imbalanced data sets and small sample size. To deal with the problem, a novel method is proposed to change the class distribution through adding virtual samples, which are generated by the windowed regression over-sampling (WRO) method. The proposed method WRO not only reflects the additive effects but also reflects the multiplicative effect between samples. A comparative study between the proposed method and other over-sampling methods such as synthetic minority over-sampling technique (SMOTE) and borderline over-sampling (BOS) on UCI datasets and Fourier transform infrared spectroscopy (FTIR) data set is provided. Experimental results show that the WRO method can achieve better performance than other methods. 展开更多
关键词 Class IMBALANCE Learning OVER-SAMPLING high-dimensional small-sample size Support VECTOR Machine
下载PDF
Reliability Assessment for the Solenoid Valve of a High-Speed Train Braking System under Small Sample Size 被引量:10
2
作者 Jian-Wei Yang Jin-Hai Wang +1 位作者 Qiang Huang Ming Zhou 《Chinese Journal of Mechanical Engineering》 SCIE EI CAS CSCD 2018年第3期189-199,共11页
Reliability assessment of the braking system in a high?speed train under small sample size and zero?failure data is veryimportant for safe operation. Traditional reliability assessment methods are only performed well ... Reliability assessment of the braking system in a high?speed train under small sample size and zero?failure data is veryimportant for safe operation. Traditional reliability assessment methods are only performed well under conditions of large sample size and complete failure data,which lead to large deviation under conditions of small sample size and zero?failure data. To improve this problem,a new Bayesian method is proposed. Based on the characteristics of the solenoid valve in the braking system of a high?speed train,the modified Weibull distribution is selected to describe the failure rate over the entire lifetime. Based on the assumption of a binomial distribution for the failure probability at censored time,a concave method is employed to obtain the relationships between accumulation failure prob?abilities. A numerical simulation is performed to compare the results of the proposed method with those obtained from maximum likelihood estimation,and to illustrate that the proposed Bayesian model exhibits a better accuracy for the expectation value when the sample size is less than 12. Finally,the robustness of the model is demonstrated by obtaining the reliability indicators for a numerical case involving the solenoid valve of the braking system,which shows that the change in the reliability and failure rate among the di erent hyperparameters is small. The method is provided to avoid misleading of subjective information and improve accuracy of reliability assessment under condi?tions of small sample size and zero?failure data. 展开更多
关键词 Zero?failure data Modified Weibull distribution small sample size Bayesian method
下载PDF
面向中医药高维小样本的多组学数据融合方法初探
3
作者 王念 俞成诚 +2 位作者 杨虎 王忠 刘骏 《中国中药杂志》 北大核心 2025年第1期278-284,共7页
随着大数据和人工智能技术的发展,组学技术在中医药研究中的广泛应用生成了大型实验数据集,跨尺度寻找海量数据之间的关联成为可能,由此也逐步进入数据密集型研究范式。重视技术及算力工具的多组学数据融合分析模式作为新兴方法之一,或... 随着大数据和人工智能技术的发展,组学技术在中医药研究中的广泛应用生成了大型实验数据集,跨尺度寻找海量数据之间的关联成为可能,由此也逐步进入数据密集型研究范式。重视技术及算力工具的多组学数据融合分析模式作为新兴方法之一,或许是该领域的突破点。中医学的整体观念与多组学数据融合的理念呈现相似之处,但其数据类型呈现高维小样本特征,因此需要通过降维等的方式对数据进行处理。目前的挑战是如何选择适合数据的分析方法,增加对生理功能和疾病诊疗过程的系统理解。因此该文通过对多组学数据融合的理论和框架进行探索,分析中医药高维小样本多组学数据融合的方法,拟为中医药的发展提供思路。 展开更多
关键词 多组学 中医药 数据融合 高维小样本
原文传递
Asymptotic Independence of the Quadratic Form and Maximum of Independent Random Variables with Applications to High-Dimensional Tests
4
作者 Da Chuan CHEN Long FENG De Cai LIANG 《Acta Mathematica Sinica,English Series》 SCIE CSCD 2024年第12期3093-3126,共34页
This paper establishes the asymptotic independence between the quadratic form z^(T)Az and maximum max1≤i≤p|zi|of a sequence of independent sub-Gaussian random variables z=(z1m…zp)^(T).Based on this theoretical resu... This paper establishes the asymptotic independence between the quadratic form z^(T)Az and maximum max1≤i≤p|zi|of a sequence of independent sub-Gaussian random variables z=(z1m…zp)^(T).Based on this theoretical result,we find the asymptotic joint distribution for the quadratic form and maximum,which can be applied into the high-dimensional testing problems.By combining the sum-type test and the max-type test,we propose the Fisher’s combination tests for the one-sample mean test and two-sample mean test.Under this novel general framework,several strong assumptions in existing literature have been relaxed.Monte Carlo simulation has been done which shows that our proposed tests are strongly robust to both sparse and dense data. 展开更多
关键词 Asymptotic independence high dimensional data large p small n one-sample test two-sample test
原文传递
On the k-sample Behrens-Fisher problem for high-dimensional data 被引量:3
5
作者 ZHANG JinTing XU JinFeng 《Science China Mathematics》 SCIE 2009年第6期1285-1304,共20页
For several decades, much attention has been paid to the two-sample Behrens-Fisher (BF) problem which tests the equality of the means or mean vectors of two normal populations with unequal variance/covariance structur... For several decades, much attention has been paid to the two-sample Behrens-Fisher (BF) problem which tests the equality of the means or mean vectors of two normal populations with unequal variance/covariance structures. Little work, however, has been done for the k-sample BF problem for high dimensional data which tests the equality of the mean vectors of several high-dimensional normal populations with unequal covariance structures. In this paper we study this challenging problem via extending the famous Scheffe’s transformation method, which reduces the k-sample BF problem to a one-sample problem. The induced one-sample problem can be easily tested by the classical Hotelling’s T 2 test when the size of the resulting sample is very large relative to its dimensionality. For high dimensional data, however, the dimensionality of the resulting sample is often very large, and even much larger than its sample size, which makes the classical Hotelling’s T 2 test not powerful or not even well defined. To overcome this difficulty, we propose and study an L 2-norm based test. The asymptotic powers of the proposed L 2-norm based test and Hotelling’s T 2 test are derived and theoretically compared. Methods for implementing the L 2-norm based test are described. Simulation studies are conducted to compare the L 2-norm based test and Hotelling’s T 2 test when the latter can be well defined, and to compare the proposed implementation methods for the L 2-norm based test otherwise. The methodologies are motivated and illustrated by a real data example. 展开更多
关键词 χ 2-approximation χ 2-type mixtures high-dimensional data analysis Hotelling’s T 2 test k-sample test L 2-norm based test Primary 62H15 Secondary 62E17 62E20
原文传递
2D Face Recognition System Invariant to Illumination Variations Using Two Dimensional Maximum Margin Criteria for Feature Extraction
6
作者 Kiran P. Gaikwad Vijay M. Wadhai +1 位作者 Prasad S. Halgaonkar Santosh Kumar 《通讯和计算机(中英文版)》 2011年第3期229-233,共5页
关键词 人脸识别系统 标准数据库 二维图像 特征提取 光照变化 最大间距 面部识别系统 线性判别分析
下载PDF
融合Lasso的近似马尔科夫毯特征选择方法
7
作者 刘明 杜建强 +3 位作者 李郅琴 罗计根 聂斌 张梦婷 《计算机工程与应用》 CSCD 北大核心 2024年第8期121-130,共10页
在特征选择问题中,近似马尔科夫毯常用于判断冗余特征,但所得到的冗余特征并不完全相同,因此,在直接使用近似马尔科夫毯删除冗余特征时,存在可能导致信息丢失的情况,影响模型精度。为此,提出一种用于中药代谢组学高维小样本数据的融合La... 在特征选择问题中,近似马尔科夫毯常用于判断冗余特征,但所得到的冗余特征并不完全相同,因此,在直接使用近似马尔科夫毯删除冗余特征时,存在可能导致信息丢失的情况,影响模型精度。为此,提出一种用于中药代谢组学高维小样本数据的融合Lasso的近似马尔科夫毯特征选择方法。方法分为两个阶段,第一阶段,通过最大信息系数对特征的相关度分析过滤无关特征;第二阶段,采用近似马尔科夫毯构建相似特征组,使用Lasso评估相似特征组中特征影响力,迭代去除冗余特征。通过实验对比表明,该算法可以在一定程度上减少有用信息丢失,去除无关特征和冗余特征,提高模型精度和稳定性。 展开更多
关键词 近似马尔科夫毯 Lasso 特征选择 高维小样本 中医药信息
下载PDF
面向高维度小样本场景的船用柴油机装配质量评估
8
作者 冯麟皓 王叶松 +2 位作者 方喜峰 于航 李群 《制造技术与机床》 北大核心 2024年第7期177-183,190,共8页
针对现阶段船用柴油机年均产量较小、质量数据不足、无法及时对装配质量进行准确评估的问题,文章提出了一种面向高维度小样本的质量评估方法。针对数据不平衡,提出了一种VAEGAN的数据生成方法,使用VAE网络增强了数据编码过程,有效扩充... 针对现阶段船用柴油机年均产量较小、质量数据不足、无法及时对装配质量进行准确评估的问题,文章提出了一种面向高维度小样本的质量评估方法。针对数据不平衡,提出了一种VAEGAN的数据生成方法,使用VAE网络增强了数据编码过程,有效扩充了原始数据;并构建了特征筛选网络剔除“冗余特征”,提取关键工序以提高训练效果;最后基于CNN-LSTM网络对装配过程进行时序建模,提高了装配质量评估的准确性。并使用某船用柴油机的部装质量数据进行实验验证,为高维度小样本数据的质量评估提供了理论参考。 展开更多
关键词 船用柴油机 装配质量评估 高维度小样本 特征筛选 深度学习
下载PDF
CR-WPCA:一种针对高维小样本数据集的加权主成分分析方法
9
作者 王文杰 姜念祖 +2 位作者 林帅男 胡敏 赵瑞 《白城师范学院学报》 2024年第5期48-56,共9页
主成分分析(PCA)是典型的特征提取和数据降维方法,但在高维小样本数据集的处理中,容易出现维度灾难、计算复杂度高以及过拟合等问题.针对此问题,提出了改进的CR-WPCA方法,对样本矩阵进行方差加权,使用Chebyshev矩阵作为协方差矩阵,经Hou... 主成分分析(PCA)是典型的特征提取和数据降维方法,但在高维小样本数据集的处理中,容易出现维度灾难、计算复杂度高以及过拟合等问题.针对此问题,提出了改进的CR-WPCA方法,对样本矩阵进行方差加权,使用Chebyshev矩阵作为协方差矩阵,经Householder正交化后,利用Rayleigh-Ritz过程计算特征值.对新方法进行了Monte Carlo模拟实验并在6个公共数据集上评估了CR-WPCA方法的性能.在三个自然光数据集上,通过应用CR-WPCA方法获得的重构误差平均值达到了1.160 3;在三个高光谱数据集上,结合四种分类器应用CR-WPCA方法的分类准确率平均值为0.88. 展开更多
关键词 高维小样本 主成分分析 Chebyshev矩阵 Householder正交化 Rayleigh-Ritz过程
下载PDF
肿瘤标志物识别的特征选择综述
10
作者 韩媛媛 《计算机应用》 CSCD 北大核心 2024年第S01期142-149,共8页
高通量测序技术的进步,产生了大量的组学数据。随着肿瘤数据信息化管理和精准医疗的快速发展,肿瘤标志物的识别对肿瘤的早期检测、诊断、预后和治疗方面具有重要意义。特征选择技术在肿瘤标志物的识别中起到了关键作用,通过机器学习模... 高通量测序技术的进步,产生了大量的组学数据。随着肿瘤数据信息化管理和精准医疗的快速发展,肿瘤标志物的识别对肿瘤的早期检测、诊断、预后和治疗方面具有重要意义。特征选择技术在肿瘤标志物的识别中起到了关键作用,通过机器学习模型筛选肿瘤标志物的成本较生物实验法更低廉且准确性更有保障。特征选择算法能从复杂的组学数据中筛选重要的特征集合。首先,介绍组学的不同类型及肿瘤标志物识别的重要意义;其次,介绍过滤式、包装式、嵌入式和整合式这4种不同类型的特征选择方法;再次,总结不同特征选择算法在肿瘤标志物识别中的应用;最后,探讨肿瘤标志物识别的挑战、研究突破点以及未来发展趋势。 展开更多
关键词 肿瘤标志物识别 特征选择 组学数据 机器学习 高维小样本
下载PDF
面向高维小样本群组数据变量选择方法的比较与应用
11
作者 李东升 邱宇婷 《商丘师范学院学报》 CAS 2024年第6期14-18,共5页
高维小样本群组数据变量选择是统计学领域面临的主要问题之一.随着基因组信息学的快速发展,高维小样本数据随处可见,这给统计建模带来了极具挑战性的任务.在高维小样本数据中,有些数据集是呈现群组结构,如果使用单变量选择方法,就会忽... 高维小样本群组数据变量选择是统计学领域面临的主要问题之一.随着基因组信息学的快速发展,高维小样本数据随处可见,这给统计建模带来了极具挑战性的任务.在高维小样本数据中,有些数据集是呈现群组结构,如果使用单变量选择方法,就会忽略分组信息,从而可能导致变量选择效果大大降低.基于此,主要介绍几种处理高维数据和群组数据集的变量选择方法,并对此进行数值模拟和实证分析.结果表明,在高维小样本群组数据集背景下,当变量维度低于50维时,采用grLasso方法,变量的选择和模型的拟合优度会更优;当变量维度高于50维时,采用grMCP、grSubset+grLasso和grSubset方法,变量的选择和模型的拟合优度会更优. 展开更多
关键词 高维小样本 群组结构 变量选择
下载PDF
Fisher线性鉴别分析的理论研究及其应用 被引量:97
12
作者 杨健 杨静宇 叶晖 《自动化学报》 EI CSCD 北大核心 2003年第4期481-493,共13页
Fisher线性鉴别分析已成为特征抽取的最为有效的方法之一 .但是在高维、小样本情况下如何抽取Fisher最优鉴别特征仍是一个困难的、至今没有彻底解决的问题 .文中引入压缩映射和同构映射的思想 ,从理论上巧妙地解决了高维、奇异情况下最... Fisher线性鉴别分析已成为特征抽取的最为有效的方法之一 .但是在高维、小样本情况下如何抽取Fisher最优鉴别特征仍是一个困难的、至今没有彻底解决的问题 .文中引入压缩映射和同构映射的思想 ,从理论上巧妙地解决了高维、奇异情况下最优鉴别矢量集的求解问题 ,而且该方法求解最优鉴别矢量集的全过程只需要在一个低维的变换空间内进行 ,这与传统方法相比极大地降低了计算量 .在此理论基础上 ,进一步为高维、小样本情况下的最优鉴别分析方法建立了一个通用的算法框架 ,即先作K L变换 ,再用Fisher鉴别变换作二次特征抽取 .基于该算法框架 ,提出了组合线性鉴别法 ,该方法综合利用了F S鉴别和J Y鉴别的优点 ,同时消除了二者的弱点 .在ORL标准人脸库上的试验表明 ,组合鉴别法所抽取的特征在普通的最小距离分类器和最近邻分类器下均达到 97%的正确识别率 ,而且识别结果十分稳定 . 展开更多
关键词 FISHER鉴别准则 线性鉴别分析 FoleySammon线性鉴别分析 组合线性鉴别分析 高维小样本问题 人脸识别
下载PDF
高维小样本分类问题中特征选择研究综述 被引量:36
13
作者 王翔 胡学钢 《计算机应用》 CSCD 北大核心 2017年第9期2433-2438,2448,共7页
随着生物信息学、基因表达谱微阵列、图像识别等技术的发展,高维小样本分类问题成为数据挖掘(包括机器学习、模式识别)中的一项挑战性任务,容易引发"维数灾难"和过拟合问题。针对这个问题,特征选择可以有效避免维数灾难,提升... 随着生物信息学、基因表达谱微阵列、图像识别等技术的发展,高维小样本分类问题成为数据挖掘(包括机器学习、模式识别)中的一项挑战性任务,容易引发"维数灾难"和过拟合问题。针对这个问题,特征选择可以有效避免维数灾难,提升分类模型泛化能力,成为研究的热点,有必要对国内外高维小样本特征选择主要研究情况进行综述。首先分析了高维小样本特征选择问题的本质;其次,根据其算法的本质区别,重点对高维小样本数据的特征选择方法进行分类剖析和比较;最后对高维小样本特征选择研究面临的挑战以及研究方向作了展望。 展开更多
关键词 特征选择 高维数据 小样本学习 信息过滤 支持向量机
下载PDF
基于矩阵指数变换的边界Fisher分析 被引量:7
14
作者 何进荣 丁立新 +1 位作者 崔梦天 胡庆辉 《计算机学报》 EI CSCD 北大核心 2014年第10期2196-2205,共10页
边界Fisher分析是一种经典的有监督线性降维方法,被广泛用于高维数据的模式分类.由于边界Fisher分析算法中涉及到矩阵求逆的运算,在数值计算中会产生矩阵的奇异性问题,尤其当样本的个数小于样本的维数时,导致所谓的"小样本问题&quo... 边界Fisher分析是一种经典的有监督线性降维方法,被广泛用于高维数据的模式分类.由于边界Fisher分析算法中涉及到矩阵求逆的运算,在数值计算中会产生矩阵的奇异性问题,尤其当样本的个数小于样本的维数时,导致所谓的"小样本问题".采用主成分分析方法对样本数据进行预处理可以克服奇异性问题,然而可能会损失样本的某些判别信息.针对此不足之处,根据矩阵指数的非奇异性,对边界Fisher分析中的散度矩阵进行矩阵指数变换,从而克服了矩阵求逆中的奇异性问题.理论分析表明,该方法等价于零空间上的边界Fisher分析,有效利用了类内散度矩阵的零空间上的信息,因此其判别能力得到了增强.数据可视化和人脸识别实验表明,该方法可以有效挖掘样本中潜在的判别特性,提高分类性能. 展开更多
关键词 边界Fisher分析 小样本问题 矩阵指数 人脸识别 数据挖掘
下载PDF
基于混合遗传算法与互信息分析的高维小样本特征选择 被引量:6
15
作者 姚树春 刘正 张强 《计算机应用与软件》 北大核心 2020年第1期247-255,共9页
针对高维小样本数据特征选择冗余度高和过拟合的问题,提出一种基于混合遗传算法与互信息分析的高维小样本特征选择算法。对互信息理论与特征选择问题进行深入分析,利用互信息消除特征冗余度能力强的优点,推理出基于互信息的目标函数和... 针对高维小样本数据特征选择冗余度高和过拟合的问题,提出一种基于混合遗传算法与互信息分析的高维小样本特征选择算法。对互信息理论与特征选择问题进行深入分析,利用互信息消除特征冗余度能力强的优点,推理出基于互信息的目标函数和优化的边界条件;设计混合的遗传算法来充分利用高维小样本数据集不同角度的属性数据,混合遗传算法设立主种群和次种群,在每次迭代中利用次种群的结果引导主种群的演化,从而缓解小样本数据带来的过拟合问题。基于医学数据集的对比实验结果表明,该算法有效地增强了遗传算法的稳定性和鲁棒性,并且实现了较好的特征选择效果。 展开更多
关键词 高维小样本数据 特征选择 互信息 遗传算法 过拟合问题 微阵列数据
下载PDF
基于行列特征复融合的人脸识别 被引量:4
16
作者 胡晓 俞王新 +1 位作者 余群 姚菁 《计算机工程》 CAS CSCD 北大核心 2010年第11期176-177,182,共3页
针对基于行列投影特征融合的二维线性判别分析中存在的问题,提出一种行列特征复融合的人脸识别算法。通过二维线性判别分析获得行和列的特征矩阵融合成一个复特征矩阵,从复特征矩阵重提取最具分类能力的系数组成特征向量。利用AT&T... 针对基于行列投影特征融合的二维线性判别分析中存在的问题,提出一种行列特征复融合的人脸识别算法。通过二维线性判别分析获得行和列的特征矩阵融合成一个复特征矩阵,从复特征矩阵重提取最具分类能力的系数组成特征向量。利用AT&T和AR人脸数据库对该算法进行性能测试,结果表明该算法具有较高的识别率。 展开更多
关键词 人脸识别 二维线性判别分析 小样本容量问题 特征融合
下载PDF
二维典型相关分析在小样本图像识别上的应用 被引量:4
17
作者 孙宁 宋莹 +1 位作者 成伟明 赵春光 《计算机工程与应用》 CSCD 北大核心 2010年第5期177-180,共4页
针对传统典型相关分析(Canonical Correlation Analysis,CCA)的图像识别中出现的小样本(Small Sample Size,SSS)问题,提出二维典型相关分析(Two-Dimensional CCA,2DCCA)。首先阐述了2DCCA方法的基本原理并给出了类成员关系矩阵的构造方... 针对传统典型相关分析(Canonical Correlation Analysis,CCA)的图像识别中出现的小样本(Small Sample Size,SSS)问题,提出二维典型相关分析(Two-Dimensional CCA,2DCCA)。首先阐述了2DCCA方法的基本原理并给出了类成员关系矩阵的构造方法,推导出了类成员关系协方差矩阵广义逆的解析解。其次,从理论上证明了2DCCA方法对于解决小样本问题的有效性。最后,利用人脸识别实验来测试该方法的性能,实验结果表明,2DCCA方法有效地解决了图像识别中常见的小样本问题,并且能取得较其他几种基于CCA的人脸识别方法更优的识别结果。 展开更多
关键词 典型相关分析 二维典型相关分析 图像识别 小样本问题
下载PDF
p范数正则化支持向量机分类算法 被引量:18
18
作者 刘建伟 李双成 罗雄麟 《自动化学报》 EI CSCD 北大核心 2012年第1期76-87,共12页
L2范数罚支持向量机(Support vector machine,SVM)是目前使用最广泛的分类器算法之一,同时实现特征选择和分类器构造的L1范数和L0范数罚SVM算法也已经提出.但是,这两个方法中,正则化阶次都是事先给定,预设p=2或p=1.而我们的实验研究显示... L2范数罚支持向量机(Support vector machine,SVM)是目前使用最广泛的分类器算法之一,同时实现特征选择和分类器构造的L1范数和L0范数罚SVM算法也已经提出.但是,这两个方法中,正则化阶次都是事先给定,预设p=2或p=1.而我们的实验研究显示,对于不同的数据,使用不同的正则化阶次,可以改进分类算法的预测准确率.本文提出p范数正则化SVM分类器算法设计新模式,正则化范数的阶次p可取范围为0<p≤2.使用网格法选择模型参数值,使用迭代再权方法求解分类器目标函数,找出最小分类预测误差的模型参数值.在实际数据集上的实验结果验证了提出算法能够同时实现分类预测和特征选择,性能优于L2范数罚SVM,L1范数罚SVM和L0范数罚SVM. 展开更多
关键词 迭代再权方法 p范数(0 支持向量机 特征选择 稀疏化模型 高维小样本数据
下载PDF
在小样本条件下直接LDA的理论分析 被引量:4
19
作者 赵武锋 沈海斌 严晓浪 《电子与信息学报》 EI CSCD 北大核心 2009年第11期2632-2636,共5页
直接线性鉴别分析(DLDA)是一种以克服小样本问题而提出的LDA扩展方法,被声明利用了包含类内散布矩阵零空间外的所有信息。然而,很多反例表明事实并非如此。为了更深入地了解DLDA的特性,该文从理论上对其进行了分析,得出结论:基于传统Fis... 直接线性鉴别分析(DLDA)是一种以克服小样本问题而提出的LDA扩展方法,被声明利用了包含类内散布矩阵零空间外的所有信息。然而,很多反例表明事实并非如此。为了更深入地了解DLDA的特性,该文从理论上对其进行了分析,得出结论:基于传统Fisher准则的DLDA几乎没利用零空间,将丢失一些有用的鉴别信息;而基于广义Fisher准则的DLDA,若满足一定条件(在高维小样本数据应用中一般都满足)且最优鉴别矢量正交约束,则其等价于零空间LDA和正交LDA。在人脸数据库ORL和YALE上的比较实验结果亦与理论分析一致。 展开更多
关键词 模式识别 FISHER准则 降维 线性鉴别分析 小样本
下载PDF
基于特征选择的统计最优样本大小算法 被引量:3
20
作者 邓杰 钱雪忠 +1 位作者 钱恒 吴秦 《计算机应用研究》 CSCD 北大核心 2014年第12期3535-3538,3549,共5页
针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基... 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法。实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的。 展开更多
关键词 统计最优样本大小算法 高维数据集 特征选择 聚类
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部