针对基因表达数据的高维小样本特点,提出基于信息增益与皮尔森相关系数的2D自适应特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)。以特征的信息增益度量相应特征所携带的信息量...针对基因表达数据的高维小样本特点,提出基于信息增益与皮尔森相关系数的2D自适应特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)。以特征的信息增益度量相应特征所携带的信息量,定义特征辨识度来度量特征的辨识能力大小,采用皮尔森相关系数定义特征独立性。为了尽可能选择到辨识能力和独立性都很好的特征,并能调和特征的辨识度与独立性对分类的贡献,定义两者之积为特征重要性,自适应地选择重要性远高于其余特征重要性的特征构成特征子集。以核极限学习机K-ELM(kernel extreme learning machine)为分类器,评价所选择特征子集的分类性能。基因数据集的实验测试以及与经典特征选择算法SVM-RFE、DRJMIM、mRMR、LLE Score、AMID、AVC的实验对比和统计重要性检测表明,提出的FSIP特征选择算法能够选择出分类能力很好的特征子集,基于被选特征子集的K-ELM具有很好的分类性能。展开更多
文摘针对基因表达数据的高维小样本特点,提出基于信息增益与皮尔森相关系数的2D自适应特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)。以特征的信息增益度量相应特征所携带的信息量,定义特征辨识度来度量特征的辨识能力大小,采用皮尔森相关系数定义特征独立性。为了尽可能选择到辨识能力和独立性都很好的特征,并能调和特征的辨识度与独立性对分类的贡献,定义两者之积为特征重要性,自适应地选择重要性远高于其余特征重要性的特征构成特征子集。以核极限学习机K-ELM(kernel extreme learning machine)为分类器,评价所选择特征子集的分类性能。基因数据集的实验测试以及与经典特征选择算法SVM-RFE、DRJMIM、mRMR、LLE Score、AMID、AVC的实验对比和统计重要性检测表明,提出的FSIP特征选择算法能够选择出分类能力很好的特征子集,基于被选特征子集的K-ELM具有很好的分类性能。