特征选择是数据挖掘的关键过程,特征贡献度评分和特征优选是其核心部分.针对特征贡献度评分,提出一种用变异系数度量类内距离、互信息度量类间距离的CVMI(coefficient of variation and mutual of information)方法,将该算法运用到嵌入...特征选择是数据挖掘的关键过程,特征贡献度评分和特征优选是其核心部分.针对特征贡献度评分,提出一种用变异系数度量类内距离、互信息度量类间距离的CVMI(coefficient of variation and mutual of information)方法,将该算法运用到嵌入式特征选择方法中进行特征优选.实验采用UCI提供的4组数据集、1组遥感数据和1组鸟鸣声数据,使用7种特征贡献度评分方法进行对比.结果表明,CVMI方法更符合特征贡献度评价的客观规律,对比其他7种方法,CVMI方法取得较好效果.此外,基于CVMI特征评分方法构建最大特征树,结合二邻域去冗余的特征优选方法CVMI-RRMFT(remove redundancy of maximum feature tree),采用上述数据集进行实验,结果表明该方法不仅能有效降低数据维度,而且还能提高分类准确率.展开更多
文摘特征选择是数据挖掘的关键过程,特征贡献度评分和特征优选是其核心部分.针对特征贡献度评分,提出一种用变异系数度量类内距离、互信息度量类间距离的CVMI(coefficient of variation and mutual of information)方法,将该算法运用到嵌入式特征选择方法中进行特征优选.实验采用UCI提供的4组数据集、1组遥感数据和1组鸟鸣声数据,使用7种特征贡献度评分方法进行对比.结果表明,CVMI方法更符合特征贡献度评价的客观规律,对比其他7种方法,CVMI方法取得较好效果.此外,基于CVMI特征评分方法构建最大特征树,结合二邻域去冗余的特征优选方法CVMI-RRMFT(remove redundancy of maximum feature tree),采用上述数据集进行实验,结果表明该方法不仅能有效降低数据维度,而且还能提高分类准确率.