-
题名多重假设检验及其在大数据特征降维中的应用
被引量:3
- 1
-
-
作者
潘舒
祁云嵩
-
机构
江苏科技大学计算机科学与工程学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第S1期89-93,共5页
-
基金
国家自然科学基金(61471182)
江苏省高校自然科学基金(13KlB520003)资助
-
文摘
现有的特征降维方法大致可分为特征提取和特征选择。在特征提取过程中,数据中的原始特征通过某些数据变换被映射到一个低维空间。提取出的特征尽管与原始特征相关,但不再具有原始特征的物理意义,即特征提取改变了原始数据的表达形式。与特征提取不同,特征选择则在原有的特征集中选择一个子集,选择出的特征子集中不再含有与数据分析任务相关性不大或冗余的那部分特征,其结果可能引起信息丢失。因而现有的数据降维方法几乎都不是保真降维,其降维后的数据仅适合特定的后续数据分析任务,因而只能算是特定数据分析任务的前期数据预处理。从多重假设检验方法的角度分析了高维数据保真降维的方法及研究的关键所在。
-
关键词
特征选择
降维
多重假设检验
-
Keywords
feature selection,dimension reduction,multiple hypothesis testing
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种新的最大相关最小冗余特征选择算法
被引量:7
- 2
-
-
作者
李顺勇
王改变
-
机构
山西大学数学科学学院
-
出处
《智能系统学报》
CSCD
北大核心
2021年第4期649-661,共13页
-
基金
山西省留学人员科技活动择优资助项目(2019-13)
山西省基础研究计划项目(201901D111320)
+1 种基金
太原市科技计划研发项目(2018140105000084)
山西省高等学校精品共享课程项目(K2020022).
-
文摘
传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗余度的评价准则中引入了两种不同的评价准则;在度量特征与类别之间的相关度中引入了4种不同的评价准则,衍生出8种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量λ来刻画用户实际的数据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对4个UCI数据集的特征子集进行了实验,最后,利用分类正确率、成对单边T检验充分验证了该算法的有效性。
-
关键词
特征选择
冗余度
相关度
降维
分类
分类正确率
支持向量机
T检验
-
Keywords
feature selection
redundancy
relevance
dimension reduction
classification
classification accuracy
support vector machines
T-test
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于特征选择的学生成绩预测方法研究
- 3
-
-
作者
刘晓雲
刘鸿雁
李劲松
王冠帮
-
机构
渤海大学研究生学院
渤海大学信息科学与技术学院
-
出处
《信息技术》
2023年第10期17-22,共6页
-
基金
教育部产学合作协同育人项目(202002151003,20210-2085003)
辽宁省教育厅科研项目(WJ2020004,LJ2020003)
+2 种基金
辽宁省教学改革项目(10167-649,10167-636)
研究生创新基金项目(YJC2021-030)
研究生教育教学改革项目(YJG20210002,YJG20210005)。
-
文摘
学习成绩是反映学习效果和教学质量的重要指标,对成绩进行预测可改进学习和教学方法,进而提高教学质量,如何准确地预测成绩已成为教育数据挖掘领域的一个热点研究课题。为提高预测的准确度,提出了基于特征选择的成绩预测方法。首先利用序列前向选择算法对样本数据进行特征选择,从而选出最优特征子集来构建多元线性回归预测模型,再利用模型对成绩进行预测。为检验方法的有效性,在真实数据集上进行了验证,实验结果表明:文中方法具有更高的预测精度,可以为改进教学方法和教学质量提供数据支持。
-
关键词
数据挖掘
特征选择
数据降维
多元线性回归
成绩预测
-
Keywords
data mining
feature selection
data dimension reduction
multiple linear regression
scores prediction
-
分类号
TP3-05
[自动化与计算机技术—计算机科学与技术]
G420
[文化科学—课程与教学论]
-