-
题名基于随机森林的自适应特征选择算法
被引量:9
- 1
-
-
作者
刘凯
郑山红
蒋权
赵天傲
-
机构
长春工业大学计算机科学与工程学院
-
出处
《计算机技术与发展》
2018年第9期101-104,111,共5页
-
基金
吉林省自然科学基金资助项目(20130101060JC)
吉林省教育计划"十二五"科学技术研究基金资助项目(2014131
2014125)
-
文摘
为了解决传统的随机森林算法在随机特征选择时,导致少数比较重要的特征变量被过滤掉的问题,以及没有考虑特征变量相关性对预测应变量准确性带来的影响,提出了一种基于随机森林的自适应特征选择算法SARFFS。该算法首先利用卡方检验样本间关联程度后自助采样,并设计出一种特征对类代表强弱程度的计算方法;然后引入自适应稀疏约束机制Group LASSO优化特征的选择;最后在Spark分布式计算平台利用UCI数据集进行实验,结果表明,相比传统的RF算法,SARFFS算法在特征子集选择上具有更好的性能,在F1上提升将近9%。从最终排名靠前的重要特征分析,该算法能够考虑特征间相关性,对预测结果确实有影响,并有效地提高了随机属性权值的可靠性和稳定性。
-
关键词
随机森林
自适应
特征选择
GroupLASSO方法
-
Keywords
random forest
self-adaptive
feature selection
Group LASSO method
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于XGBoost的信用风险分析的研究
被引量:12
- 2
-
-
作者
赵天傲
郑山红
李万龙
刘凯
-
机构
长春工业大学计算机科学与工程学院
-
出处
《软件工程》
2018年第6期29-32,共4页
-
文摘
在大数据时代如何利用数据挖掘处理海量数据从而对信用风险进行预测分析成为了当下非常重要的问题,本文运用XGBoost算法建立信用风险分析模型,运用栅格搜索等方法调优XGBoost参数,基于以AUC、准确率、ROC曲线等评价指标,与决策树、GBDT、支持向量机等模型进行对比分析,基于德国信用数据集验证了该模型的有效性及高效性。
-
关键词
信用风险分析
XGBoost
数据挖掘
栅格搜索
-
Keywords
credit risk analysis
XGBoost
data mining
grid search
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-