-
题名结合信息论和范数的并行随机森林算法
- 1
-
-
作者
毛伊敏
耿俊豪
-
机构
江西理工大学信息工程学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2022年第5期1064-1075,共12页
-
基金
国家重点研发计划(2018YFC1504705)
国家自然科学基金(41562019)
江西省教育厅科技项目(GJJ151528,GJJ151531)。
-
文摘
针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN)。首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果。
-
关键词
MAPREDUCE框架
随机森林(RF)
drigfn策略
基于信息论的特征分组策略(FGSIT)
键值对重分配策略(RSKP)
-
Keywords
MapReduce
random forest(RF)
drigfn strategy
feature grouping strategy based on information theory(FGSIT)
redistribution of key-value pairs(RSKP)strategy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-