期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
结合信息论和范数的并行随机森林算法
1
作者 毛伊敏 耿俊豪 《计算机科学与探索》 CSCD 北大核心 2022年第5期1064-1075,共12页
针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN)。首先,该算法基于信息增益和Frobenius范数设... 针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN)。首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果。 展开更多
关键词 MAPREDUCE框架 随机森林(RF) drigfn策略 基于信息论的特征分组策略(FGSIT) 键值对重分配策略(RSKP)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部