改进的并行随机森林算法及其包外估计被引量：4

Improved parallel random forest and its out＿of＿bag estimator

下载PDF

导出

摘要传统的包外估计记录全局数据与树之间的对应关系来测算泛化误差。然而基于MapReduce机制的并行随机森林算法(MR_RF)是建立在多个互不可见的分块数据上。对此分析MR_RF与RF的区别,设计了一个新的适用于MR_RF的包外泛化误差估计方法。主要将测算限定在数据块内,最终森林的泛化误差估计取块结果的平均。实验结果表明,新的包外估计方法与交叉验证在默认分块上的结果近似,却随着分块的增加出现偏差,对此分析了可能的原因,并给出选择集成方案思想,且分块大小与分类准确率成反比,与分类速率成正比。 Traditional out_of _ bag（ OOB） estimator needs to record the relationship of global data and the trees so as to estimate generation error. However parallel random forest based on MapReduce algorithm（ MR _RF） is built on blocks that independently with each other. This paper analyzed the difference between the MR_RF and random forest,and designed a new oob estimator that was applicable to estimate MR_RF＇s generalization error. Its key idea was putting the OOB calculator just into that particular block and using the average result of all blocks as the final OOB estimator result. Experiments show that in the case of the default partition,the new method is as effective as cross validation. However it shows deviation as the blocks increase. This paper analyzed the reason and gave the idea of selective ensemble scheme. Meanwhile,the block size is proportional to the classification rate but inversely proportional to the classification accuracy. When dealing with large data classification problems,it is necessary to adjust the block size to take the compromise between accuracy and rate.

作者钱雪忠秦静宋威 Qian Xuezhong;Qin Jing;Song Wei(Engineering Research Center of lnternet of Things Technology Applications for Ministry of Education,Jiangnan University,Wuxi Jiangsu 214122,China)

机构地区江南大学物联网技术应用教育部工程研究中心

出处《计算机应用研究》 CSCD 北大核心 2018年第6期1651-1654,共4页 Application Research of Computers

基金国家自然科学基金资助项目(61673193) 中央高校基础研究资助项目(JUSRP51510 JUSRP51635B)

关键词 MAPREDUCE 随机森林包外估计泛化误差交叉验证 MapRcducc random forest（RF） out_of_bag estimator generalization error cross validation

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1Md. Al Mehedi Hasan,Mohammed Nasser,Biprodip Pal,Shamim Ahmad.Support Vector Machine and Random Forest Modeling for Intrusion Detection System (IDS)[J].Journal of Intelligent Learning Systems and Applications,2014,6(1):45-52. 被引量：12
2张春霞,郭高.Out-of-bag样本的应用研究[J].软件,2011,32(3):1-4. 被引量：8

二级参考文献23

1BREIMAN L. Bagging predictors [J]. Machine Learning, 1996,24(2): 123-140.
2BREIMAN L. Out-of-bag estimation, CA 94708 [R]. Technical Report, Department of Statistics, University of California, Berkeley, 1996.
3WOLPERT DH, MACREADY WG. An efficient method to estimate bagging's generalization error [J]. Machine Learning, 1999,35(1): 41-51.
4BYLANDER T. Estimating generalization error on two- class datasets using out-of-bag estimates [J]. Machine Learning, 2002,48(1-3):287-297.
5HERNANDEZ-LOBATO D, MARTINEZ-MUNOZ G, SUAREZ A. Out of bootstrap estimation of generalization curves in bagging ensembles [C]. In: Proceedings of the 8th International Conference on Intelligent Data Engineering and Automated Learning, Birmingham, Lecture Notes in Computer Science,2007,4881 : 47-56. [18].
6BUHLMANN P, YU B. Analyzing bagging [J]. Annals of Statistics, 2002,30(4): 927-961.
7BUJA A, STUETZLE W. Observations on bagging [J]. Statistica Sinica,2006,16(2): 323-351.
8FRIEDMAN JH, HALL P. On bagging and nonlinear estimation [J]. Journal of Statistical Inference and Planning, 2007,137(3): 669-683.
9MARTINEZ-MUNOZ G, SUAREZ A. Out-of-bag estimation of the optimal sample size in bagging [J]. Pattern Recognition,2010,43(1):143-152.
10Hothorn T, Lausen B. Double-bagging: combining classifiers by bootstrap aggregation [J]. Pattern Recognition, 2003,36(6): 1303-1309.

共引文献18

1周植宇,杨明,薛林继,王春香,王冰.一种基于高斯核支持向量机的非结构化道路环境植被检测方法[J].机器人,2015,37(6):702-707. 被引量：11
2余胜男,陈元芳,顾圣华,康有,贺冉冉.随机森林在降水量长期预报中的应用[J].南水北调与水利科技,2016,14(1):78-83. 被引量：20
3谭娟,王胜春.集成随机森林的交通拥堵检测模型[J].计算机测量与控制,2016,24(4):230-233. 被引量：1
4任晓芳,赵德群,秦健勇.基于随机森林和加权K均值聚类的网络入侵检测系统[J].微型电脑应用,2016,32(7):21-24. 被引量：7
5李秀丽,李星毅.多断面相关性区间预测法在短期交通流预测中的应用[J].电子设计工程,2017,25(19):10-15. 被引量：3
6阴爱英,吴运兵,杨晓花.面向制造业不平衡数据的混合采样算法[J].计算机工程与设计,2018,39(4):1053-1058. 被引量：2
7刘金平,何捷舟,马天雨,张五霞,唐朝晖,徐鹏飞.基于KELM选择性集成的复杂网络环境入侵检测[J].电子学报,2019,47(5):1070-1078. 被引量：24
8沈焱萍,伍淳华,罗捷,高方平.基于元优化的KNN入侵检测模型[J].北京工业大学学报,2020,46(1):24-32. 被引量：6
9王一旭,王飞儿,俞洁.基于自组织映射与随机森林耦合模型的流域水质空间差异性评估[J].环境科学学报,2020,40(6):2278-2285. 被引量：6
10庞泰吾,胡春燕,尹钟.一种改进的随机森林在医疗诊断中的应用[J].软件,2020,41(7):159-163.

同被引文献28

1栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：110
2罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005,31(1):3-5. 被引量：62
3杨若黎,顾基发.一种高效的模拟退火全局优化算法[J].系统工程理论与实践,1997,17(5):29-35. 被引量：101
4米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
5刘蓓蕾,江铭炎,张振月.基于禁忌搜索的人工蜂群算法及其应用[J].计算机应用研究,2015,32(7):2005-2008. 被引量：9
6黄春华,陈忠伟,李石君.贝叶斯决策树方法在招生数据挖掘中的应用[J].计算机技术与发展,2016,26(4):114-118. 被引量：11
7周天宁,明冬萍,赵睿.参数优化随机森林算法的土地覆盖分类[J].测绘科学,2017,42(2):88-94. 被引量：25
8宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：94
9卞凤杰,齐金鹏,刘树娟,李林鸽.基于H.264预测模式选择的并行算法[J].电子科技,2017,30(4):83-86. 被引量：2
10李勇,魏珰,王柳渝.基于PSOLA与DCT的情感语音合成方法[J].计算机工程,2017,43(12):278-282. 被引量：5

引证文献4

1Jiuyuan Huo,Xuan Qin,Hamzah Murad Mohammed Al-Neshmi,Lin Mu,Tao Ju.Improved Random Forest Algorithm Based on Adaptive Step Size Artificial Bee Colony Optimization[J].国际计算机前沿大会会议论文集,2020(2):216-233.
2郭琦,袁少卿,吕小凡,蔡硕琦.基于机器学习的电网调度指令智能交互技术研究[J].电子设计工程,2022,30(9):153-157. 被引量：4
3毛伊敏,耿俊豪.结合信息论和范数的并行随机森林算法[J].计算机科学与探索,2022,16(5):1064-1075.
4庄巧蕙.改进随机森林算法在Spark+Kudu平台的并行化运用[J].信息技术与信息化,2024(2):67-70.

二级引证文献4

1王辰.基于线路运行状态的智能电网调度自适应控制研究[J].自动化应用,2023,64(16):51-53. 被引量：1
2孙浙茸.AI智能化语音输出技术在智能调度平台的实践应用[J].电声技术,2023,47(9):34-36.
3何玮,周雨湉,俞阳,康雨萌,朱萌,钱旭盛.蜣螂优化算法下“互联网+营销服务”虚拟机器人应用模型[J].西安工程大学学报,2024,38(1):113-120.
4李昌晋,王良标,刘昌伟,庄瑞锋,汤志均,李建全.基于RPA的调度指令票智能审核的研究[J].广西电业,2023(12):61-65.

1张琳.管理会计在公立医院管理中的应用研究[J].中国集体经济,2018(15):144-146. 被引量：3
2曾俊.一种基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,41(1):117-119. 被引量：13
3周学智,张悦,徐扬.天津市公安局联合作战指挥平台建设及应用[J].警察技术,2018(4):12-16. 被引量：2
4马宁.浅谈海外油气田地面工程投资编制方法[J].石化技术,2018,25(5):240-241.
5王青松,葛慧.Winnowing指纹串匹配的重复数据删除算法[J].计算机应用,2018,38(3):677-681. 被引量：6
6陆鹏,孙伟,张博伦,王金亭.动力系统集成方案设计研究[J].舰船科学技术,2018,40(5):85-90.
7陈懿洲.气凝胶绝热毡用于公共管廊蒸汽管道绝热的经济分析[J].化工与医药工程,2018,39(2):48-52.
8肖文涛.中国石化原油物流运作模式分析[J].物流技术,2018,37(3):50-55. 被引量：1
9王铭恺,汪天伟.基于随机森林模型的景观格局动态研究——以合肥市包河区为例[J].工业经济论坛,2018,5(2):83-90. 被引量：1

计算机应用研究

2018年第6期

浏览历史

内容加载中请稍等...

改进的并行随机森林算法及其包外估计被引量：4

参考文献2

二级参考文献23

共引文献18

同被引文献28

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

改进的并行随机森林算法及其包外估计 被引量：4

参考文献2

二级参考文献23

共引文献18

同被引文献28

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

改进的并行随机森林算法及其包外估计被引量：4