基于分类精度和相关性的随机森林算法改进被引量：14

Improvement of Random Forests Algorithm Based on Classification Accuracy and Correlation

下载PDF

导出

摘要为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。 In order to improve the classification accuracy of random forests algorithm, the decision trees in the random forest model are first sorted according to the AUC value of the classification performance evaluation index.And then the trees with high AUC value is selected to calculate the similarity matrix.Finally the decision tree is clustered according to the similarity matrix.So a new random forest model is generated by selecting the tree with the highest AUC value from each category and to achieve the goal of improving the accuracy of random forests algorithm.Experiments on UCI datasets show that the improved random forest algorithm has improved the highest classification accuracy of 2.91%.

作者王日升谢红薇安建成

机构地区太原理工大学计算机科学与技术学院

出处《科学技术与工程》北大核心 2017年第20期67-72,共6页 Science Technology and Engineering

基金国家"863"计划(2014AA015204) 山西省国际科技合作项目(2014081018-2)资助

关键词随机森林分类精度决策树相似度相似度矩阵 random forest classification accuracy the similarity among decision trees similarity matrix

分类号 TP391.75 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1姚明煌,骆炎民.改进的随机森林及其在遥感图像中的应用[J].计算机工程与应用,2016,52(4):168-173. 被引量：9
2方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：659
3丛佃敏,赵书河,李娴,庄喜阳.基于最优特征空间构建的随机森林算法在WorldView-2影像分类中的适用性研究[J].科学技术与工程,2016,16(31):218-224. 被引量：7

二级参考文献62

1刘微,罗林开,王华珍.基于随机森林的基金重仓股预测[J].福州大学学报（自然科学版）,2008,36(S1):134-139. 被引量：8
2林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报（自然科学版）,2007,46(2):199-203. 被引量：36
3Breiman L. Bagging Preditors [J].Machine Learning, 1996,24(2).
4Dietterich T. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting and Randomization [J].Machine Learning, 2000,40(2).
5Ho T K. The Random Subspace Method for Constructing Decision Forests [J].Trans. on Pattern Analysis and Machine Intelligence, 1998,20 (8).
6Amit Y, Gernan D. Shape Quantization and Recognition with Randomized Trees[J]. Neural Computation, 1997,9(7). Breiman L Random Forest[J]. Machine Learning, 2001,45(1).
7Breiman L. Random Forests[J]. Machine Learning, 2001,45(1).
8Tibshirani tL Bias, Variance, and Prediction Error for Classification Rules[C]. Technical Report, Statistics Department, University of Toronto, 1996.
9Wolpert D H, Macready W G. An Efficient Method to Estimate Bagging's Generalization Error[J]. Machine Learning, 1999,35(1).
10Breiman L. Out-of-bag Estimation[EB/OL]. [2010- 06- 30]. http//stat, berkeley, edu/ pub/ users/ breiman / OOB estimation, ps.

共引文献670

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2袁鸷慧,聂胜,张合兵,王成,王宏涛,习晓环.GEDI地面高程和森林冠层高度的精度评价与影响分析[J].遥感技术与应用,2022,37(5):1056-1070.
3谢春,许伟.基于随机森林回归算法的锅炉沾污因数预测方法[J].上海电气技术,2022,15(1):29-32. 被引量：1
4王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
5杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：1
6饶贵川,王雅楠,华伟平,林维晟,潘俊忠,廖佩莹.环境因子对人工森林蓄积量影响的机器学习分析[J].林业科技通讯,2023(12):58-63.
7王治忠,闫文明,王松伟.基于鸽子视顶盖神经元响应对不同颜色背景字符图像的重建研究[J].计算机应用研究,2020,37(1):308-312.
8宋华丽,陈欣影,王鹏,初军玲,丛源.基于随机森林的江淮各省会城市夏季降水量预报对比分析[J].湖北农业科学,2019,58(S02):190-197.
9李一民,谭振宇,杨辰,何峰,孟迪,罗菊花,段洪涛.基于多源卫星的滇池藻华提取机器学习算法研究[J].地球科学进展,2022,37(11):1141-1156. 被引量：5
10劳钰钞,刘秀峰,杨锦礼,蒋志.基于随机森林构建集装箱堆存时间预测分类器的港口翻箱研究[J].装备制造技术,2022(2):209-212.

同被引文献91

1陈鹏飞,孙九林,王纪华,赵春江.基于遥感的作物氮素营养诊断技术:现状与趋势[J].中国科学：信息科学,2010,40(S1):21-37. 被引量：18
2黄庆,曹津燕,瞿卫军,刘洋,石昱,肖云鹏.专利评价指标体系(一)——专利评价指标体系的设计和构建[J].知识产权,2004,14(5):25-28. 被引量：120
3季桂树,陈沛玲,宋航.决策树分类算法研究综述[J].科技广场,2007(1):9-12. 被引量：39
4黄国宏,刘刚.一种新的基于高斯混合模型的线性判别分析[J].计算机工程与应用,2007,43(27):75-77. 被引量：2
5万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008,29(2):185-191. 被引量：212
6谭昌伟,周清波,齐腊,庄恒扬.水稻氮素营养高光谱遥感诊断模型[J].应用生态学报,2008,19(6):1261-1268. 被引量：53
7夏轶群,陈俊芳.有可替代性和时间贬损的不确定条件技术专利价值评估[J].科技进步与对策,2009,26(15):128-130. 被引量：26
8陶超,谭毅华,蔡华杰,杜博,田金文.面向对象的高分辨率遥感影像城区建筑物分级提取方法[J].测绘学报,2010,39(1):39-45. 被引量：100
9李振亚,孟凡生,曹霞.基于四要素的专利价值评估方法研究[J].情报杂志,2010,29(8):87-90. 被引量：58
10李振亚,孟凡生,曹霞.专利三维评价指标体系研究[J].情报科学,2010,28(10):1569-1573. 被引量：20

引证文献14

1刘耀杰,刘独玉.基于不平衡数据集的改进随机森林算法研究[J].计算机技术与发展,2019,29(6):100-104. 被引量：10
2王诚,王凯.一种基于聚类约简决策树的改进随机森林算法[J].南京邮电大学学报（自然科学版）,2019,39(3):91-97. 被引量：20
3吕红燕,冯倩.随机森林算法研究综述[J].河北省科学院学报,2019,36(3):37-41. 被引量：119
4王诚,高蕊.基于特征约简的随机森林改进算法研究[J].计算机技术与发展,2020,30(3):40-45. 被引量：4
5李玉,王利,周志平,赵卫东.基于DBSCAN聚类改进随机森林算法的专利价值评估方法[J].科学技术与工程,2020,20(14):5673-5679. 被引量：11
6朱瑛,谢睿,郑若池.基于节点匹配代价优化的随机森林算法[J].计算机工程与设计,2020,41(11):3106-3111. 被引量：3
7邱少明,杨雯升,杜秀丽,王雪珂.优化随机森林模型的网络故障预测[J].计算机应用与软件,2021,38(2):103-109. 被引量：6
8张雯涛,吴飞,朱海,通雁辉,陆雯霞.基于FDE-IRF的室内指纹定位方法[J].全球定位系统,2021,46(4):117-126.
9苟美慧,何荣强.海底捞火锅无人化生产车间轴承使用预警设计和开发[J].四川工商学院学术新视野,2021,6(3):53-55.
10袁欢欢,隋立春,徐家利,李彦东,李冠宇.基于自适应标注样本的高分辨率影像道路提取[J].科学技术与工程,2022,22(5):1981-1987. 被引量：3

二级引证文献197

1赵会芹,于博,陈方,王雷.基于高分辨率卫星遥感影像滑坡提取方法研究现状[J].遥感技术与应用,2023,38(1):108-115. 被引量：1
2陈绎冰,李天依,李欣艳,赵文川,范荣峰,陈凤娇,杨元建.基于随机森林和遥感的台风降水云光谱与降水关系研究[J].遥感技术与应用,2022,37(5):1277-1288. 被引量：1
3袁鸷慧,聂胜,张合兵,王成,王宏涛,习晓环.GEDI地面高程和森林冠层高度的精度评价与影响分析[J].遥感技术与应用,2022,37(5):1056-1070.
4吴冬,阎卫东,王井利.基于特征重要性加权的随机森林点云分类研究[J].电子测量技术,2023,46(20):120-127.
5吴兴惠,周玉萍,邢海花.利用随机森林算法对学生成绩评价与预测研究[J].电脑知识与技术,2020,0(4):254-255. 被引量：5
6曹家颖,赵海珍.京津冀地区PM_(2.5)溯源精准执法研究[J].环境与可持续发展,2019,44(2):57-61. 被引量：1
7杨婧,辛明勇,欧家祥,王俊融,宋强.基于大数据的配电网线损定位与评估方法研究[J].中国测试,2019,45(7):19-24. 被引量：52
8胡浔惠,葛王飞,段文强,郑通.一种应用随机森林的代码混淆路径分支技术[J].信息技术,2019,43(8):71-73. 被引量：1
9吕红燕,冯倩.随机森林算法研究综述[J].河北省科学院学报,2019,36(3):37-41. 被引量：119
10蔡莉莉,侯珂珂.基于K近邻-随机森林集成算法的肝病预测研究[J].电脑知识与技术,2020,16(13):204-205. 被引量：2

1赵剑,吴小俊,董文华.局部约束加强的最小二乘回归子空间聚类[J].模式识别与人工智能,2017,30(10):943-951. 被引量：2
2使用废热进行发电[J].现代材料动态,2017,0(9):4-4.
3史加荣,王建国,王玉英.基于仿射传播的道路网络聚类[J].数学建模及其应用,2012,1(4):20-23.
4李哲瑜,简宋全,李青海.基于Logistic回归的个人消费贷款预测[J].现代计算机（中旬刊）,2017(10):9-12. 被引量：3
5杨瑞君,赵楠,凡耀峰,侯梅芳.基于随机森林模型的城市空气质量评价[J].计算机工程与设计,2017,38(11):3151-3156. 被引量：16
6尚兰英,丁丽君,王多艺.农村地区成年女性高危型人乳头瘤病毒感染情况调查及危险因素分析[J].内科,2017,12(5):702-704. 被引量：3
7黄亮,王绪宁,贾宝庆,刘洪一,郭少华,张加金,郑伟.结直肠癌中hsa_circ_0006156 RNA的低表达及其临床意义[J].解放军医学院学报,2017,38(10):922-926. 被引量：1
8顾亦然,陈雨晴.一种新的基于局部相似度的社区发现算法[J].南京邮电大学学报（自然科学版）,2017,37(5):48-55. 被引量：2
9冼巧凤,杨智群,周睿.世界的赛场广西的风采——记“环广西公路自行车世界巡回赛”公路保障[J].中国公路,2017,0(20):62-66.
10李欣,许高建,李绍稳.一种优化的SVM竹类属种识别方法[J].重庆科技学院学报（自然科学版）,2017,19(5):98-101. 被引量：4

科学技术与工程

2017年第20期

浏览历史

内容加载中请稍等...

基于分类精度和相关性的随机森林算法改进被引量：14

参考文献3

二级参考文献62

共引文献670

同被引文献91

引证文献14

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

基于分类精度和相关性的随机森林算法改进 被引量：14

参考文献3

二级参考文献62

共引文献670

同被引文献91

引证文献14

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

基于分类精度和相关性的随机森林算法改进被引量：14