随机森林的变量捕获方法在高维数据变量筛选中的应用被引量：17

The Application of a Random Forest-based Variable Hunting Method to Variable Selection in High-dimensional Data

下载PDF

导出

摘要目的探讨随机森林(RF)的变量捕获方法在高维数据变量筛选中的应用。方法通过模拟实验和实际数据分析,对两种变量捕获(vh.md,vh.vimp)和逐步剔除方法(var SelRF)进行比较,并通过选入变量的数目、模型预测错误率(PE)和受试者工作特征曲线下面积(AUC)对其进行评价。结果模拟实验表明,在变量具有联合作用、交互作用和弱独立作用情况下,变量捕获方法均明显优于var SelRF方法和全变量VIMP排序方法;实际数据分析结果表明,变量捕获方法筛选变量结果稳定,并能够保证良好的预测效果。结论变量捕获方法适用于高维数据的变量筛选,具有实用价值。 Objective This project explored the application of a random forest-based variable hunting approach to variable selection in high-dimensional data. Methods Tw o variable hunting methods（ vh. md,vh. vimp） w ere compared w ith backw ards variable elimination using random forest（ var SelRF） by the analysis of simulation data and real metabonomics data,and then variable numbers,predicted error rate（ PE） and the area under the receiver operating characteristic curve（ AUC） w ere used to evaluate these approaches. Results Simulation experiments suggested that variable hunting method w as more effective than var SelRF and sorted VIM P method,in the case of combined effects,interactions and w eak independent effects. Analysis results of metabonomics data confirmed that the results of variable selection w ere stable and had favorable predictive effects w ith the variable hunting method. Conclusion The variable hunting approach w as applicable to variable selection in high-dimensional data and possessed practical value.

作者宋欠欠李轶群侯艳李康

机构地区哈尔滨医科大学卫生统计学教研室哈尔滨医科大学生物信息教研室

出处《中国卫生统计》 CSCD 北大核心 2015年第1期49-53,共5页 Chinese Journal of Health Statistics

基金国家自然科学基金资助(81172767) 高等学校博士学科专项基金(20122307110004)

关键词随机森林变量筛选变量捕获 Random forest Variable selection Variable hunting

分类号 R195.1 [医药卫生—卫生统计学]

引文网络
相关文献

参考文献1

1武晓岩,李康.随机森林方法在基因表达数据分析中的应用及研究进展[J].中国卫生统计,2009,26(4):437-440. 被引量：28

二级参考文献14

1Breiman L. Random Forests. Statistics Department University of California Berkeley, CA 94720, January,2001.
2Sander O, Sommer I, Lengauer T. Local protein structure prediction using discriminative models. BMC Bioinformatics,2006,7:14.
3Bao L,Cui Y. Prediction of the phenotypic effects of non-synonymous single nucleotide polymorphisms using structural and evolutionary informarion. Bioinformatics,2005,21 : 2185 -2190.
4Jiang HY, Deng YP, Chen HS, et al. Joint analysis of two microarray gene-expression data sets to select lung adenocarcinoma marker genes. BMC Bioinformatics ,2004,5 : 81.
5Zhang HP, Yu CY, Singer B. Cell and tumor classification using gene expression data: Construction of forests. Proe Natl Acad Sci USA, 2003,100:4168-4172.
6Lunetta KL, Hayward LB, Segal J, et al. Screening large-scale association study data:exploiting interactions using random forests. BMC Genet,2004,5:32.
7Pang H, Lin AP, Holford M, et al. Pathway analysis using random forests classification and regression. Bioinformatics,2006 ,22 :2028-2036.
8Hoffmann K, Firth MJ, Beesley All, et al. Translating microarray data for diagnostic testing in childhood leukaemia. BMC Cancer, 2006,6 : 229.
9Brett A, McKinney DM Reif, Ritchie MD. J H M Machine learning for detecting gene-gene interactions. Appl Bioinformatics, 2006,5 ( 2 ) : 77- 88.
10Lin N, Wu BL, Jansen R, et al. Information assessment on predicting protein-protein interactions. BMC Bioinformatics,2004,5 : 154.

共引文献27

1李放歌,王志鹏,户国,李辉.全基因组关联研究中的交互作用研究现状[J].遗传,2011,33(9):901-910. 被引量：12
2陈金瓯,柳青.DNA微阵列数据判别的旋转森林方法[J].中国卫生统计,2012,29(4):525-528. 被引量：4
3孙凤宇,李贞子,侯艳,李康.基于小波变换的代谢组色谱指纹图谱的判别分析[J].中国卫生统计,2013,30(2):206-208.
4宋欠欠,武晓岩,侯艳,李康.随机生存森林在高维基因组数据生存分析中的应用[J].中国卫生统计,2013,30(6):786-789. 被引量：6
5韩玉,施海龙,曲波,武玉欣,刘洁.随机森林方法在医学中的应用[J].中国预防医学杂志,2014,15(1):79-80. 被引量：25
6尹玲,夏蕾,许才国.基于随机森林的女性体型判别[J].纺织学报,2014,35(5):113-117. 被引量：7
7桑袆莹,黄仕鑫,易静,曾庆,罗亚玲.基于随机森林和误差反向传播神经网络的糖尿病性周围神经病变患病风险研究[J].解放军医学杂志,2018,43(10):877-881. 被引量：7
8沈琳,胡国清,陈立章,谭红专.缺失森林算法在缺失值填补中的应用[J].中国卫生统计,2014,31(5):774-776. 被引量：11
9姜龙训,张玲.用于单核苷酸多态性数据聚类分析的方法比较[J].中国医药导报,2015,12(25):36-41.
10王璟涛,侯艳,李康.高维组学变量筛选方法的稳定性评价方法及应用[J].中国卫生统计,2016,33(3):374-378. 被引量：3

同被引文献149

1毕是昊,于功昌,栗子渊,张波,曹盛楠,师彬.基于MRI成像三维平衡正脊技术治疗LDH髓核重吸收的预测因素分析[J].中国辐射卫生,2022,31(4):482-487. 被引量：3
2张丽颖,杨若瑾.基于机器学习的个人贷款违约预测模型的应用研究[J].金融监管研究,2022(6):46-59. 被引量：4
3傅安球.素质教育的心理学探索——评《学校心理素质教育》一书[J].心理科学,2001,24(6):721-721. 被引量：1
4叶章群.泌尿系结石研究现况与展望[J].中华实验外科杂志,2005,22(3):261-262. 被引量：267
5刘春红,赵春晖,张凌雁.一种新的高光谱遥感图像降维方法[J].中国图象图形学报（A辑）,2005,10(2):218-222. 被引量：81
6郭永东.西南地区少数民族体育项目分布及其文化特征[J].西南民族大学学报（人文社会科学版）,2005,26(6):50-53. 被引量：17
7曾永红,张景莉,付小梅.肾结石与尿酸、血脂、血糖的关联[J].国际医药卫生导报,2006,12(20):21-23. 被引量：4
8武晓岩,李康.基因表达数据判别分析的随机森林方法[J].中国卫生统计,2006,23(6):491-494. 被引量：21
9中国慢性胃炎共识意见[J].现代消化及介入诊疗,2007,12(1):55-62. 被引量：214
10Romero V, Akpinar H, Assimos DG. Kidney stones: a global picture of prevalence, incidence, and associated risk factors [J]. Reviews inurology, 2010, 12 (2/3): e86-e96.

引证文献17

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2谢荻帆.基于机器学习的保险业风险监测预警模型研究[J].金融监管研究,2023(5):101-114. 被引量：1
3李苹,薛佳殷,黄水平.运用随机森林分析体检人群肾结石的影响因素[J].现代预防医学,2016,43(1):1-3. 被引量：6
4赵静,庄彦.运用随机森林分析糖尿病视网膜病变的影响因素与HIF-1α基因多态性的关系[J].浙江医学,2016,38(23):1871-1875. 被引量：5
5刘兵,唐明生,李苹,薛佳殷,安书仪,黄水平.用随机森林模型分析胃癌高危人群干预效果的影响因素[J].徐州医科大学学报,2017,37(4):231-235. 被引量：1
6冯云云,刘丽娟,陆灯盛,庞勇.机载高光谱影像降维方法比较[J].浙江农林大学学报,2017,34(5):765-774. 被引量：4
7尤东方,魏永越,张汝阳,陈峰,赵杨.存在混杂时高维数据的随机森林分析[J].南京医科大学学报（自然科学版）,2018,38(7):978-982. 被引量：1
8张阳阳,曹红艳,武淑琴.基于平均影响值的SVM在遗传数据疾病分类和特征提取中的应用[J].中国卫生统计,2019,36(3):344-347. 被引量：3
9梁冰倩,黄志碧,赖银娟,莫海娟,陆华媛,陈青云.随机森林模型和Logistic回归模型在高尿酸血症预测中的应用效果比较[J].广西医学,2020,42(6):729-733. 被引量：7
10郑婕.基于随机森林和XGBoost算法的二手车价格预测[J].数字技术与应用,2021,39(6):90-93. 被引量：6

二级引证文献77

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2刘茂娟,林美珍,周歧銮,王娟,梁婷,张颖.基于依从性曲线变化规律的阶段性健康教育在2型糖尿病患者中的应用效果[J].中国健康教育,2020,36(1):89-92. 被引量：47
3李青梅.问题为导向的健康教育模式对肾结石患者术后健康知识掌握率及护理工作满意度的影响[J].黑龙江中医药,2021,50(2):99-100. 被引量：2
4王睿,陈宗涛,孙丽.基于体检大数据的糖尿病高危人群管理云服务平台[J].健康体检与管理,2021(1):60-65. 被引量：1
5Xin-Tian Cai,De-Lian Zhang,Jing Hong,Qing Zhu,Ting Wu,Nan-Fang Li.A nomogram of 5-year risk of type 2 diabetes in Chinese population[J].Journal of Hainan Medical University,2020,26(15):54-58.
6詹若挺,曾惠芳,梁永枢,冯倩茹,陈云萍,林一平.东风桔药材的原植物调查及生药学研究[J].广州中医药大学学报,2000,17(2):170-172. 被引量：9
7张镏琢,王峰,吴子俊,黄红英,谢立亚,李智民,冯文艇.随机森林法对人群焦虑情况和职业健康监护数据关系的分类判别分析[J].职业卫生与应急救援,2017,35(3):199-202. 被引量：1
8李晟,刘伟,池学锋,谢雪蓓,陈潜妙,屠巍,吴赛华,张媛媛.HIF-1α基因多态性与CO中毒患者急性期中枢神经损伤的相关性研究[J].浙江医学,2017,39(23):2089-2092. 被引量：5
9郑志伟,邱佳玲,阳庆玲,龚晓春,郭山清,贾忠伟,郝春.随机森林对文本情感分析的应用与R软件实现[J].现代预防医学,2018,45(8):1345-1348. 被引量：8
10刘鸫,周群,张豫临.复方血栓通联合羟苯黄酸钙治疗非增殖期糖尿病视网膜病变对HIF-1α和SDF-1水平的影响[J].河北医药,2018,40(12):1838-1841. 被引量：14

1李贞子,张涛,武晓岩,李康.随机森林回归分析及在代谢调控关系研究中的应用[J].中国卫生统计,2012,29(2):158-160. 被引量：32
2宋欠欠,武晓岩,侯艳,李康.随机生存森林在高维基因组数据生存分析中的应用[J].中国卫生统计,2013,30(6):786-789. 被引量：6
3李苹,薛佳殷,黄水平.运用随机森林分析体检人群肾结石的影响因素[J].现代预防医学,2016,43(1):1-3. 被引量：6
4吴春霖.医院感染危险因素评估及其预测效果评价[J].华西医学,2015,30(2):204-206. 被引量：5
5逄凯,杨森,于建星,庞辉,于阳,陶育纯,金丽娜.随机森林法在吉林省冠心病筛查中的应用及优化[J].医学与社会,2016,29(6):54-56. 被引量：2
6王健,祖晓玲,王常武,李立平.随机森林在医院感染预测中的探讨[J].科学中国人,2016(6X):131-132.
7苏景铭,赵守军.“最小”C＿p法一一多元回归中变量筛选的一种算法[J].山西医学院学报,1994,25(2):135-138.
8张力,钱亢,马健,邹卫军,马强.我院建立计算机病例分型的方法初探[J].解放军医院管理杂志,1999,6(1):27-29. 被引量：27
9赵雅宜,丁亚萍,李现文,崔焱.身体脂肪指数在老年高血压风险预测中的效果评价[J].中国老年学杂志,2017,37(1):186-189. 被引量：3
10廖慧敏,林燧恒.数据缺失机制对逐步回归变量筛选的影响[J].中国卫生统计,2011,28(4):400-401. 被引量：4

中国卫生统计

2015年第1期

浏览历史

内容加载中请稍等...

随机森林的变量捕获方法在高维数据变量筛选中的应用被引量：17

参考文献1

二级参考文献14

共引文献27

同被引文献149

引证文献17

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

随机森林的变量捕获方法在高维数据变量筛选中的应用 被引量：17

参考文献1

二级参考文献14

共引文献27

同被引文献149

引证文献17

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

随机森林的变量捕获方法在高维数据变量筛选中的应用被引量：17