高维DNA甲基化数据的随机森林降维分析被引量：4

The application of random forest for high dimensional DNA methylation data

导出

摘要目的将随机森林算法用于类风湿性关节炎病例对照研究的高维甲基化数据的分析,并探讨应用效果。方法实例数据来自基因表达数据库(gene expression omnibus,GEO),检索号为GSE42861,包含354名病例、335名对照,本文选取类风湿性关节炎相关基因区域所在的第9号染色体,共纳入2 433个胞嘧啶-磷酸-鸟嘌呤双核苷酸(cytosine-phosphate-guanine pairs of nucleotides,CpGs)位点。利用随机森林计算变量的重要性评分并排序;对排序后的变量进行逐步随机森林过程,寻找最有可能与结果存在关联的变量子集;对降维后的变量子集进行逐步Logistic回归。结果逐步随机森林筛选出80个重要的CpG位点,Logistic回归模型中有13个位点具有统计学意义。纳入这些位点建立Logistic回归模型,该模型的预测正确率达88.29%。结论随机森林算法可以大大减少噪音变量,提高检验效能,适用于高维甲基化数据分析。 Objective To study the application of random forest algorithm for the high dimensional case-contrul DNA methylation data of rheumatoid arthritis（RA）. Methods The RA dataset was obtained from gene expression omnbius （GEO） data repository （ accession number GSFA2861 ） , which contained 689 samples （ 354 patients and 335 controls）. A total of 2 433 cytosine-phosphate-guanine pairs of nucleotides（CpGs） sites on chromosome 9 were included because the i- dentified RA associated area was located in this chromosome. First, these variables were sorted by the importance sores, by which were calculated through random forest. Second, stepwise random forest was carried out to find the subset variables which were most possibly associated with the outcome variable. Third, we conducted stepwise Logistic regression in the subset variables. Results Eighty important CpG sites were picked out by random forest. In our Logistic model, there were 13 statistically significant CpGs. The accuracy of the model contain these 13 CpGs was 88.29%. Conclusions Random forest algorithm can dramatically reduce the redundant variables and is applicable for high dimensional DNA methylation data.

作者张秋伊赵杨魏永越张汝阳陈峰

机构地区南京医科大学公共卫生学院生物统计学系

出处《中华疾病控制杂志》 CAS CSCD 北大核心 2016年第6期630-633,共4页 Chinese Journal of Disease Control & Prevention

基金国家自然基金(81530088 81473070 81373102 61301251 81402764) 江苏省高校优势学科建设专项(2014年) 江苏省高等学校自然科学项目(12KJB310003) 江苏省青蓝工程资助项目(2014年)

关键词关节炎类风湿 DNA甲基化流行病学方法 Arthritis, rheumatoid DNA methylation Epidemiologic methods

分类号 R593.22 [医药卫生—内科学] R394 [医药卫生—医学遗传学]

引文网络
相关文献

参考文献2

1朱晶晶,赵杨,陆凤,胡志斌,陈峰.高维肺癌病例-对照研究资料的随机森林降维分析[J].中华预防医学杂志,2012,46(9):845-849. 被引量：7
2Han Kyoung Choi,Hye Ri Kang,Eutteum Jung,Tae Eon Kim,Jing Jing Lin,Soo Young Lee.Early estrogen-induced gene 1, a novel RANK signaling component, is essential for osteoclastogenesis[J].Cell Research,2013,23(4):524-536. 被引量：4

二级参考文献47

1International Stroke Genetics Consortium (ISGC), Wellcome Trust Case Control Consortium 2 (WTCCC2), Bellenguez C, et al. Genome-wide association study identifies a variant in HDAC9 associated with large vessel isehemic stroke. Nat Genet, 2012, 44 ( 3 ) : 328-333.
2Hu Z, Shao M, Yuan J, et al. Polymorphisms in DNA damage binding protein 2 (DDB2) and susceptibility of primmy lung cancer in the Chinese: a case-control study. Carcinogenesis, 2006, 27(7) : 1475-1480.
3Hu Z, Wang H, Shao M, et ah Genetic variants in MGMT and risk of lung cancer in Southeastern Chinese: a haplotype-based analysis. Hum Murat, 2007, 28 ( 5 ) : 431 -440.
4Breiman L. Random forests. Machine Learning, 2001, 45 ( 1 ) : 5-32.
5Benjamini Y, Hochberg Y. On the adaptive control of the false discovery rate in multiple testing with independent Statistics. J E duc Behav Statist, 2006, 25 ( 1 ) : 60-83.
6Kooperberg C, Ruczinski I, LeBlanc ML, et al. Sequence analysis using logic regression. Genet Epidemiol, 2001, 21 Suppl 1: $626~631.
7Friedman JH, Roosen CB. An introduetion to multivariate adaptive regression splines. Star Methods Med Res, 1995,4(3 ) : 197-217.
8Hsieh CH, Lu RH, Lee NH, et al. Novel solutions for an old disease: diagnosis of acute appendicitis with random forest, support vec'tor machines, amt artificial neural networks. Surgery, 2011, 149(1): 87-93.
9Pang H, Lin A, Holford M, et al. Pathway analysis using random forests classification and regression. Bioinformatics, 2006, 22 (16) : 2028-2036.
10Saviozzi S, Ceppi P, Novello S, et al. Non-small cell lung cancer exhibits transcript overexpression of genes associated with homologous recombination and DNA replication pathways. Cancer Res, 2009, 69(8): 3390-3396.

共引文献9

1韩玉,施海龙,曲波,武玉欣,刘洁.随机森林方法在医学中的应用[J].中国预防医学杂志,2014,15(1):79-80. 被引量：27
2梅良伟,桑文华,陈富春,李晓春,王登峰,吴卓,穆佐洲,邵海龙.RANK信号调控破骨细胞分化与成熟的研究进展[J].中国骨质疏松杂志,2018,24(12):1652-1656. 被引量：14
3杨五洲,曹奇,唐朝克.高脂血症与骨质疏松[J].中国动脉硬化杂志,2016,24(3):321-324. 被引量：13
4徐丽娜,邱憬.高脂血症对钛种植体骨结合影响的研究进展[J].口腔医学,2019,39(6):557-560.
5田甜,李婷婷,聂志超,贾红.基于随机森林算法的高尿酸血症危险因素分析[J].中国卫生统计,2020,37(2):162-165. 被引量：14
6王振杰,彭求实,陈禹江,郭姿乐.基于随机森林模型的新冠疫情下大学生心理健康影响因素分析[J].中国卫生事业管理,2022,39(3):215-220. 被引量：17
7王振杰,郑翩翩,孙陈希.我国在婚育龄妇女生育二孩的影响因素分析[J].医学与社会,2022,35(12):35-39. 被引量：4
8刘秦汐,杨义,李苑,李娜,廖瑞平,伍桃,肖伟,杨碧辉,舒杨,罗航,李荣,钱金山,苏绍辉.基于随机森林算法的农村中老年男性艾滋病歧视现状及其影响因素分析[J].现代预防医学,2023,50(2):354-359. 被引量：8
9杨洪燕,夏淼,刘赞朝,邢玉微,赵维丽,李洋,赵增毅,王敏珍.2型糖尿病视网膜病变临床预测模型的构建与评价[J].中国慢性病预防与控制,2023,31(1):2-7. 被引量：6

同被引文献24

1容桂荣,文琼仙.外周化疗性静脉炎的发病机制及防治进展[J].华夏医学,2020(3):202-205. 被引量：6
2陈华根,吴健生,王家林,陈冰.模拟退火算法机理研究[J].同济大学学报（自然科学版）,2004,32(6):802-805. 被引量：139
3李良敏,温广瑞,王生昌.基于遗传算法的回归型支持向量机参数选择法[J].计算机工程与应用,2008,44(7):23-26. 被引量：42
4李圣楠,黄慈波.系统性红斑狼疮的诊断治疗进展[J].临床药物治疗杂志,2010,8(1):6-10. 被引量：85
5潘廷猛,程义林,胡文龙,高金平,姚莎,裴小平,肖风丽,杨森,张学军.SLE患者器官及系统受累与免疫学特征相关性研究[J].安徽医科大学学报,2010,45(5):689-693. 被引量：3
6谢红付.系统性红斑狼疮病情的评估[J].国外医学（皮肤性病学分册）,1999,25(2):65-66. 被引量：11
7陈峰,柏建岭,赵杨,荀鹏程.全基因组关联研究中的统计分析方法[J].中华流行病学杂志,2011,32(4):400-404. 被引量：11
8张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2278
9吕兵,王华珍.基于随机森林的高维数据可视化[J].计算机应用,2014,34(6):1613-1617. 被引量：5
10李艳秋.系统性红斑狼疮的诊断标准及治疗进展[J].青海医药杂志,2014,44(6):78-79. 被引量：17

引证文献4

1王曦,张果,付萍,王剑平,杨晓洪,欧阳鑫.模拟退火-支持向量机在SLE合并肾受累的辅助诊断应用研究[J].军事医学,2017,41(8):670-674. 被引量：2
2张汝阳,魏永越,沈思鹏,赵杨,陈峰.生物医学大数据统计分析方法与临床应用研究[J].中国科技成果,2020(19):6-9.
3樊娟娟,吉昕宇,沈思鹏,张汝阳,魏永越,陈峰.全表观基因组关联研究的数据质控、分析流程和可视化[J].中国循证医学杂志,2021,21(6):721-728.
4徐湘妍玉,吉昕宇,宋昀杰,徐晓霜,徐海萍,张汝阳.基于随机森林算法的心电图引导手臂输液港静脉导管头端精准定位的影响因素研究[J].实用临床医药杂志,2021,25(19):7-11. 被引量：2

二级引证文献4

1郑淑婕,李保珍,郭华娟,王振华,杨少琴.基于影像细节增强的卵巢囊肿辅助诊断系统的研究[J].生物医学工程研究,2019,38(1):124-128. 被引量：5
2伍伟,何东初.系统性红斑狼疮患者血清血小板反应蛋白1水平与病情严重程度的关系[J].中国医药导报,2020,17(2):93-96. 被引量：13
3李金花,陈婕君,李星凤,李旭英,袁忠,雷静,肖羽乔,于娣华.心腔内电图定位技术标准化流程在乳腺癌患者手臂输液港植入中的应用[J].中国护理管理,2022,22(4):490-495. 被引量：6
4范旭童,贾坚,涂嘉雯,占伊扬.机器学习辅助输液港临床应用决策的研究进展[J].现代医学,2024,52(7):1128-1132.

1郭兴华,潘云峰,宋泽蓉,王昆,古洁若.Fractalkine对类风湿关节炎患者成纤维样滑膜细胞中NF-κB活化及内源性fractalkine mRNA表达的影响[J].中国病理生理杂志,2011,27(10):1967-1971. 被引量：5
2赵静,庄彦.运用随机森林分析糖尿病视网膜病变的影响因素与HIF-1α基因多态性的关系[J].浙江医学,2016,38(23):1871-1875. 被引量：5
3武晓岩,李康.基因表达数据判别分析的随机森林方法[J].中国卫生统计,2006,23(6):491-494. 被引量：21
4宗慧,赵韡.应用机器学习算法构建心梗患者风险预测模型[J].中国数字医学,2016,11(4):104-106. 被引量：5
5高维C摄入或可降低患糖尿病风险[J].糖尿病天地（文摘刊）,2010(3):8-8.
6王天,赵义,刘栩,刘霞,李茹,任立敏,叶华,栗占国.Th17细胞／调节性T细胞偏倚在类风湿关节炎中的意义[J].中华风湿病学杂志,2009,13(7):439-442. 被引量：14
7洪学志,刘佳,庄辰晨,林东,朱梦雅,莫汉有.青蒿琥酯干预大鼠胶原诱导性关节炎中Foxp3的表达[J].重庆医学,2016,45(13):1729-1732. 被引量：5
8武晓岩,闫晓光,李康.基因表达数据的随机森林逐步判别分析方法[J].中国卫生统计,2007,24(2):151-154. 被引量：14
9吴云婷,刘岩,刘梦,杨梦如,莫碧瑶,潘云峰.PTEN在类风湿关节炎成纤维样滑膜细胞中的表达及意义[J].中国病理生理杂志,2016,32(6):978-983. 被引量：5
10闫慧明,安燕,张雪.维生素D与结缔组织病关系的研究进展[J].中国全科医学,2014,17(14):1588-1590. 被引量：6

中华疾病控制杂志

2016年第6期

浏览历史

内容加载中请稍等...

高维DNA甲基化数据的随机森林降维分析被引量：4

参考文献2

二级参考文献47

共引文献9

同被引文献24

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

高维DNA甲基化数据的随机森林降维分析 被引量：4

参考文献2

二级参考文献47

共引文献9

同被引文献24

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

高维DNA甲基化数据的随机森林降维分析被引量：4