两种基于树结构的基因选择算法被引量：2

Two Novel Tree Structure-based Methods for Gene Selection

下载PDF

导出

摘要癌症诊断是生物信息学领域的重要课题,其中从基因表达数据中选择与癌症相关的基因子集是癌症诊断的关键。随机森林是近年来很热门的算法,它能够评估分类中特征的重要性(该方法简称为PBM)。受此启发,提出了两种基于树结构的基因选择方法 FBM和ABM,分别以树结构中特征出现的频率和重要性打分的平均值作为属性重要性的指标。数值实验中,使用提出的方法选取特征子集,并建立随机森林分类器,通过AUC结果评估基因选择的优劣。实验结果表明,当PBM的AUC值不低于0.900时,其在Leukemia数据集上至少需要26个基因,在Colon Cancer数据集上至少需要48个基因。而在仅选取前10个基因时,FBM和ABM在Leukemia数据集的AUC值均达到0.989,在Colon Cancer数据集的AUC值达到0.900。此外,与其它典型的基因选择方法 mRMR和ECRP等相比,提出的方法也有较高的精度,这对癌症的精确诊断和及早治疗具有重要的现实意义。 Cancer diagnosis is one of the most significant topics in bioinformatics.For the microarray datasets,selecting a small subset of genes from thousands of genes（named gene selection）is helpful for accurate identification and treatment of cancerous tumors.Motivated by the instinct of random forests measuring variable importance（named‘PBM＇）,we proposed two novel methods based on the tree structures for gene selection,namely FBM and ABM.They respectively make use of gene frequency and average scores yielded by agreat number of decision trees,which are constructed on the microarray datasets.In computational experiments,the optimal gene subsets are determined by three methods,and random-forest classifiers are built on subsets to evaluate the performance of gene selection methods.AUC scores of PBM are greater than 0.900 when selecting 26 genes for leukemia dataset and 48 genes for colon cancer dataset,while the classifiers with FBM and ABM can achieve the AUC score of 0.989 for leukemia dataset and AUC score of 0.900 for colon cancer dataset respectively with top ten genes selected.In addition,the proposed methods have better performance than the developed methods（such as mRMR and ECRP）,which play the critical roles in the accurate diagnosis and treatment of cancer.

作者谢倩倩李订芳章文

机构地区武汉大学数学与统计学院武汉大学深圳研究院

出处《计算机科学》 CSCD 北大核心 2015年第7期250-253,共4页 Computer Science

基金国家自然科学基金(61271337 61103126) 教育部博士点基金(20100141120049) 湖北省自然科学基金(2011CDB454) 深圳市战略新兴产业发展专项资金项目(JCYJ20130401160028781)资助

关键词分类基因选择随机森林 Classification Gene selection Random forests

分类号 TP3-05 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献21

1Xing E P,Jordan M I,Karp R M. Feature selection for high-di- mensional genomic mieroarray data [C] // Proceedings of the 15th International Conference on Machine Learning. 2001:601-608.
2Andrew Y N. On feature selection: learning with exponentially many irrelevant features as training examples[C]//Proceedings of the 15th International Conference on Machine Learning. 1998:404-412.
3Bhattacharjee A, Richards W G, Staunton J, et al. Classification of human lung carcinomas by mRNA expression profiling re- veals distinct adenocarcinoma subclasses [J]. Proceedings of the National Academy of Sciences of the United States of America, 2001,98(24) : 13790-13795.
4Golub T R, Slonim D K, Tamayo P, et al. Molecular classifica- tion of cancer, class discovery and class prediction by gene ex- pression monitoring[J]. Science, 1999,286 (5439) : 531-537.
5Faivishevsky L, Goldberger J. Unsupervised feature selection based on non-parametric mutual information [C]//2012 IEEE International Workshop on Machine Learning for Signal Pro- ceeding (MLSP). IEEE, 2012,1-6.
6冶晓隆,兰巨龙,郭通.基于PCA和禁忌搜索的网络流量特征选择算法[J].计算机科学,2014,41(1):187-191. 被引量：5
7Zhu Qiu-sha, Lin Lin, Shyu Mei-ling, el al. Feature Selection U- sing Correlation and Reliability Based Scoring Metric for Video Semantic Detecti0n[C]//IEEE Fourth International Conference on Semantic Computing. 2010:462-469.
8Ogura H, Amano H, Kondo M. Comparison of metrics for fea- ture selection in imbalanced text classification [J]. Expert Sys- tems with Applications, 2011,38 (5) : 4978-4989.
9Saeys Y, Inza I, Larranaga P. A review of feature selection techni- ques in bioinformatics[J]. Bioinformatics, 2007,23(19) : 2507-2517.
10Amiri F, Yousefi M R, Lucas C, et al. Mutual information-based feature selection for intrusion detection systems [J]. Journal of Network and Computer Applications,2011,34(4) : 1184-1199.

二级参考文献132

1李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
2李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
3李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
4Southern E M. DNA chips: analyzing sequence by hybridization to oligonucleotides on a large scale [J]. Trends in Genetics, 1996,12(3) : 110-115.
5Hacia J H, Brody L C, Chee M S, et al. Detection of heterozy gous mutations in BRCA1 using high density oligonucleotide ar rays and two-colour fluorescence analysis[J]. Nature genetics 1996,14 (4) : 441-447.
6Wang D G, et al. Large-scale Identification, Mapping, and Geno typing of Single-nucleotide Polymorphisms in the Human Genome[J]. Science, 1998,280(5366):1077-1082.
7Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999,286 (5439) : 531-537.
8Alon U,Barkai N,Notterman D A, et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by Oligonueleotide array[J]. Proceedings of the National Academy of Sciences, 1999,96 (12) : 6745-6750.
9Alizadeh A A,Eisen M B,Davis R E,et al. Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling[J]. Nature,2000,403(6769) : 503-511.
10Pomeroy S L, Tamayo P, Gaasenbeek M, et al. Prediction of central nervous system embryonal tumour outcome based on gene expression[J]. Nature, 2002,415 (6870) : 436-442.

共引文献24

1吕清芬,徐美萍.基于SMA模型的扩张型心肌病影响基因分析[J].数学的实践与认识,2020,0(3):180-186. 被引量：1
2党少华,季洪亮,李波,孙向东,梁青山.基因芯片技术对早期胃癌的研究进展[J].国际外科学杂志,2011,38(12):845-847. 被引量：2
3于化龙,高尚,赵靖,秦斌.基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J].计算机科学,2012,39(5):190-194. 被引量：9
4李强,石陆魁,刘恩海,王歌.基于流形学习的基因微阵列数据分类方法[J].郑州大学学报（工学版）,2012,33(5):121-124. 被引量：1
5张岩,闫德勤,吕志超,郑宏亮.强相关树基因选择方法及AE-RSVM分类研究[J].计算机工程与应用,2013,49(17):245-249.
6王进,黄萍丽,孙开伟,蔡通.基于演化学习超网络的微阵列数据分类[J].江苏大学学报（自然科学版）,2014,35(1):56-62. 被引量：5
7刘德山,孙丽,闫德勤.一种基因数据分析的半监督学习算法[J].微型机与应用,2014,33(12):44-47. 被引量：2
8问亮军,郑虹.多阶段的微阵列数据特征基因集选取[J].吉林大学学报（信息科学版）,2014,32(5):550-555.
9魏峻.基于改进的和声搜索算法的特征基因选择方法[J].河南科学,2015,33(1):58-64.
10刘德山,范雅惠,闫德勤,贾洪哲.一种新的去无关基因肿瘤样本分类方法[J].辽宁师范大学学报（自然科学版）,2015,38(1):41-46. 被引量：1

同被引文献17

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：79
2李思同,庄强,金琳,卢兴旺,匡荣,赵静.基于时频特征核熵成分分析的局部放电模式识别方法[J].高压电器,2018,54(6):125-131. 被引量：11
3司良奇,钱勇,白万建,叶海峰,胡岳,盛戈皞,江秀臣.基于支持向量机的GIS超高频局部放电模式识别[J].高压电器,2014,50(11):1-6. 被引量：25
4孟军,李锐,郝涵.基于相交邻域粗糙集的基因微阵列数据分类[J].计算机科学,2015,42(6):37-40. 被引量：4
5段大鹏,程序,任志刚,陶诗洋,谷禹,李伟,张学哲,陈平.电网设备状态检测真型实验平台的设计与实现[J].高压电器,2017,53(7):100-105. 被引量：10
6王奕森,夏树涛.集成学习之随机森林算法综述[J].信息通信技术,2018,12(1):49-55. 被引量：185
7李宾宾,张健,柯艳国,田宇,杨为,朱胜龙.基于暂态地电压的开关柜局放特征提取及类型识别方法研究[J].高压电器,2018,54(3):37-44. 被引量：6
8程养春,张振亮.基于随机森林的变压器多源局部放电诊断[J].中国电机工程学报,2018,38(17):5246-5256. 被引量：37
9李刚,汪可,张书琦,赵志刚,李金忠,程涣超,遇心如,王永强,谢军,周天春.变压器油纸绝缘沿面放电缺陷发展特征及阶段识别方法[J].电网技术,2018,42(10):3451-3458. 被引量：18
10张蕾,崔勇,刘静,江勇,吴建平.机器学习在网络空间安全研究中的应用[J].计算机学报,2018,41(9):1943-1975. 被引量：148

引证文献2

1郭炳,郑文萍,韩素青.一种基于突变基因网络的癌症驱动通路识别算法[J].计算机科学,2018,45(7):230-236.
2刘文浩,吴毅江,李文泽,王洪雨,Ashfaque Ahmed Bhatti,彭小圣,何顺姬.基于随机决策森林的高压电缆局部放电模式识别[J].高压电器,2022,58(6):165-170. 被引量：15

二级引证文献15

1王挺韶,季天瑶,姜雨滋,王瑾.基于降噪自动编码器与一维卷积网络的风机故障诊断方法[J].电测与仪表,2023,60(1):87-93. 被引量：6
2邹华菁,蒋伟,沈道义,杨俊杰,谭杰.基于双模型融合的电缆局部放电模式识别[J].船舶工程,2022,44(12):115-124.
3孙泽中,鲁海亮,文习山,岳一石,李欣,王成,廖振宇,周光远,张柳.典型工况下棒-悬浮棒-棒组合间隙操作冲击放电特性[J].电瓷避雷器,2023(2):34-40. 被引量：1
4刘泳斌,高景晖,钟力生,梅文杰,王纪儒,潘文林.±320 kV直流电缆交联聚乙烯/三元乙丙橡胶附件击穿特性[J].电力工程技术,2023,42(3):72-80. 被引量：1
5支妍力,李俊材,邓志祥,潘建兵,晏年平.丙烯基电缆研究开发及商业应用进展[J].绝缘材料,2023,56(7):1-8.
6周云海,靳广伟,于高缘,黄伟,迟婉求,黄南天.基于BAGAN-CNN的局部放电模式识别[J].电气应用,2023,42(7):25-33. 被引量：1
7李欣,付豫韬,李新宇,陈德秋,鲁玲,郭攀锋,柳圣池.基于GAF-CNN的电力系统暂态稳定评估[J].智慧电力,2023,51(11):45-52. 被引量：7
8钟伟,杨欢红,赵恒亮,陈秉淞,陈荣,张雪强.基于RF特征优选的AEA⁃ResNet柱上断路器运行状态诊断[J].电力科学与技术学报,2023,38(5):150-158. 被引量：2
9潘彪,周永涛,董秦龙,郑会,钱迪,叶子雍.基于FDTD建模的高压电缆局部放电检测方法[J].浙江电力,2023,42(12):12-19. 被引量：1
10杨廷志,杨志航,邓家洪,段盼.基于粒子群优化算法的电缆中间头故障智能识别仿真研究[J].粘接,2024,51(1):137-140.

1夏永军.一种基于SVM新的学习方法及应用[J].电脑知识与技术,2008,0(11X):1474-1475.
2刘永春,宋弘.基于随机森林的乳腺肿瘤诊断研究[J].电视技术,2014,38(15):253-255. 被引量：4
3PBM可实现智能监控[J].中国公共安全,2008,0(15):34-34.
4李士进,陶剑,林林,冯钧.面向宏观地表分类的特征选择算法比较研究[J].计算机工程与应用,2008,44(21):130-132. 被引量：1
5Moxa推出MGate5101-PBM-MN[J].自动化应用,2012(12).
6Moxa全新网关让设备管理更轻松[J].现代建筑电气,2012,3(12):74-75.
7Moxa 网关MGate5101-PBM-MN[J].自动化博览,2013,30(1):9-9.
8陈素萍,谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009,19(2):112-115. 被引量：6
9王鹏,葛红.基于改进的LBP特征和随机森林相结合的人脸关键点检测方法研究[J].软件导刊,2013,12(5):139-141.
10胡学钢,许尧,李培培,张玉红.一种过滤式多标签特征选择算法[J].南京大学学报（自然科学版）,2015,51(4):723-730. 被引量：8

计算机科学

2015年第7期

浏览历史

内容加载中请稍等...

两种基于树结构的基因选择算法被引量：2

参考文献21

二级参考文献132

共引文献24

同被引文献17

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

两种基于树结构的基因选择算法 被引量：2

参考文献21

二级参考文献132

共引文献24

同被引文献17

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

两种基于树结构的基因选择算法被引量：2