K-S检验与mRMR相结合的基因选择算法被引量：5

Gene selection algorithm based on K-S test and mRMR

下载PDF

导出

摘要为了解决基因数据集的基因选择难题,提出一种基于K-S检验与最小冗余最大相关(minimum redundancy-maximum relevance,mRMR)原则的基因选择算法。该算法先采用K-S检验选择出具有一定区分能力的基因,然后对选择到的基因进行mRMR判断,保留与类别高度相关而其间相关性较小的基因构成最终被选基因子集。以SVM为分类器,以F1_measure、分类准确率和AUC为评价指标对该算法选择的基因子集进行评估,并将本算法与K-S检验、mRMR,以及经典的RELIEF和FAST算法进行比较。五个经典基因数据集上的平均实验结果表明:本算法的运行时间远低于mRMR算法,且其各项评价指标值优于其他比较算法。因此,提出的K-S检验与mRMR结合的基因选择算法能选择到非常有效的基因子集。 To deal with the challenging problem of selecting the distinguished genes in the gene expression datasets,this paper presented a gene subset selection algorithm based on K-S test and mRMR principles. The algorithm selected the distinguished genes in K-S test firstly,then it used the minimum redundancy-maximum relevance principle to select the genes from those selected by K-S test. It adopted SVM as the classification tool,and used the criteria of F1_measure,accuracy and AUC to evaluate the performance of the classifiers on the selected gene subsets. It compared the proposed gene subset selection algorithm with K-S,mRMR,RELIEF and FAST algorithms. The average experimental results of the aforementioned gene selection algorithms on 5 popular gene expression datasets demonstrate that the new K-S and mRMR based algorithm is significantly faster than mRMR,and the performance of it under the criteria of F1_measure,accuracy and AUC is better than those of K-S,mRMR,RELIEF and FAST. So,the proposed gene subset selection algorithm can find the excellent gene subset.

作者谢娟英胡秋锋董亚非

机构地区陕西师范大学计算机科学学院陕西师范大学生命科学学院

出处《计算机应用研究》 CSCD 北大核心 2016年第4期1013-1018,1043,共7页 Application Research of Computers

基金陕西省科技攻关项目(2013K12-03-24) 国家自然科学基金资助项目(31372250) 中央高校基本科研业务费专项资金项目(GK201503067)

关键词基因选择 K-S检验最小见余最大相关支持向量机 F1_measure AUC RELIEF FAST gene selection K-S test mRMR SVM F1_measure AUC RELIEF FAST

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献33

1Maruyama K, Yamaguchi-Shinozaki K, Shinozaki K. Gene expression profiling using DNA microarrays[J] . Methods in Molecular Biology, 2014, 1062:381-391.
2Shah M, Marchand M, Corbeil J. Feature selection with conjunctions of decision stumps and learning from microarray data[J] . IEEE Trans on Pattern Analysis and Machine Intelligence, 2012, 34(1):174-186.
3王树林,王戟,陈火旺,李树涛,张波云.肿瘤信息基因启发式宽度优先搜索算法研究[J].计算机学报,2008,31(4):636-649. 被引量：17
4谢娟英,高红超.基于统计相关性与K-means的区分基因子集选择算法[J].软件学报,2014,25(9):2050-2075. 被引量：56
5Wu Xindong, Zhu Xingquan, Wu Gongqing, et al. Data mining with big data[J] . IEEE Trans on Knowledge and Data Engineering, 2014, 26(1):97-107.
6Wu Xindong, Yu Kui, Ding Wei, et al. Online feature selection with streaming features[J] . IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(5):1178-1192.
7谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64
8Xie Juanying, Wang C X. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases[J] . Expert Systems with Applications, 2011, 38(5):5809-5815.
9谢娟英,王春霞,蒋帅,张琰.基于改进的F-score与支持向量机的特征选择方法[J].计算机应用,2010,30(4):993-996. 被引量：31
10Golub T, Slonim D, Tamayo P, et al. Molecular classification of cancer:class discovery and class prediction by gene expression[J] . Science, 1999, 286(5439):531-537.

二级参考文献91

1邓林,马尽文,裴健.秩和基因选取方法及其在肿瘤诊断中的应用[J].科学通报,2004,49(13):1311-1316. 被引量：18
2李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
3朱云华,李颖新,阮晓钢.基于基因表达谱的SRBCT分类研究[J].计算机工程与应用,2005,41(1):221-223. 被引量：3
4李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
5王海芸,李霞,郭政,张瑞杰.四种模式分类方法应用于基因表达谱分析的比较研究[J].生物医学工程学杂志,2005,22(3):505-509. 被引量：3
6李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
7阮晓钢,李颖新,李建更,龚道雄,王金莲.基于基因表达谱的肿瘤特异基因表达模式研究[J].中国科学（C辑）,2006,36(1):86-96. 被引量：5
8李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
9毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
10阮晓钢,晁浩.肿瘤识别过程中特征基因的选取[J].控制工程,2007,14(4):373-375. 被引量：15

共引文献165

1李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：8
2盖超会,王成刚.基于改进布谷鸟算法与SVM的矿用变压器故障诊断[J].煤炭工程,2019,51(11):134-137. 被引量：6
3李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
4张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
5吴迪,郭嗣琮.改进的Fisher Score特征选择方法及其应用[J].辽宁工程技术大学学报（自然科学版）,2019,38(5):472-479. 被引量：10
6李斌,娄璟,杜典松.基于SOA-SVM的弓网电弧识别方法[J].电子测量与仪器学报,2022,36(10):83-91.
7马尽文,邓明华.第五讲生物医学信息处理——DNA微阵列数据在医学中的应用[J].物理,2005,34(5):371-380.
8葛菲,马尽文.基于信息准则的基因选取方法及其在肿瘤诊断中的应用[J].信号处理,2005,21(3):312-315. 被引量：1
9阮晓钢,李颖新,李建更,龚道雄,王金莲.基于基因表达谱的肿瘤特异基因表达模式研究[J].中国科学（C辑）,2006,36(1):86-96. 被引量：5
10孟范静,刘毅慧,王洪国,成金勇.SVM在基因微阵列癌症数据分类中的应用[J].计算机工程与应用,2007,43(34):246-248. 被引量：2

同被引文献26

1李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
2周昉,何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学,2007,34(12):143-150. 被引量：20
3胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：290
4张丽娟,李舟军.微阵列数据癌症分类问题中的基因选择[J].计算机研究与发展,2009,46(5):794-802. 被引量：19
5明利特,蒋芸,王勇,王明芳.基于邻域粗糙集和概率神经网络集成的基因表达谱分类方法[J].计算机应用研究,2011,28(12):4440-4444. 被引量：8
6杨帆,林琛,周绮凤,符长虹,罗林开.基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用[J].系统工程理论与实践,2012,32(4):815-825. 被引量：43
7关健,韩飞,杨善秀.基于粒子群优化和判别熵信息的基因选择算法[J].计算机工程,2013,39(11):187-190. 被引量：7
8姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：250
9孙伟,韩飞.基于基因灵敏度信息和二进制微粒群优化的基因选择方法[J].计算机应用研究,2014,31(9):2648-2651. 被引量：1
10徐久成,徐天贺,孙林,任金玉.基于邻域粗糙集和粒子群优化的肿瘤分类特征基因选取[J].小型微型计算机系统,2014,35(11):2528-2532. 被引量：13

引证文献5

1徐久成,冯森,穆辉宇.基于信噪比与随机森林的肿瘤特征基因选择[J].河南师范大学学报（自然科学版）,2017,45(2):87-92. 被引量：11
2程璐,李欣,王薇,邓佳颖,邢阳阳.基于K-S检验的Relief特征基因选择方法[J].无线互联科技,2017,14(13):103-104. 被引量：1
3刘艳,程璐,孙林.基于K-S检验和邻域粗糙集的特征选择方法[J].河南师范大学学报（自然科学版）,2019,47(2):21-28. 被引量：33
4马超.基于FCBF特征选择和集成优化学习的基因表达数据分类算法[J].计算机应用研究,2019,36(10):2986-2991. 被引量：6
5黄紫成,李影.一种优化邻域半径的生物芯片数据处理方法[J].黑龙江工程学院学报,2020,34(3):11-15.

二级引证文献48

1喻德旷,杨谊.肿瘤特征基因选择的互信息最值过滤原则与粒子群优化算法[J].计算机应用,2018,38(2):421-426. 被引量：3
2徐久成,黄方舟,穆辉宇,王云,徐战威.基于PCA和信息增益的肿瘤特征基因选择方法[J].河南师范大学学报（自然科学版）,2018,46(2):104-110. 被引量：10
3刘艳,程璐,孙林.基于K-S检验和邻域粗糙集的特征选择方法[J].河南师范大学学报（自然科学版）,2019,47(2):21-28. 被引量：33
4申华磊,邱鹏.CF患者肺组织分类——基于相关反馈的监督核哈希方法[J].河南师范大学学报（自然科学版）,2019,47(4):24-30.
5孙印杰,张新乐,孙林.基于EK-medoids聚类和邻域距离的特征选择方法[J].计算机应用研究,2019,36(8):2279-2283. 被引量：1
6李欢,熊梦莹,聂斌,杜建强,周丽,黄强.融合因子分析的随机森林研究[J].计算机工程与应用,2019,55(23):125-130. 被引量：8
7徐久成,李成长.具有预后价值的乳腺癌发病关键基因鉴别研究[J].河南师范大学学报（自然科学版）,2020,48(2):27-33.
8韩素敏,郑书晴,何永盛.基于粗糙集贪心算法的逆变器开路故障诊断[J].电力系统保护与控制,2020,48(17):122-130. 被引量：12
9葛峰,韩建立,张光宇.基于通用对数线性模型的多应力加速寿命试验预测方法[J].兵工自动化,2020,39(10):10-14. 被引量：2
10饶先胜,宋晶晶,杨习贝,于化龙,王平心.伪标签邻域粗糙集下的属性约简加速策略[J].计算机工程与设计,2020,41(11):3087-3093. 被引量：2

1周杰,张敏情.基于双重特征选择降维的图像隐写分析[J].计算机工程与设计,2016,37(11):2917-2922. 被引量：3
2蒋华锋,王瑶.基于K-S检验的直方图匹配目标跟踪算法[J].国外电子测量技术,2012,31(3):25-29. 被引量：3
3赵慧,王丽芳,介婧,刘洁.K-S检验下的copula分布估计算法边缘分布的研究[J].太原科技大学学报,2013,34(5):331-336. 被引量：2
4史庆伟,从世源.基于mRMR和LDA主题模型的文本分类研究[J].计算机工程与应用,2016,52(5):127-133. 被引量：8
5基因指纹识别(1984年)[J].科学大众（中学生）,2009(12):12-12.
6邓可,贺向前.基于遗传算法的自适应控制系统[J].实验室研究与探索,2007,26(10):41-43. 被引量：6
7张玉丽,何玉,朱家明.基于多元线性回归模型PM2.5预测问题的研究[J].安徽科技学院学报,2016,30(3):92-97. 被引量：11
8李立,曹锐,相洁.脑电数据近似熵与样本熵特征对比研究[J].计算机工程与设计,2014,35(3):1021-1026. 被引量：21
9侯澍旻,李友荣,刘光临.基于数据挖掘的高线轧机远程监测与诊断研究[J].重型机械,2005(3):21-23. 被引量：2
10丁建睿,黄剑华,刘家锋,张英涛.基于mRMR和SVM的弹性图像特征选择与分类[J].哈尔滨工业大学学报,2012,44(5):81-85. 被引量：8

计算机应用研究

2016年第4期

浏览历史

内容加载中请稍等...

K-S检验与mRMR相结合的基因选择算法被引量：5

参考文献33

二级参考文献91

共引文献165

同被引文献26

引证文献5

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

K-S检验与mRMR相结合的基因选择算法 被引量：5

参考文献33

二级参考文献91

共引文献165

同被引文献26

引证文献5

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

K-S检验与mRMR相结合的基因选择算法被引量：5