基于模糊粗糙集的肿瘤分类特征基因选取被引量：11

Feature Selection for Cancer Classification Based on Fuzzy Rough Sets

下载PDF

导出

摘要依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类别的一组特征基因。粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因。由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取。然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验。以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性。 Feature selection is an essential step to perform cancer classification with DNA microarrays,for there are a large number of genes from which to predict classes and a relatively small number of samples. Rough set theory is a tool for reducing redundancy in information systems, thus successful application of rough set to gene selection is of great si- gnificance. Fuzzy rough set was introduced to avoid losing information caused by discretization of continuous gene expression data which is needed in rough set theory. A novel gene selection method called IMIBAFRAR was improved to reduce the computation of mutual infor-mation. Then KNN and C5.0 were applied to validate the classification perfor- mance of the genes selected for distinguishing different tissue type. The work was applied to two public gene expression datasets：leukemia and colon. Experimental results show the selected genes don＇t reflect the classification ability of the original genes. Compared with the unreduced genes and the genes selected by classical rough set method, our method leads to significantly improved recognition accuracy. Meanwhile, computational complexity is reduced.

作者徐菲菲苗夺谦魏莱

机构地区同济大学计算机科学与技术系同济大学嵌入式系统与服务计算教育部重点实验室

出处《计算机科学》 CSCD 北大核心 2009年第3期196-200,共5页 Computer Science

基金国家自然科学基金项目(60475019) 国家自然科学基金重点项目(60534060) 国家重点基础研究发展计划(973计划)(2003CB316902) 2006年博士学科点专项科研基金(20060247039)资助

关键词基因表达谱数据集特征选取粗糙集模糊粗糙集互信息 Gene expression data, Feature selection, Rough sets, Fuzzy rough sets, Mutual information

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1Lander E S. Array of hope. Nature Genetics, 1999,21 (Suppl) :3- 4
2Ramaswamy S, Gloub T R. DNA microarrays in clinical oncology. Journal of Clinical Ontology,2002,20(7) :1932-1941
3Derisi J, Penland L, Brown P O, et al. Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nature Genetics, 1996,14(4) :457-460
4Gloub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 1999,286 (5439) : 531-537
5Khan J, Wei J S, Ringner M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 2001,7(6) : 673-679
6Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines. Machine Learning, 2000,46(13) :389-422
7Tibshirani R, Hastie T, Narasimhan B, et al. Diagnosis of multiple cancer types by shrunken centroids of gene expression//Proceedings of the National Academy of Science. 2002, 99 (10) : 6567-6572
8Pawlak Z. Rough sets. International Journal of Information and Computer Science, 1982,11 :341-356
9Baxevanis A D, Ouellette B F F. Bioinformaties-A Practical Guide to the Analysis of Genes and Proteins. Tsinghua University Press, 2000
10Li Dingfang, Zhang Wen. Gene selection using rough set theory //Rough Sets and Knowledge Technology 2006 (RSKT 2006). Lecture Notes in Artificial Intelligence. Chongqing, 2006,4062: 778-785

二级参考文献28

1赵美德,李星原,洪家荣,陈彬.示例学习的广义扩张矩阵算法及其实现[J].计算机学报,1994,17(9):703-707. 被引量：11
2王珏,袁小红,石纯一,郝继刚.关于知识表示的讨论[J].计算机学报,1995,18(3):212-224. 被引量：54
3王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
4陈彬,洪家荣.示例学习的最大复合问题及算法[J].计算机学报,1997,20(2):139-144. 被引量：9
5苗夺谦.Rough Set理论及其在机器学习中的应用研究（博士学位论文）[M].北京:中国科学院自动化研究所,1997..
6权光日.基于规划学习的神经网络研究（博士学位论文）[M].哈尔滨工业大学,1998..
7苗夺谦.Rough Set理论及其在机器学习中的应用研究[博士学位论文].北京:中国科学院自动化研究所,1997..
8苗夺谦，博士学位论文，1997年
9王珏，J Comput Sci Technol，1998年，13卷，2期，189页
10Miao Duoqian，IEEE ICIPS’97，1997年，1155页

共引文献832

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：11
2刘城霞,朱敏玲,刘玮琪.基于互信息的属性约简算法研究与实现[J].北京信息科技大学学报（自然科学版）,2020,35(1):38-42. 被引量：7
3唐洪浪.基于决策强度的一种属性约简算法[J].湛江师范学院学报,2007,28(6):65-69.
4孙秋野,张化光,刘贺男.基于粗糙集的变压器故障诊断方法研究[J].仪器仪表学报,2006,27(z1):385-386. 被引量：2
5蔡娜,张雪峰.变精度粗糙集的约简及其参数β范围的确定[J].石油化工高等学校学报,2006,19(3):92-96. 被引量：5
6庞发虎,庞振凌,杜瑞卿.粗糙集理论对湖泊生态系统健康评定指数法的评价[J].生物数学学报,2008,23(2):337-344. 被引量：4
7林秋月,陈昭炯.基于二进制可辨矩阵的属性约简启发式算法[J].福州大学学报（自然科学版）,2004,32(z1):32-35. 被引量：1
8杨善林,刘业政,马溪骏.基于β-δ0粗糙集模型的属性约简算法[J].中国管理科学,2003,11(z1):41-45.
9张文宇,朱欣娟,薛惠锋.一种基于粗糙集合理论的知识发现模型[J].纺织高校基础科学学报,2001,14(4):354-357.
10李鸿.基于条件粗糙熵的知识相对约简算法[J].宿州学院学报,2005,20(1):84-87.

同被引文献80

1邓赵红,王士同,胡德文.适于癌基因表达数据集的新特征提取标准NFEC及其分类新算法研究[J].生物信息学,2004,2(2):13-20. 被引量：3
2ZHANG ChunHua 1 , TIAN YingJie 2 & DENG NaiYang 3,1 School of Information, Renmin University of China, Beijing 100872, China,2 Research Center on Fictitious Economy and Data Science, Chinese Academy of Sciences, Beijing 100080, China,3 College of Science, China Agricultural University, Beijing 100083, China.The new interpretation of support vector machines on statistical learning theory[J].Science China Mathematics,2010,53(1):151-164. 被引量：13
3李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
4王明怡,吴平,王德林.基于相关性分析的基因选择算法[J].浙江大学学报（工学版）,2004,38(10):1289-1292. 被引量：4
5李进金.粗糙集与拓扑空间的子集[J].系统工程理论与实践,2005,25(7):136-140. 被引量：14
6薛佩军,管延勇.正负域覆盖广义粗集及其运算公理化[J].计算机工程与应用,2005,41(27):35-37. 被引量：5
7李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
8张文修 ,仇国芳 ,吴伟志 .粗糙集属性约简的一般理论[J].中国科学（E辑）,2005,35(12):1304-1313. 被引量：37
9李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
10李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24

引证文献11

1康雨生,郭红.一种确定肿瘤重要基因信息的有效算法[J].信息系统工程,2010,23(10):49-51.
2马周明,李进金.严格局部自反关系下的广义粗糙集[J].计算机工程与应用,2011,47(29):154-157. 被引量：1
3李艳,蔡立军,张皓,周会军.基于MDA-RS算法的特征基因选取方法[J].计算机应用研究,2011,28(11):4104-4106.
4高娟,王国胤,胡峰.多类别肿瘤基因表达谱的自动特征选择方法[J].计算机科学,2012,39(10):193-197. 被引量：1
5柴欣,孙劲耀,郭磊,武优西.改进的BPSO的特征基因选择方法及其在结肠癌检测中的应用研究[J].计算机科学,2013,40(7):239-243. 被引量：4
6徐久成,徐天贺,孙林,任金玉.基于邻域粗糙集和粒子群优化的肿瘤分类特征基因选取[J].小型微型计算机系统,2014,35(11):2528-2532. 被引量：13
7徐菲菲,魏莱,毕忠勤.基于互信息的模糊粗糙集并行约简[J].小型微型计算机系统,2015,36(8):1847-1851. 被引量：2
8徐久成,李涛,孙林,李玉惠.基于信噪比与邻域粗糙集的特征基因选择方法[J].数据采集与处理,2015,30(5):973-981. 被引量：13
9李楠,杨晓妍,王觅也,张睿,师庆科,黄勇.基于粗糙集的某三甲医院住院患者费用分类特征集约简[J].中国循证医学杂志,2016,16(3):354-362. 被引量：2
10刘翠翠.基于改进邻域粗糙集的肿瘤特征基因选择算法的研究[J].无线互联科技,2017,14(8):89-90.

二级引证文献36

1刘陈,邓言放,杨田.基于模糊区分矩阵的增量属性约简[J].模糊系统与数学,2023,37(1):109-120. 被引量：1
2魏峻.基于改进的和声搜索算法的特征基因选择方法[J].河南科学,2015,33(1):58-64.
3范方云,孙俊.基于BQPSO算法的癌症特征基因选择与分类[J].江南大学学报（自然科学版）,2015,14(1):11-15.
4张浩,叶明全,汪楠.文化算法框架下混合群智能算法的肿瘤信息基因选择[J].四川大学学报（自然科学版）,2015,52(3):573-579. 被引量：1
5徐久成,李涛,孙林,李玉惠.基于信噪比与邻域粗糙集的特征基因选择方法[J].数据采集与处理,2015,30(5):973-981. 被引量：13
6张哲,孙丽君.基于离散粒子群优化和邻域约简的基因特征选择算法[J].计算机工程,2016,42(3):188-191. 被引量：1
7胡学伟,蒋芸,邹丽,李志磊,沈健.基于邻域关系模糊粗糙集的医学图像分类研究[J].计算机工程与科学,2016,38(4):739-746. 被引量：9
8王诚,赵振文.基于约束的粗糙集规则获取并行算法研究[J].南京邮电大学学报（自然科学版）,2016,36(2):82-89.
9徐天贺,马媛媛,徐久成.一种基于邻域互信息最大化和粒子群优化的特征基因选择方法[J].小型微型计算机系统,2016,37(8):1775-1779. 被引量：4
10杨霁琳,张贤勇,唐孝.基于三支决策的模糊信息系统OWA算子参数选择[J].数据采集与处理,2016,31(6):1156-1163. 被引量：6

1徐菲菲,魏莱,杜海洲,王文欢.一种基于互信息的模糊粗糙分类特征基因快速选取方法[J].计算机科学,2013,40(7):216-221. 被引量：6
2李艳,蔡立军,张皓,周会军.基于MDA-RS算法的特征基因选取方法[J].计算机应用研究,2011,28(11):4104-4106.
3李建更,李萍,阮晓钢.基于一种混合法的胃癌基因表达谱分类特征基因选取[J].北京工业大学学报,2010,36(1):1-6.
4肖传乐,曹槐.基于流形学习的基因表达谱数据可视化[J].生物信息学,2009,7(1):47-51. 被引量：8
5李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
6刘全金,李颖新,阮晓钢.基于BP网络灵敏度分析的肿瘤亚型分类特征基因选取[J].中国生物医学工程学报,2008,27(5):710-715. 被引量：4
7徐久成,徐天贺,孙林,任金玉.基于邻域互信息和自组织映射的特征基因选取[J].河南师范大学学报（自然科学版）,2014,42(1):145-150.
8阳少林,王树林.基于神经网络的多类肿瘤亚型识别研究[J].计算机工程与应用,2008,44(11):237-240. 被引量：2
9易波,文天柱,张原.结肠癌基因表达谱数据集噪声处理研究[J].计算机工程与应用,2012,48(10):146-149.
10蒋智谋,姚唐龙.基于子模性质的基因表达谱特征基因提取[J].电脑知识与技术（过刊）,2015,21(6X):194-196.

计算机科学

2009年第3期

浏览历史

内容加载中请稍等...

基于模糊粗糙集的肿瘤分类特征基因选取被引量：11

参考文献18

二级参考文献28

共引文献832

同被引文献80

引证文献11

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于模糊粗糙集的肿瘤分类特征基因选取 被引量：11

参考文献18

二级参考文献28

共引文献832

同被引文献80

引证文献11

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于模糊粗糙集的肿瘤分类特征基因选取被引量：11