四种模式分类方法应用于基因表达谱分析的比较研究被引量：3

Research on Pattern Classification Methods Using Gene Expression Data

下载PDF

导出

摘要利用基因表达谱数据借助于模式分类的方法识别癌症等疾病的类型及不同亚型是DNA芯片技术的一个应用方面。在这篇文章中,我们研究比较了在不同的特征基因选择方法的情况下,Fisher线性判别,Logit非线性判别,最小距离和K-最近邻四种模式分类方法对疾病分型效能的影响及四种模式分类方法的泛化能力,同时研究了在样本构成变化的情况下,模式分类方法的稳定性。结果发现:运用t检验法和分类树选择的特征基因,明显优于随机选择的基因在四种不同的分类器中分类效果;四种分类器中,K最近邻分类器的分类效能最优;基于最小距离的分类器和K最近邻分类器有较强的泛化能力;四种模式分类对样本构成的变化呈较好的稳定性。 One of the applications of cDNA microarrays is to recognize the class and subclass of diseases such as cancers on the basis of statistical pattern classification methods using gene expression data. In this paper, we apply 2000 genes expression dataset provided by Affymatrix Company： 40 samples of intestine cancer tissue and 22 samples of normal tissue. We compare the performance of four pattern classification methods based on different feature selection methods. These pattern classification methods include ： Fisher linear discriminate, Logit nonlinear discriminate, the least distance and K-nearest neighbor classifier. The results show firstly that four pattern classifiers based on the feature selection methods of t-test and classification tree all have better performance than those based on the stochastic feature selection methods, secondly that K-nearest neighbor classifier has the best performance, thirdly that both the least distance classifier and K-nearest neighbor classifier have better generalization, fourthly that four classifiers are less sensitive to the composition of samples.

作者王海芸李霞郭政张瑞杰

机构地区哈尔滨医科大学生物信息学系

出处《生物医学工程学杂志》 EI CAS CSCD 北大核心 2005年第3期505-509,共5页 Journal of Biomedical Engineering

基金国家自然科学基金资助项目(39970397 30170515 30370798) 国家863计划(2002AA222052) 黑龙江科技攻关(GB03C602-4) 黑龙江自然科学基金(F0177) 211工程"十五"建设项目

关键词分类方法基因表达谱癌症统计分类器 DNA芯片生物学技术 Pattern classifier Feature gene Feature selection

分类号 R195.1 [医药卫生—卫生统计学]

引文网络
相关文献

参考文献7

1Dudoit S,Fridlyand J, Speed TP. Comparison of discrimination methods for the classification of tumors using gene expression data. Journal of the American Statistical Association, 2002;97(457) : 77.
2Lipshutz RJ, Fodor S, Gingeras T,et al. High density synthetic ologonucleotide arrays. Nature genetics, 1999 ; 21 (Suppl):20.
3John GH, Kohavi R, Pfleger K. Irrelevant features and the subset seleetion problem. Maehine Learning,Proeeedings of the 11^th International Conferenee, 1994 ; 121-129.
4李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
5Alon U,Barkai N, Notterdam D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonueleotide arrays. Cell Biology, 1999;96: 6745.
6边肇祺.模式识别[M].清华大学出版社,1999..
7Park PJ, Pagano M, Bonetti M. A nonparametric scoringalgorithm for identifying informative genes from microarraydata. In:Pacific Symposium on Biocomputing, 2001 : 52-63.

二级参考文献15

1Li X., Rao S.Q. et al.. Genetic mapping of complex discrete human diseases by discriminant analysis. Progress in Natural Science, 2002, 12(6):27～33
2Alon U., Barkai N., Notterman D.A., Gish K. et al.. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proceedings of the National Academy of Sciences, 1999,96(12):6745～6750
3DeRisi J.L. et al.. Exploring the metabolic and genetic control of gene expression on a genomic scale. Science, 1997, 278:680～685
4Golub T.R. et al.. Molecular Classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 1999, 286:531～537
5Cmill J.C. et al.. A new approach for filtering noise from high-density oligonuleotide microarray datasets. Nucleic Acids Research, 2001, 29(15):15～72
6Hall M.. Correlation-based feature selection for machine learning[Ph.D. dissertation]. Department of Computer Science, University of Waikato, Hamilton, 1998
7Blum A.L., Langley P.. Selection of relevant features and examples in machineearning. Artificial Intelligence, 1997, 97(1～2):245～271
8Kohavi R., John G.H.. Wrappers for feature subset selection. Artificial Intelligence, 1997, 97(1～2):273～324
9Xing E.P., Jordan M.I., Karpy R.M.. Feature selection for high-dimensional genomic microarray data. In:Proceedings of International Conference on Machine Learning, Western Massachusetts, 2001,601～608
10Dietterich T.G.. Ensemble methods in machine learning. In:Proceedings of the 1st International Workshop on Multiple Classifier Systems.In: Roli F. ed.. Lecture Notes in Computer Science. New York: Springer, 2000, 1～15

共引文献85

1强波,王正志,倪青山.结合GO体系信息与芯片数据构建肿瘤特征基因网络[J].生物医学工程研究,2009,28(4):237-241.
2王新峰,邱静,刘冠军.机电BIT故障特征选择方法研究[J].中国机械工程,2004,15(12):1048-1050. 被引量：1
3郭陟,赵曦滨,顾明.基于CCA的入侵检测行为轮廓创建技术研究[J].电子学报,2004,32(8):1381-1384.
4张晓庆,孙永庆,张峥.基于不确定性纹理谱的金属断口形貌识别[J].金属学报,2004,40(10):1018-1022. 被引量：4
5杨斌,赵红漫,赵宗涛,张乐.一个改进的遥感图像目标纹理分类识别算法[J].微电子学与计算机,2004,21(9):111-113. 被引量：5
6王肃宁,杨士元,汪鹏.基于模式识别进行模拟电路故障诊断的方法[J].微电子学与计算机,2004,21(11):113-116. 被引量：6
7杨余旺,杨静宇.多距离分类器组合试验在人脸识别中的应用[J].计算机工程,2005,31(2):50-53. 被引量：2
8李财莲,贾永兴,岳振军.基于自适应遗传算法和BP网络的物重监测模型[J].系统工程与电子技术,2005,27(2):377-380. 被引量：1
9黄晓斌,万建伟,王展.一种计算样本协方差矩阵迹的快速递推算法[J].模式识别与人工智能,2004,17(4):497-501. 被引量：1
10汪峥,连翰,王建军.说话人识别中特征参数提取的一种新方法[J].复旦学报（自然科学版）,2005,44(1):197-200. 被引量：16

同被引文献56

1吕飒丽,汪强虎,李霞,郭政.基于决策森林特征基因的两种识别方法[J].生物信息学,2004,2(3):19-22. 被引量：2
2王海鹏,杨昆.集成数据选择特征基因[J].杭州电子科技大学学报（自然科学版）,2010,30(6):17-20. 被引量：2
3邓林,马尽文,裴健.秩和基因选取方法及其在肿瘤诊断中的应用[J].科学通报,2004,49(13):1311-1316. 被引量：18
4李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
5宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
6朱云华,李颖新,阮晓钢.基于基因表达谱的SRBCT分类研究[J].计算机工程与应用,2005,41(1):221-223. 被引量：3
7李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
8孙继勇.基因表达谱的数据分析[J].国际病理科学与临床杂志,2005,25(5):386-389. 被引量：3
9李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
10阮晓钢,李颖新,李建更,龚道雄,王金莲.基于基因表达谱的肿瘤特异基因表达模式研究[J].中国科学（C辑）,2006,36(1):86-96. 被引量：5

引证文献3

1王树林,王戟,陈火旺,李树涛,张波云.肿瘤信息基因启发式宽度优先搜索算法研究[J].计算机学报,2008,31(4):636-649. 被引量：17
2何兰,范继红,滕辉,潘洪明.基因表达谱中特征基因选择的几种方法比较研究[J].中国科技信息,2012(14):110-110.
3刘娟,徐红燕,朱翔鸥,刘文斌.PRSD Studio模式分类器研究与应用[J].数据挖掘,2011,1(1):1-6.

二级引证文献17

1皋军,王士同,邓赵红.广义的势支撑特征选择方法GPSFM[J].计算机研究与发展,2009,46(1):41-51. 被引量：6
2皋军,王士同.基于矩阵模式的最小类内散度支持向量机[J].电子学报,2009,37(5):1051-1057. 被引量：7
3于化龙,顾国昌,刘海波,沈晶,赵靖.基于相关性分析的微阵列数据集成分类研究[J].计算机研究与发展,2010,47(2):328-335. 被引量：5
4杨昆,徐静,张彦斌.基因选择的0-1规划模型和算法[J].计算机工程与应用,2010,46(20):184-187. 被引量：1
5于化龙,顾国昌,赵靖,刘海波,沈晶.基于DNA微阵列数据的癌症分类问题研究进展[J].计算机科学,2010,37(10):16-22. 被引量：20
6于化龙,顾国昌,赵靖,刘海波,沈晶.基于DNA微阵列数据的特征子空间集成分类[J].吉林大学学报（工学版）,2011,41(4):1071-1076. 被引量：3
7陈尤莺,郑之,孔祥增,张胜元.基于贝叶斯分类器的结肠癌数据分类[J].广西师范大学学报（自然科学版）,2011,29(3):187-191. 被引量：2
8王国胤,罗川江.基于置换检验的两步基因特征选择算法[J].重庆邮电大学学报（自然科学版）,2012,24(4):483-489.
9丁涛,王雨,顾伟,万秋兰.基于记分准则的特征属性选择及其在静态电压稳定分析中的应用[J].电力自动化设备,2012,32(10):132-137.
10李凌波,张静,陈丹.基于SVM和平均影响值的人肿瘤信息基因提取[J].生物信息学,2013,11(1):72-78. 被引量：3

1孙若川,李永翔.THBS2在胃癌组织中的表达与预后的关系[J].安徽医科大学学报,2014,49(7):995-999. 被引量：2
2陈月荣,吴跃明.6例早期肺癌临床及影像诊断[J].医用放射技术杂志,2002(3):90-91.
3韩瑞刚.组织芯片技术在癌症研究中的应用[J].诊断病理学杂志,2002,9(6):368-369. 被引量：5
4杨林.应用高通量的DNA芯片技术筛选膀胱肿瘤肿瘤标记物[J].现代泌尿外科杂志,2003,8(2):106-106.
5姚群峰,徐顺清,周宜开.DNA芯片技术及其在突变检测中的应用[J].癌变．畸变．突变,1999,11(5):246-259. 被引量：4
6齐军,赵国华,李学祥.肿瘤标志物及临床选择方法[J].中国肿瘤,1997,6(11):17-18. 被引量：1
7杨铁峥,林瑞新.腹腔镜手术治疗直肠癌28例临床观察[J].中国肛肠病杂志,2009,29(2):18-20.
8周轲,张阳德,卢艳,胡煜,丁莉.腹腔镜与开腹直肠癌根治术治疗效果的比较研究[J].南方医科大学学报,2007,27(5):725-726. 被引量：11
9周根成,张卫文,姚叙.低位直肠癌保肛手术156例体会[J].中国现代药物应用,2011,5(14):45-46. 被引量：3
10林其忠,余建国,陈亚青,王威琪,王怡.乳腺肿瘤超声图像识别模式分类方法的比较研究[J].上海医学影像,2006,15(2):102-104. 被引量：3

生物医学工程学杂志

2005年第3期

浏览历史

内容加载中请稍等...

四种模式分类方法应用于基因表达谱分析的比较研究被引量：3

参考文献7

二级参考文献15

共引文献85

同被引文献56

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

四种模式分类方法应用于基因表达谱分析的比较研究 被引量：3

参考文献7

二级参考文献15

共引文献85

同被引文献56

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

四种模式分类方法应用于基因表达谱分析的比较研究被引量：3