基于聚类分析和半监督学习的蛋白质质谱数据分类被引量：2

Classification of Proteomic Mass Spectrometry Data Based on Affinity Propagation Clustering and Semisupervised Learning

下载PDF

导出

摘要目的针对高维冗余的SELDI蛋白质质谱数据,提出一种基于聚类分析和半监督学习的数据分类方法。方法算法首先运用t-test对蛋白质质谱数据进行初步降维;然后将处理后的数据用聚类分析算法进行进一步降维;最后运用半监督学习算法传递标签,充分提取有标记样本和无标记样本的信息,从而进行分类。结果在公共卵巢癌数据集OC-WCX2b和公共前列腺癌数据集PC-H4上获得了99.15%和96.75%分类准确率。在浙江省肿瘤医院临床乳腺癌数据集BC-WCX2a上获得了95.18%的分类准确率和100%的敏感性。结论基于聚类分析的半监督学习方法能够有效利用未标记的质谱样本信息,与经典的监督学习算法相比,其分类性能更理想、实用性更好。 Objective To propose a classification method based on affinity propagation clustering and semi-supervised learning for the high-dimensional and redundant mass spectrometry data. Methods First,t-test was applied to extract part of component of the proteomic mass spectrometry data preliminarily. Then,the affinity propagation clustering was employed to extract the principal component. Finally,to take advantage of both labeled samples and unlabeled samples,semi-supervised learning was used to predict the labels. Results The classification accuracy of the algorithm proved to be 99. 15% and 96. 75% respectively in the public ovarian cancer database OC-WCX2 b and the public prostate cancer database PC-H4. In the clinical breast cancer database BC-WCX2 a of Zhejiang Cancer Hospital,the classification accuracy was 95. 18% and the sensitivity was 100%. Conclusion The experimental results demonstrate that the method of classification based on affinity propagation clustering and semi-supervised learning can effectively make use of the information from unlabeled mass spectrometry samples. Compared with the supervised learning method,it proves to be a more ideal method of classification and more practical.

作者祝磊曹凯敏游晓璐徐平应南娇

机构地区杭州电子科技大学生命信息与仪器工程学院

出处《航天医学与医学工程》 CAS CSCD 北大核心 2014年第5期367-372,共6页 Space Medicine & Medical Engineering

基金国家自然科学基金(60801054 61205200) 浙江省自然科学基金(LY12F01005)

关键词蛋白质质谱聚类分析半监督学习特征提取 proteomic mass spectrometry cluster analysis semi-supervised learning feature extraction

分类号 R318.04 [医药卫生—生物医学工程]

引文网络
相关文献

参考文献14

1刘军莲,李勇枝,高建义,盖玉清,王静,薛春美,辛冰牧.蛋白质组学技术研究进展[J].航天医学与医学工程,2009,22(2):151-156. 被引量：10
2Vorderwubecke S, Cleverley S, Weinberger SR, et al. Protein quantification by the SELDI-TOF-MS-based protein chip system[J]. Nat Methods, 2005, 2(5):393.
3Somorjai RL, Dolenko B, Baumgartner R. Class prediction and discovery using gene microarray and proteomics mass spectroscopy data: curses, caveats, cautions[ J]. Bioinforma- tics, 2003, 19 (12) : 1484-1491.
4Dueck D, Frey BJ. Clustering by passing messages between data points[J]. Science ,2007,315 (5814) :972-976.
5Zhu Xiaojin. Semi-supervised learning literature survey [D]. Madison : University of Wisconsin, 2007.
6王雪松,张晓丽,程玉虎.一种简洁局部全局一致性学习[J].控制与决策,2011,26(11):1726-1730. 被引量：7
7Zha Zhengjun, Mei Tao. Graph-based semi-supervised learning with multiple labels [ J ]. Visual hnage, 2009, 20 ( 2 ) : 97- 103.
8Yasui Y, Pepe M, Thompson M, et al. A data-analytic strategy for protein biomarker discovery : profiling of high dimensional proteomic data for cancer detection [J]. Biostatistics, 2003, 4(3) : 449-463.
9罗凯旋,钟凡,赵亮,贺福初.评估几种降维分类器应用于生物质谱数据的性能[J].中国科学：生命科学,2010,40(6):544-550. 被引量：3
10Pascal, Caroline T. Protein mass spectra data analysis for clinical biomarker discovery : a global review [J].Brief Bioin- form, 2011, 12(2) : 1_76-186.

二级参考文献59

1李伟红,龚卫国,陈伟民,梁毅雄,尹克重.基于SVM RFE的人脸特征选择方法[J].光电工程,2006,33(5):113-117. 被引量：4
2侯澍,胡林森,常明,吴江,张磊,李红杰.NGF诱导PC12细胞早期分化的DIGE分析[J].中风与神经疾病杂志,2006,23(1):52-54. 被引量：11
3张维冰,孟繁琼,张庆合,李彤.多维液相色谱-质谱用于酶解猪血蛋白中活性肽的研究[J].分析试验室,2006,25(10):36-39. 被引量：5
4孙玲,白洁,陈士岭,邱卓琳,张为青,杨杰,邢福祺.用蛋白质芯片-飞行时间质谱仪分析精液不液化患者精浆中相关蛋白质群[J].南方医科大学学报,2007,27(4):442-444. 被引量：2
5徐卉,常明,张磊,杜丹华,胡林森.6-羟基多巴胺诱导PC12细胞帕金森模型中GRP78表达的研究[J].中风与神经疾病杂志,2007,24(2):154-156. 被引量：3
6Adam B L, Vlahou A, Semmes O J, et al. Proteomic approaches to biomarker discovery in prostate and bladder cancers. Proteomics, 2001, 1: 1264--1270.
7Petricoin E F, Ardekani A M, Hitt B A, et al. Use of proteomic patterns in serum to identify ovarian cancer. Lancet, 2002, 359:572--577.
8Li J, Zhang Z, Rosenzweig J, et al. Proteomics and bioinformatics approaches for identification of serum biomarkers to detect breast cancer.Clin Chem, 2002, 48:1296--1304.
9Wu B, Abbott T, Fishman D, et al. Comparison of statistical methods for classification of ovarian cancer using mass spectrometry data. Bioinformatics, 2003, 19:1636--1643.
10Wagner M, Naik D N, Pothen A, et al. Computational protein biomarker prediction: a case study for prostate cancer. BMC Bioinformatics, 2004, 5:26.

共引文献19

1周东辉,赵付荣,袁子国,朱兴全,林瑞庆.蛋白质组学研究技术及其在弓形虫研究中的应用[J].畜牧与兽医,2011,43(2):91-94. 被引量：1
2赵楠,王桂媛,王玲姝,杨雪,李玉花.蛋白质组学关键技术研究进展[J].生物技术通讯,2011,22(4):580-583. 被引量：9
3程江虹,吴能利,黄开顺.蛋白质组学在药物及疾病标志物研究中的应用进展[J].世界科技研究与发展,2013,35(3):427-429.
4誉倩文,袁建辉,唐焕文.血清蛋白质组技术及其在预防医学中应用[J].中国职业医学,2013,40(3):267-269. 被引量：2
5游晓璐,祝磊,曹凯敏,韩斌.基于多步降维和半监督学习的蛋白质质谱特征提取算法[J].航天医学与医学工程,2013,26(4):312-316. 被引量：2
6周扬,戴曙光,葛丁飞.近红外光谱稀疏分量分析检测柴油品质参数[J].光学精密工程,2014,22(2):296-303. 被引量：5
7吴永波,薛建辉,李百炼.植物应答高温和干旱胁迫组学研究进展[J].科技导报,2014,32(13):70-73. 被引量：1
8赵志梅.基于代理模型和人工免疫系统的特征选择算法[J].计算机工程与设计,2014,35(6):2174-2178. 被引量：2
9白本督,范九伦.基于稀疏分解的局部全局一致性学习算法[J].西安邮电大学学报,2015,20(3):65-70. 被引量：3
10吴文峰,刘毅慧.高维蛋白质波谱癌症数据特征提取[J].生物信息学,2015,13(2):131-140. 被引量：1

同被引文献12

1高翠芳,吴小俊,张松顺.改进的半监督模糊聚类算法[J].控制与决策,2010,25(1):115-120. 被引量：7
2贺松林,张晖.基于K-means和Label Propagation的半监督网页分类[J].软件导刊,2011,10(2):49-51. 被引量：3
3王雪松,张晓丽,程玉虎.一种简洁局部全局一致性学习[J].控制与决策,2011,26(11):1726-1730. 被引量：7
4张钧伟,齐鸣鸣,许淑华.最小最大邻域阶构图方法[J].计算机工程与应用,2012,48(12):202-205. 被引量：1
5刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：131
6宗鸣,龚永红,文国秋,程德波,朱永华.基于稀疏学习的kNN分类[J].广西师范大学学报（自然科学版）,2016,34(3):39-45. 被引量：8
7王凯南,金立左.基于高斯混合模型的EM算法改进与优化[J].工业控制计算机,2017,30(5):115-116. 被引量：10
8周亚同,樊煜,陈子一,孙建成.Multimodality Prediction of Chaotic Time Series with Sparse Hard-Cut EM Learning of the Gaussian Process Mixture Model[J].Chinese Physics Letters,2017,34(5):22-26. 被引量：1
9马庆涛,尚国琲,焦新颖.基于BP神经网络的智慧城市建设水平评价研究[J].数学的实践与认识,2018,48(14):64-72. 被引量：9
10韩嵩,韩秋弘.半监督学习研究的述评[J].计算机工程与应用,2020,56(6):19-27. 被引量：20

引证文献2

1马敬山,魏东,任福全,李玉双.基于高斯混合和BP神经网络的卵巢癌质谱数据三分类模型[J].数学的实践与认识,2020,50(7):147-153. 被引量：1
2包婉莹,姚欢.一种基于最小最大邻域阶构图的半监督分类法[J].人工智能与机器人研究,2024,13(1):81-89.

二级引证文献1

1万志成,郑静.基于狄利克雷过程高斯混合模型的变分推断[J].杭州电子科技大学学报（自然科学版）,2021,41(5):54-61. 被引量：3

1游晓璐,祝磊,曹凯敏,韩斌.基于多步降维和半监督学习的蛋白质质谱特征提取算法[J].航天医学与医学工程,2013,26(4):312-316. 被引量：2
2王江,张惠源,李芳,张兵文,李鹏.脑机接口中半监督学习算法研究[J].电子测量技术,2014,37(5):9-12. 被引量：4
3杨合龙,祝磊,韩斌,厉力华,郑智国,孟旭莉.运用近邻传播聚类分析进行SELDI-TOF蛋白质谱特征选择[J].中国生物医学工程学报,2013,32(1):14-20. 被引量：5
4刘美春.脑-机接口系统的类协同式半监督学习[J].科学技术与工程,2013,21(19):5508-5512. 被引量：1
5张军伟,威力江.赛买提,木拉提.热夏提,安恒庆,王文光,张涛,张琼,王玉杰.应用蛋白质芯片技术在人血清中发现肾癌差异蛋白[J].新疆医科大学学报,2012,35(5):617-619. 被引量：1
6余庆邦,范明,王晓稼,郑智国,许沈华,陈占红,厉力华.基于SELDI-TOF蛋白质谱分析的乳腺癌TNM分期研究[J].生物医学工程研究,2015,34(1):7-10. 被引量：2
7吴建宁,伍滨.构建基于小波熵的自训练半监督支持向量机分类模型评价老年人步态[J].中国生物医学工程学报,2013,32(5):588-594. 被引量：4
8李芳,邱天爽,马征.脑电信号的小波特征提取及半监督识别方法的研究[J].中国生物医学工程学报,2010,29(5):648-653. 被引量：1
9邹丽雷,谷卫,陈益定.糖尿病患者尿液蛋白质质谱分析[J].中华内分泌代谢杂志,2008,24(2):185-187.
10杜宇慧,桂志国,刘迎军,陈芳芳.静息态脑功能网络分析的假设驱动和数据驱动方法综述[J].北京生物医学工程,2013,32(3):307-311. 被引量：3

航天医学与医学工程

2014年第5期

浏览历史

内容加载中请稍等...

基于聚类分析和半监督学习的蛋白质质谱数据分类被引量：2

参考文献14

二级参考文献59

共引文献19

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于聚类分析和半监督学习的蛋白质质谱数据分类 被引量：2

参考文献14

二级参考文献59

共引文献19

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于聚类分析和半监督学习的蛋白质质谱数据分类被引量：2