蛋白质折叠类型的分类建模与识别被引量：8

Classification Modeling and Recognition of Protein Fold Type

下载PDF

导出

摘要蛋白质的氨基酸序列如何决定空间结构是当今生命科学研究中的核心问题之一.折叠类型反映了蛋白质核心结构的拓扑模式,折叠识别是蛋白质序列-结构研究的重要内容.我们以占Astral 1.65序列数据库中α,β和α/β三类蛋白质总量41.8%的36个无法独立建模的折叠类型为研究对象,选取其中序列一致性小于25%的样本作为训练集,以均方根偏差(RMSD)为指标分别进行系统聚类,生成若干折叠子类,并对各子类建立基于多结构比对算法(MUSTANG)结构比对的概形隐马尔科夫模型(profile-HMM).将Astral 1.65中序列一致性小于95%的9505个样本作为检验集,36个折叠类型的平均识别敏感性为90%,特异性为99%,马修斯相关系数(MCC)为0.95.结果表明:对于成员较多,无法建立统一模型的折叠类型,基于RMSD的系统分类建模均可实现较高准确率的识别,为蛋白质折叠识别拓展了新的方法和思路,为进一步研究奠定了基础. The mechanism of how protein amino acid sequences determine protein structure is a core issue in biology.The protein fold type reflects the topological pattern of the structure′s core.Fold recognition is an important method in protein sequence-structure research.This article focuses on the 36 fold types that are not incorporated into the unified hidden Markov model（HMM） model but that account for 41.8% of α,β,and α/β protein′s in the Astral 1.65 sequence database.The training set contains samples that have less than 25% sequence identity with each other.We applied the hierarchical clustering method according to root mean square deviation（RMSD） and fold subgroups were generated.A profile-HMM based on a multiple structural alignment algorithm（MUSTANG） structure alignment was then built for each subgroup.After testing 9505 proteins with less than 95% sequence identity from the Astral 1.65 database,the average sensitivity,specificity and Matthew′s correlation coefficient（MCC） of the 36 fold types were found to be 90%,99% and 0.95,respectively.These results show that classification modeling according to RMSD is able to achieve precise fold recognition while a unified HMM cannot be built because there are too many elements in the training set.We have developed a new method and novel ideas to enable profile-HMM protein fold recognition and have laid the foundation for further research.

作者刘岳李晓琴徐海松乔辉

机构地区北京工业大学生命科学与生物工程学院

出处《物理化学学报》 SCIE CAS CSCD 北大核心 2009年第12期2558-2564,共7页 Acta Physico-Chimica Sinica

基金国家自然科学基金(30570427) 北京市自然科学基金(4092008)资助项目~~

关键词蛋白质折叠类型均方根偏差系统聚类隐马尔科夫模型折叠识别 Protein fold type RMSD Hierarchical clustering Profile-HMM Fold recognition

分类号 Q51 [生物学—生物化学]

引文网络
相关文献

参考文献3

1张玮,李晓琴,徐海松,任文科.蛋白质折叠类型识别方法研究[J].生物物理学报,2008,24(1):65-71. 被引量：5
2任文科,徐海松,李晓琴.Globin-like蛋白质折叠类型识别[J].生物化学与生物物理进展,2008,35(5):548-554. 被引量：8
3刘晓辉,李晓琴,徐海松,任文科.构建基于折叠核心的全α类蛋白取代矩阵[J].中国生物化学与分子生物学报,2008,24(8):761-766. 被引量：3

二级参考文献64

1施建宇,潘泉,张绍武,梁彦.基于支持向量机融合网络的蛋白质折叠子识别研究[J].生物化学与生物物理进展,2006,33(2):155-162. 被引量：19
2李菁,王炜.氨基酸残基归类及用简化后的字符识别蛋白质结构保守区域[J].中国科学（C辑）,2006,36(6):552-562. 被引量：1
3Schwartz R M, Dayhoff M O. Atlas of protein sequence and structure [J]. Nat Biomed Res Found, 1978, 5:353-358.
4Henikoff S, Henikoff J G. Amino acid substitution matrices from protein blocks [J]. Proc Natl Acad Sci USA, 1992, 89(22) :10915- 10919.
5Shi J, Blundell T L, Mizuguchi K. FUGUE: sequence-structure homology recognition using environment-specific substitution tables and structure-dependent gap penalties [ J ]. J Mol Biol, 2001, 310( 1 ) : 243-257.
6Rice D W, Eisenberg D. A 3D-ID substitution matrix for protein fold recognition that includes predicted secondary structure of the sequence [J]. J Mol Biol, 1997, 267(4):1026-1038.
7Topham C M, Srinivasan N, Blundell T L. Prediction of the stability of protein mutants based on structural environment dependent amino acid substitution and propensity tables [J]. Protein Eng, 1997, 10 (1):7-21.
8Topham C M, McLeod A, Eisenmenger F, et al. Fragment ranking in modelling of protein structure. Conformationally constrained environmental amino acid substitution tables [J]. J Mol Biol, 1993, 229(1) : 194-220.
9Liu X, Zheng W M. An amino acid substitution matrix for protein conformation identification [ J ]. J Bioinform Comput Biol, 2006, 4 (3) : 769-782.
10Ktunar S, Bansal M. Dissecting alpha-helices: position-specific analysis of alpha-helices in globular proteins [J]. Proteins, 1998, 31 (4) :460-476.

共引文献7

1李晓琴,刘岳,仁文科,乔辉.70种蛋白质折叠类型的单模型识别[J].生物物理学报,2009,25(S1):18-19.
2施建宇,张艳宁.使用图像特征构建快速有效的蛋白质折叠识别方法[J].生物物理学报,2009,25(2):106-116. 被引量：5
3刘岳,徐海松,乔辉,李晓琴.双绕蛋白质的分类与识别[J].生物信息学,2010,8(1):1-6. 被引量：1
4李晓琴,仁文科,刘岳,徐海松,乔辉.蛋白质折叠类型分类方法及分类数据库[J].生物信息学,2010,8(3):245-247. 被引量：5
5闫金丽,陈治伟,徐海松,李晓琴.基于功能域组分的蛋白质折叠类型识别[J].生物化学与生物物理进展,2011,38(2):166-172. 被引量：3
6李晓琴,仁文科,刘岳.利用隐马尔科夫模型识别蛋白质折叠类型[J].北京工业大学学报,2011,37(7):1103-1109.
7马帅,王勤,李晓琴.α/β类蛋白质折叠类型的分类方法研究[J].生物信息学,2014,12(2):123-132. 被引量：5

同被引文献184

1张玮,李晓琴,徐海松,任文科.蛋白质折叠类型识别方法研究[J].生物物理学报,2008,24(1):65-71. 被引量：5
2张明,路萍,田雷蕾,张武,杨兵,马於光.荧光共轭聚合物金属离子传感的机理研究[J].物理化学学报,2004,20(F08):924-929. 被引量：6
3刘颖超,张纪元.梯度下降法[J].华东工学院学报,1993(2):12-16. 被引量：43
4刘迎春,王琦,吕玲红,章连众.疏水性微孔中水的结构和扩散性质的分子模拟[J].物理化学学报,2005,21(1):63-68. 被引量：7
5程兆年,郏正明,张静,陈念贻.熔融CaF_2的径向分布函数[J].物理化学学报,1993,9(4):438-441. 被引量：1
6程兆年,郏正明,许立,陈念贻.熔融NaCaF_3、Na_2CaF_4和Na_3CaF_5的分子动力学模拟[J].物理化学学报,1994,10(8):676-679. 被引量：2
7张弢,谷廷坤,齐元华.AuCu_3熔体快速冷凝过程的微观结构演化[J].物理化学学报,2005,21(2):173-176. 被引量：2
8张爱龙,刘让苏,梁佳,郑采星.冷却速率对液态Ni凝固过程中微观结构演变影响的模拟研究[J].物理化学学报,2005,21(4):347-353. 被引量：12
9胡义华,张兴初,武华,王小涓,陈丽,刘海川,杨世和.复合物Mg^+-NCSCH_3光诱导反应[J].物理化学学报,2005,21(4):435-438. 被引量：2
10郑勇涛,刘玉树.支持向量机解决多分类问题研究[J].计算机工程与应用,2005,41(23):190-192. 被引量：52

引证文献8

1闫金丽,陈治伟,徐海松,李晓琴.基于功能域组分的蛋白质折叠类型识别[J].生物化学与生物物理进展,2011,38(2):166-172. 被引量：3
2樊迪,刘振明,金宏威,张亮仁.基于结合位点的辅酶A结合蛋白家族的分类[J].物理化学学报,2011,27(5):1223-1231. 被引量：1
3李晓琴,仁文科,刘岳.利用隐马尔科夫模型识别蛋白质折叠类型[J].北京工业大学学报,2011,37(7):1103-1109.
4单升升,闫超,徐亮.二面角动力学分析结合Zn^(2+)的淀粉样蛋白Aβ40和Aβ42的多态性特征[J].物理化学学报,2013,29(12):2630-2638. 被引量：1
5马帅,王勤,李晓琴.α/β类蛋白质折叠类型的分类方法研究[J].生物信息学,2014,12(2):123-132. 被引量：5
6宗立平,李晓琴.α类蛋白质折叠类型自动化分类研究[J].生命科学研究,2016,20(5):381-388.
7李晓琴,张春城.Bromodomain-like折叠类型模板的设计[J].北京工业大学学报,2016,42(10):1572-1580. 被引量：1
8马金林,石立,马自萍.基于灰狼优化算法的蛋白质二级结构分类[J].基因组学与应用生物学,2021,40(1):18-27.

二级引证文献10

1孔令强,李晓琴.基于特征片段信息的PH domain-like barrel 蛋白质折叠类型分类方法[J].生物信息学,2012,10(2):125-129. 被引量：3
2孙晓玲,金芩,王燕妮,蔡跃飘,王朝杰.脯氨酸与Zn^(2+/1+/0)相互作用及性质[J].物理化学学报,2014,30(6):1071-1085. 被引量：1
3马帅,王勤,李晓琴.α/β类蛋白质折叠类型的分类方法研究[J].生物信息学,2014,12(2):123-132. 被引量：5
4张春城,李晓琴.基于设计模板的BRD-like折叠类型综合分类方法[J].生物信息学,2016,14(2):100-107.
5宗立平,李晓琴.α类蛋白质折叠类型自动化分类研究[J].生命科学研究,2016,20(5):381-388.
6张业晓,李晓琴.SCOP数据库蛋白质折叠类型的自动分类分析[J].生物信息学,2017,15(2):78-83. 被引量：1
7刘力力,林子欣,胡锦赫,安基永,王佳,林善枝.山杏CAT家族基因的生物信息学预测及表达分析[J].分子植物育种,2018,16(22):7255-7263. 被引量：4
8吴亚楠,李贺,苏倩,王振铭,刘景,时一平.沙棘PAL家族基因的生物信息学分析[J].黑龙江农业科学,2019(4):15-17. 被引量：1
9徐世琦,李贺,邓伊亦,朱元玲,邓金兰.沙棘CAT家族基因的生物信息学分析[J].天津农业科学,2019,25(5):1-4. 被引量：2
10李书实,李赫,王萌,黄翠英.碱基对AT/GC与组氨酸/天冬酰胺侧链间氢键作用的优势位点[J].辽宁师范大学学报（自然科学版）,2019,42(3):354-362.

1李晓琴,仁文科,刘岳.利用隐马尔科夫模型识别蛋白质折叠类型[J].北京工业大学学报,2011,37(7):1103-1109.
2李晓琴,张春城.Bromodomain-like折叠类型模板的设计[J].北京工业大学学报,2016,42(10):1572-1580. 被引量：1
3孔令强,李晓琴.基于特征片段信息的PH domain-like barrel 蛋白质折叠类型分类方法[J].生物信息学,2012,10(2):125-129. 被引量：3
4刘福.Fischer-Tropsch合成产物分布统一模型[J].天然气化工—C1化学与化工,1990,15(5):39-45.
5陈莲惠,刘绍璞,杨睿.铝-铬天青S-Triton X-100光度法测定蛋白质(英文)[J].西南师范大学学报（自然科学版）,2004,29(2):235-239. 被引量：2
6王俊,邢丽丽,周鹏.蛋白质结构预测方法研究[J].黑龙江科技信息,2008(19):44-44. 被引量：1
7吴静珠,刘翠玲,陈岩,陈媛媛,隋淑霞.基于近红外光谱和系统聚类法的样品分类方法研究[J].农机化研究,2008,30(11):143-145. 被引量：2
8石伟民,陶京朝,吴健.卟啉及其衍生物合成进展[J].化学通报,2005,68(10):751-760. 被引量：4
9马成有,江东,孙卓,贾丹,张笑然.系统聚类法及其在铅形态分析中的应用[J].理化检验（化学分册）,2010,46(5):567-570. 被引量：1
10黄秋颖,刘春丽,孟祥茹.二维层状镉配合物的合成、结构及性能[J].南京理工大学学报,2017,41(1):108-115. 被引量：6

物理化学学报

2009年第12期

浏览历史

内容加载中请稍等...

蛋白质折叠类型的分类建模与识别被引量：8

参考文献3

二级参考文献64

共引文献7

同被引文献184

引证文献8

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

蛋白质折叠类型的分类建模与识别 被引量：8

参考文献3

二级参考文献64

共引文献7

同被引文献184

引证文献8

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

蛋白质折叠类型的分类建模与识别被引量：8