摘要
从蛋白质的二级结构序列出发 ,提出了冗余的概念 ,定义了冗余数量和冗余长度 ,给出了不同结构型蛋白的冗余数量和长度的分布特性 .统计结果表明 α类蛋白中 30 %、β类蛋白中84 %、α/β类蛋白中 95 %的序列不同程度的存在冗余 ,冗余数量和冗余长度主要分布在 1~ 3的范围 .以主二级结构序列三联体为参数 ,利用信息聚类方法对 α类、β类、α/ β类、α+ β类的6 0 0个蛋白进行了聚类 ,结果表明 ,对冗余较少的α类蛋白 85 %以上能够较好地聚类在一枝中 ,但对于冗余较多的其它类蛋白不能分在一个大支中 ,大部分可以分散在多个小支中 .以主二级结构序列三联体为参数 ,利用 Mahalanobis距离方法对上述四种结构型进行预测 ,预测的总体准确率为 81 .1 % .聚类结果和利用 Mahalanobis距离分类结果充分展示了蛋白质二级结构序列对结构型的特殊作用 ,但由于冗余的影响使得二级结构序列的信息并未充分显示出来 .
The concept of redundant secondary structure of a protein is proposed. The statistical result shows that about 30% α -class,84%? β -class and 95% α/β -class proteins have redundant structures. By use of the frequencies of structural triplets the clustering of 600 proteins has been done and the prediction method of structural class of a protein is given. The accuracy of prediction for four classes of proteins is 78%. It indicates the dominant rule of secondary structure sequence on the frame work structure of proteins.
出处
《内蒙古大学学报(自然科学版)》
CAS
CSCD
北大核心
2002年第1期21-25,共5页
Journal of Inner Mongolia University:Natural Science Edition
基金
国家自然科学基金
内蒙古自然科学基金资助项目