疾病相关的蛋白质与配体DNA分子结合区域的分析与预测

Analysis and Prediction of Binding Regions of Disease-related Proteins and DNA Molecules

导出

摘要很多细胞的生命活动涉及到特定的DNA分子与蛋白质相互作用,而且这些相互作用与人类很多疾病的产生密切有关。为了了解蛋白质与DNA分子结合的分子机制,确定蛋白质序列中哪些残基与DNA分子结合是非常重要的。但是目前,精确识别蛋白与DNA分子结合残基还很困难。在这项研究中,我们将使用机器学习算法来预测疾病相关蛋白与DNA分子的结合区域,这为下一步精确识别结合位点奠定了基础。预测模型中使用的数据集来自于Uniprot和PDB数据库,我们提取位置特异性打分矩阵(PSSM)、氨基酸的理化指数为特征,利用随机森林算法、5折交叉检验结果得到:在使用103种理化指数作为特征时,预测总精度最高达到94%,精确率、召回率以及马氏相关系数分别为88%、75%和0.78。可见该模型对于疾病相关的蛋白与DNA分子的结合区域是有较好的识别能力。 The interactions of specific DNA molecules with proteins are involved in many cellular activities,and these interactions are closely related to many human diseases.In order to understand the molecular mechanism of proteins bind to DNA molecules,it is important to identify which residues in the biomolecular structure bind to DNA molecules.However,it is difficult to accurately identify the binding residues of proteins to DNA molecules.In this study,we will use machine learning algorithms to predict the binding regions of disease-associated proteins to DNA molecules,which lays the foundation for the next step of precise identification of binding sites.In this paper,the datasets used in the prediction models were extracted from Uniprot and PDB databases,and the location-specific scoring matrix(PSSM)and the physicochemical indices of amino acids were extracted as features,we extracted the location-specific scoring matrix(PSSM)and the physicochemical indexes of amino acids as the features,and used the random forest algorithm,5 fold cross-test results showed that the total accuracy reaches 94%when 103 physical and chemical indexes are used as characteristics,and the precision,recall and Markov correlation coefficient are 88%,75%and 0.78 respectively.It is obvious that this model has a good ability to recognize the binding regions of disease-related proteins and DNA molecules.

作者冯永娥孙鹏哲 FENG Yong′e;SUN Pengzhe(College of Science,Inner Mongolia Agricultural University,Hohhot 010018,China)

机构地区内蒙古农业大学理学院

出处《内蒙古农业大学学报（自然科学版）》 CAS 北大核心 2024年第1期57-62,共6页 Journal of Inner Mongolia Agricultural University(Natural Science Edition)

基金国家自然科学基金项目(62262050) 国家自然科学基金专项项目(62141204)

关键词疾病相关的蛋白质位置特异性打分矩阵蛋白质与配体DNA分子结合机器学习算法 Disease-associated proteins Position-specific scoring matrix Proteins bind to DNA molecules Machine learning algorithm

分类号 Q61 [生物学—生物物理学]

引文网络
相关文献

参考文献2

1阿力古恩,付和平,武晓东,查木哈,张福顺,张晓东.内蒙古荒漠区大沙鼠种群动态与植物地上生物量相关性分析[J].内蒙古农业大学学报（自然科学版）,2013,34(3):83-86. 被引量：3
2李凤敏,王晓茜,王星支.基于两层分类器的抗微生物肽种类预测[J].内蒙古农业大学学报（自然科学版）,2014,35(4):148-152. 被引量：2

二级参考文献34

1李景俊,阿布力米提.阿不都卡迪尔.大沙鼠种群生态及行为生态学研究进展[J].干旱区研究,2004,21(4):451-454. 被引量：5
2赵天飙,杨持,周立志,张忠兵,靳飞虎,宁恕龙.中国大沙鼠生态学研究进展[J].内蒙古大学学报（自然科学版）,2005,36(5):591-596. 被引量：14
3赵天飙,周立志,张忠兵,靳飞虎,邬建平,宁恕龙.大沙鼠栖息地植被类型和洞群面积的初步研究[J].安徽大学学报（自然科学版）,2006,30(3):91-94. 被引量：5
4黄彬,聂金婵.东阿拉善自然保护区天然梭梭林鼠害防治技术[J].内蒙古林业调查设计,2006,29(3):40-44. 被引量：8
5张松,黄波,夏学峰,孙之荣.蛋白质亚细胞定位的生物信息学研究[J].生物化学与生物物理进展,2007,34(6):573-579. 被引量：39
6程晖.荒漠里的梭梭林[N].中国经导报(第B07版),2010.
7夏武平.带岭林区小型鼠类数量动态的研究[J].动物学报,1964,16(3):339-353.
8张忠兵,赵天飙,李新民,张春福,齐林,武耀峰.大沙鼠鼠洞分布格局的初步研究[J].动物学杂志,1997,32(3):26-28. 被引量：11
9K. V. R. Reddy, R. D. Yedery, C. Aranha. Anitimicrobial peptides : premises and promises [ J ]. International Journal of Antimicrobial Agents. 2004,24 (6) : 536 - 547.
10H. G. Boman, I. Nisson, B. Rasmuson. Inducible antibacterial defense system in Drasophial [ J ]. Nature. 1972,237 : 232 - 235.

共引文献3

1刘志威.我国西北荒漠干旱地区啮齿动物群落研究[J].现代农业科技,2015(22):304-305.
2刘江,徐先英,张荣娟,丁爱强,付贵全,赵鹏.人工梭梭(Haloxylon ammodendron)林大沙鼠(Rhombomys opimus)鼠洞空间格局[J].中国沙漠,2017,37(6):1180-1188. 被引量：8
3邹向辉,冯永娥.基于氨基酸理化特征识别疾病相关的蛋白质与金属离子配体的结合位点[J].内蒙古农业大学学报（自然科学版）,2024,45(2):78-85.

1冯永娥,孙鹏哲,张强.固有无序蛋白与结合配体作用位点的分析与预测[J].内蒙古大学学报（自然科学版）,2023,54(4):442-448. 被引量：1
2黄安琦,魏志森.基于改进的卷积神经网络与支持向量机集成实现DNA结合蛋白预测CNN-SVM[J].科学与信息化,2023(14):143-147.
3王佳丽,马国霞,杨永秀.N6-甲基腺苷在肿瘤细胞有氧糖酵解中作用的研究进展[J].癌症进展,2024,22(8):826-828.
4王若林,郭智慧,曾泽香.大学生同伴关系与学习投入的关系:学校归属感的中介作用[J].心理月刊,2024(7):56-58.
5田虹,陈颖,唐力,顾昊.膀胱癌ceRNA网络的构建和相关lncRNAs的筛选[J].中国科技论文在线精品论文,2024,17(2):213-223.
6包哲隈,胡舒楠,杨兰珠,喻文娟,杨靖亚.基于网络药理学探讨黄芪甲苷作为保健食品对慢性萎缩性胃炎调节作用[J].食品与发酵工业,2024,50(12):284-291. 被引量：1
7宋泽龙,吉旭彬,孙金川,曲玉婷,高萌,孙祥耀,王翔宇.基于网络药理学分析及分子对接探究玉屏风散促进创口愈合机制[J].滨州医学院学报,2024,47(3):217-222.
8卜佳乐,王玉琴,谢宜欣,陈建淑,李勇男,张小卫.环状RNA在阿霉素心脏毒性中的生物学作用[J].中国细胞生物学学报,2024,46(5):1053-1062.
9王津,余桂香,高义昆,古丽娟.缺血性脑卒中内质网应激相关生物标志物的筛选[J].卒中与神经疾病,2024,31(3):251-260.
10刘洋,张新宇,荣琼,亓明月,郭慧.HAX1的生物学特性及其与临床疾病关系[J].中国细胞生物学学报,2024,46(5):1045-1052.

内蒙古农业大学学报（自然科学版）

2024年第1期

浏览历史

内容加载中请稍等...

疾病相关的蛋白质与配体DNA分子结合区域的分析与预测

参考文献2

二级参考文献34

共引文献3

相关作者

相关机构

相关主题

浏览历史