基于语言模型的蛋白质结构域边界预测方法

A method for predicting protein domain boundariesbased language models

下载PDF

导出

摘要蛋白质结构域对于蛋白质结构和功能研究具有重要意义。针对目前从头预测蛋白质结构域的方法普遍存在精度不高、耗费资源多等问题,提出了一种基于语言模型的蛋白质结构域边界预测方法DomTransformer,该方法基于蛋白质结构分类数据库(CATH)、蛋白质结构预测关键评估(CASP)竞赛数据,以及在AFDB(AlphaFold protein structure database)基础上建立的域数据库等共同构建数据集,搭建了基于Transformer网络架构和稀疏多头自注意力机制的网络模型,引入了新的特征、接触数和域级MSA(Domain multiple sequence alignment),通过直接预测结构域边界来解决数据不平衡等问题。在独立测试集上的测试结果表明了DomTransformer的有效性。 Protein domains are of great significance for the study of protein structure and function.The current methods for predicting protein structural domains from scratch generally have problems such as low accuracy and high resource consumption,a language model-based protein domain boundary prediction method,DomTransformer,was proposed.In this method,based on the classification database of protein structure(CATH),the key assessment of protein structure prediction(CASP)competition data and the domain database built on the basis of AFDB(AlphaFold protein structure database),the data set are jointly constructed.The network model based on Transformer network architecture and sparse multi-head self-attention mechanism is built and the new features such as contact numbers and domain-level MSA(Domain multiple sequence alignment)are introduced.Through directly predicting the boundaries of structural domains,the problem such as data imbalance can be solved.Test results on an independent test set demonstrate the effectiveness of DomTransformer.

作者张贵军汪乾梁彭春祥 HANG Guijun;WANG Qianliang;PENG Chunxiang(College of Information Engineering,Zhejiang University of Technology,Hangzhou 310023,China)

机构地区浙江工业大学信息工程学院

出处《浙江工业大学学报》 CAS 北大核心 2024年第5期521-529,共9页 Journal of Zhejiang University of Technology

基金国家重点研发资助项目(2019YFE0126100) 国家自然科学基金资助项目(62173304)。

关键词蛋白质结构域语言模型从头预测 protein domain language model ab initio prediction

分类号 TP389 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1高华兵,舒文迪,刘志.基于深度学习的城市快速路交通流预测方法[J].浙江工业大学学报,2022,50(4):406-412. 被引量：6
2余众泽,彭春祥,张贵军.蛋白质结构域边界网络流预测方法[J].小型微型计算机系统,2023,44(9):1892-1897. 被引量：1
3张贵军,侯铭桦,彭春祥,刘俊.多结构域蛋白质结构预测方法综述[J].电子科技大学学报,2022,51(6):820-829. 被引量：3

二级参考文献6

1邓海游,贾亚,张阳.蛋白质结构预测[J].物理学报,2016,65(17):169-179. 被引量：21
2曹成远,吕强.使用双向LSTM的深度神经网络预测蛋白质残基相互作用[J].小型微型计算机系统,2017,38(3):531-535. 被引量：17
3於东军,李阳.蛋白质残基接触图预测[J].南京理工大学学报,2019,43(1):1-12. 被引量：5
4王理同,薛腾腾,王惠敏,刘震.基于循环神经网络的股指价格预测研究[J].浙江工业大学学报,2019,47(2):186-191. 被引量：9
5孙国道,曹帝胄,梁荣华.神经网络驱动的交通流量预测可视分析方法[J].浙江工业大学学报,2019,47(5):573-580. 被引量：7
6周晓,唐宇舟,刘强.基于卡尔曼滤波的道路平均速度预测模型研究[J].浙江工业大学学报,2020,48(4):392-396. 被引量：27

共引文献7

1叶瑞云,许多,方顺.珠江口跨江通道客货交通流量分布特征及预测研究[J].公路,2023,68(1):242-248.
2孙志磊,唐俊洋,丰硕,刘炜,兰雪锋,张文珠,赵澄.基于深度强化学习的自适应股票交易策略[J].浙江工业大学学报,2024,52(2):188-195.
3闫尊强,梁毓豪,宋科林,滚双宝,王鹏飞.合作猪SIRT 3基因克隆、生物信息学分析及组织表达研究[J].中国畜牧兽医,2024,51(4):1390-1399. 被引量：1
4崔建勋,要甲,赵泊媛.基于深度学习的短期交通流预测方法综述[J].交通运输工程学报,2024,24(2):50-64. 被引量：1
5黄艳国,何烜,杨仁峥.基于双通道注意力机制的AE-BIGRU交通流预测模型[J].铁道科学与工程学报,2024,21(5):1774-1782.
6宋娜娜,葛杨,程海涛.城市内密集交通流行程时间预测数学建模仿真[J].计算机仿真,2024,41(6):211-215.
7朱海涛,夏瑜豪,张贵军.结构类似模板增强的端到端多域蛋白质组装方法[J].小型微型计算机系统,2024,45(8):1825-1831.

1刘迪一(编译),亚瑟明·萨普拉克奥卢.人工智能是蛋白质科学的终结者吗?[J].世界科学,2024(8):4-12.
2周耀旗.后AlphaFold 2时代:进展不断,新革命还在远方[J].世界科学,2024(8):15-15.
3王欣源,缪祥华,黄明巍,张世奇,张世杰.基于果蝇算法和卷积神经网络的入侵检测研究[J].化工自动化及仪表,2024,51(5):837-843.
4AI for Science:认知的技术性替代进入新时代[J].世界科学,2024(8):1-1.
5宋千千.急性心肌梗死PCI术后病人急性应激障碍现状及其与疾病感知和应对方式的相关性[J].中文科技期刊数据库（全文版）医药卫生,2024(10):0101-0105.
6杨涛,安然然,褚文志,姚禹.基于混合式多类特征选择暖气管道腐蚀程度研究[J].自动化与仪表,2024,39(9):15-20.
7岳俊峰,陈程.基于大数据的电话反诈预警系统效能研究[J].电子元器件与信息技术,2024,8(7):98-101.
8张淳淦,程淑华,姚欣怡.大学生正念与错失愉悦的关系:领悟社会支持与自我损耗的链式中介作用[J].齐齐哈尔高等师范专科学校学报,2024(4):76-79.
9纳建荣,严梅,褚娇娇,王一帆.基于梯度技术优化肺结核继发纤维纵隔炎引发的肺动脉高压的CT图像分析[J].中国病原生物学杂志,2024,19(9):1053-1056.
10李品,王畅,王莹.青少年心理弹性与日常创造力的关系:创造力自我效能感与创造力自我评价的链式中介作用[J].成都师范学院学报,2024,40(5):72-84.

浙江工业大学学报

2024年第5期

浏览历史

内容加载中请稍等...

基于语言模型的蛋白质结构域边界预测方法

参考文献3

二级参考文献6

共引文献7

相关作者

相关机构

相关主题

浏览历史