CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法被引量：1

CUDA-TP:A GPU-Based Parallel Algorithm for Top-Down Intact Protein Identification

下载PDF

导出

摘要蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白质质谱数据成为可能.目前基于TD质谱数据的完整蛋白质鉴定算法虽然在匹配精度、PTM位点的推断上取得了一些成效,但它们运行时间还有很大的不足和提升空间.利用图形处理器(graphics processing unit,GPU)可以将大规模的重复计算并行化,提高串行程序的执行速度.CUDA-TP算法基于通用并行计算架构(compute unified device architecture,CUDA)来计算蛋白质与TD质谱数据的匹配分数.首先,对每一个质谱数据,CUDA-TP利用优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(adelson-velskii and landis)树加速质谱匹配过程.GPU中的多线程技术被用来并行化谱图网格及最终数组中所有元素的前驱结点的求解.同时,该算法还使用target-decoy策略来控制蛋白质与质谱图匹配结果的错误发现率(false discovery rate,FDR).实验结果表明:CUDA-TP算法能够有效地加速完整蛋白质的鉴定,速度分别比MS-TopDown和MS-Align+快10倍与2倍.到目前为止,这是唯一能够利用CUDA架构来加速完整蛋白质鉴定的研究工作.CUDA-TP源代码公布在https://github.com/dqiong/CUDA-TP. Identifying proteins and their post-translational modifications are critical to the success of proteomics.Recent advances in mass spectrometry（MS）instrumentation have made it possible to generate high-resolution mass spectra of intact proteins.The existing algorithms for identifying proteins from top-down MS data are able to achieve good performance with respect to proteinspectrum matching precision and prediction accuracy of PTM locations,but their efficiencies in terms of running time are still far from satisfactory.Graphics processing unit（GPU）can be applied to parallelize large-scale replication computations and reduce the running time of serial programs.Based on compute unified device architecture（CUDA）,this paper proposes an algorithm called CUDA-TP for computing alignment scores between proteins and mass spectra.Firstly,CUDA-TP uses the optimized MS-Filter algorithm to quickly filter out proteins in the database that cannot possibly attain high score for a given mass spectrum,thus only a small number of candidate proteins are obtained.Then,an AVL tree is introduced into the algorithm to speed up the computation of protein-spectrum matching.Multi-thread technique on GPU is applied to get the previous diagonal points of all nodes in the spectra grid created from mass spectra and proteins as well as the final array.Meanwhile,this algorithm utilizes target-decoy approach to control false discovery rate（FDR）of proteins and mass spectral matching results. Experimental results demonstrate that CUDA-TP can significantly accelerate protein identification such that its running time is about 10 times and 2 times faster than that of MS-TopDown and MS-Align＋.To our knowledge,there are still no existing methods in the literature that can perform protein identification from top-down spectra using CUDA architecture.The source codes of the algorithm are available at https：//github.com/dqiong/CUDA-TP.

作者段琼田博陈征王洁何增有 Duan Qiong;Tian Bo;Chen Zheng;Wang Jie;He Zengyou(School of Software,Dalian University of Technology,Liaoning 116620;Key Laboratory for Ubiquitous Network and Service Software of Liaoning Province（Dalian University of Technology）,Dalian,Liaoning 116620)

机构地区大连理工大学软件学院辽宁省泛在网络与服务软件重点实验室(大连理工大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1525-1538,共14页 Journal of Computer Research and Development

基金国家自然科学基金项目(61572094) 中央高校基本科研业务费专项资金(DUT14QY07)~~

关键词 “自顶向下”蛋白质组学蛋白质鉴定图形处理器通用并行计算架构谱图比对 top down proteomics protein identification graphics processing unit （GPU） compute unified device architecture（CUDA） spectral alignment

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1孙瑞祥,罗兰,迟浩,刘超,贺思敏.“自顶向下(top-down)”的蛋白质组学--蛋白质变体的规模化鉴定[J].生物化学与生物物理进展,2015,42(2):101-114. 被引量：10
2王海鹏,付岩,孙瑞祥,贺思敏,曾嵘,高文.pepReap:基于支持向量机的肽鉴定算法[J].计算机研究与发展,2005,42(9):1511-1518. 被引量：2
3李涛,刘学臣,张帅,王恺,杨愚鲁.基于混合编程模型的支持向量机训练并行化[J].计算机研究与发展,2015,52(5):1098-1108. 被引量：2
4李哲,李占山,李颖.基于GPU的约束网络模型和并行弧相容算法[J].计算机研究与发展,2017,54(3):514-528. 被引量：4
5翟艳堂,涂强,郎显宇,陆忠华,迟学斌.基于CUDA的蛋白质翻译后修饰鉴定MS-Alignment算法加速研究[J].计算机应用研究,2010,27(9):3409-3414. 被引量：1

二级参考文献156

1孙瑞祥,董梦秋,迟浩,杨兵,秀丽蕴,王乐珩,付岩,贺思敏.基于电子捕获裂解/电子转运裂解串联质谱技术的蛋白质组学研究[J].生物化学与生物物理进展,2010,37(1):94-102. 被引量：15
2孙瑞祥,付岩,李德泉,张京芬,王晓彪,盛泉虎,曾嵘,陈益强,贺思敏,高文.基于质谱技术的计算蛋白质组学研究[J].中国科学（E辑）,2006,36(2):222-234. 被引量：15
3张庆丹,戴正华,冯圣中,孙凝晖.基于GPU的串匹配算法研究[J].计算机应用,2006,26(7):1735-1737. 被引量：15
4NA S J,JEONG J H,PARK H J,et al.Unrestrictive identification of multiple post-translational modifications from tandem mass spectrometry using an error-tolerant algorithm based on an extended sequence tag approach[J].Molecular and Cellular Proteomics,2008,7(12):2452-2463.
5TSUR D,TANNER S,ZANDI E,et al.Identification of post-translational modifications via blind search of mass-spectra[J].Nature Biotechnology,2005,23:1562-1567.
6FRANK A M.Algorithms for tandem mass spectrometry-based proteomics[D].San Diego:University of California,2008.
7MANAVSKI S A,VALLE G.CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment[J].BMC Bioinformatics,2008,9(Suppl 2):S10.
8NVIDIA Corporation.NVIDIA CUDA Programming Guide version 2.3.1[R].2009.
9FESTER T,SCHREIBER F,STRICKERT M.CUDA-based multi-core implementation of MDS-based bioinformatics algorithms[C]//Proc of German Conference on Bioinformatics.2009:67-79.
10NVIDIA Corporation.Tesla BIO Workbench-助力新型科学[EB/OL].[2010-03-11].http://www.nvidia.cn/object/tesla_bio_workbench_cn.html.

共引文献14

1于卫芳,张立玮,王士杰,郑树,余捷凯,王顺平,吴明利,郭晓青,高扬.高发区自然人群贲门癌血清蛋白指纹图诊断模型的建立及临床价值[J].临床荟萃,2006,21(12):841-844. 被引量：4
2邹家云,姜棋予,邬顺全,胡燕,陈凌声,杨锐创,柴燕涛,李晓娟,李瑞生,侯俊.两种胰蛋白酶酶解羊肌肉总蛋白样品的质谱分析[J].实验动物科学,2016,33(4):41-47.
3王幸,许妍妍,杨珅珅,王玉明,李遇伯.基于结局路径“top-down”策略的中药功效与物质基础研究思路[J].天津中医药大学学报,2019,38(2):109-113. 被引量：5
4李卫峰,阎德文,金宇,李海燕,马民,吴正治.质谱技术在糖尿病血液非酶促糖化蛋白分析中的应用进展[J].分析化学,2019,47(11):1732-1741. 被引量：3
5周敏,石莹莹,张凯林,张先燚,孔祥蕾.一种用于“自顶向下”质谱数据分析的软件及其在蛋白质光解离质谱中的应用[J].分析化学,2019,47(8):1153-1161. 被引量：4
6赵少东,王程斯.基于异构计算与实时可视化技术的综合能源大数据平台研究与应用[J].微型电脑应用,2019,35(11):96-99. 被引量：8
7黄华娟,韦修喜,周永权.基于模糊核聚类粒化的粒度支持向量机[J].智能系统学报,2019,14(6):1271-1277. 被引量：2
8和书航,陈路路,秦亮,戴晓艳,邱凯笛,陈涤凡,王晓东.糖尿病肾病蛋白质组学研究进展[J].中国科学：生命科学,2021,51(4):384-411. 被引量：4
9陈佳楠,李哲,李占山.基于多核CPU的表约束并行传播模式研究[J].软件学报,2021,32(9):2769-2782. 被引量：4
10胡馨月,丁晓丽,陈莹,张慧,李晶,梁成罡.人胰岛素及其类似物UPLC-MS/MS全序列分析研究[J].药物分析杂志,2022,42(1):13-22. 被引量：4

同被引文献2

1孙瑞祥,罗兰,迟浩,刘超,贺思敏.“自顶向下(top-down)”的蛋白质组学--蛋白质变体的规模化鉴定[J].生物化学与生物物理进展,2015,42(2):101-114. 被引量：10
2肖开捷,田志新.基于ProteinGoggle 2.0的组蛋白H4蛋白质变体的自上而下表征（英文）[J].色谱,2016,34(12):1254-1262. 被引量：2

引证文献1

1周敏,石莹莹,张凯林,张先燚,孔祥蕾.一种用于“自顶向下”质谱数据分析的软件及其在蛋白质光解离质谱中的应用[J].分析化学,2019,47(8):1153-1161. 被引量：4

二级引证文献4

1周敏,石莹莹,李树奇,张凯林,崔永亮,张森,张先燚,孔祥蕾.不同电荷态泛素蛋白离子的193 nm紫外光解离质谱[J].高等学校化学学报,2021,42(8):2436-2442. 被引量：2
2焦鲁杨,张凯林,杜梦颖,许一澄,李树奇,孔祥蕾.双光束光解离在牛泛素蛋白离子的自顶向下质谱分析中的应用研究[J].分析测试学报,2022,41(1):108-114. 被引量：1
3杨笑宇,贾珊珊,张娟,亓英华,胡雪雯,沈宝洁,钟鸿英.质谱光电离/解离技术和生物分子结构鉴定[J].化学进展,2021,33(12):2316-2333.
4刘红,陈一瑜,刘庆梅,张凌晶,曹敏杰,刘光明.水产品过敏原及其检测技术概述[J].中国食品学报,2024,24(2):454-466.

1汪神岳,刘强,王超然,侯长波.基于双目立体相机的室外场景三维重建系统设计[J].计算机测量与控制,2017,25(11):137-140. 被引量：5
2赵宝忠,庄荣华.阶段性功能锻炼操对乳腺癌术后患者康复效果的影响[J].双足与保健,2018,27(7):49-49.
3葛慧,程晓荣,范炤.空间–数字反应联合编码中的注意机制述评[J].心理学进展,2015,5(10):584-592.
4汪小寒,刘世杨,韩慧慧,罗永龙.Top-Down grid位置敏感哈希k匿名隐私保护[J].计算机应用研究,2018,35(8):2428-2430. 被引量：1
5唐坤杰,董树锋,宋永华.一种GPU-CPU异构运算框架加速的实时N-1交流潮流计算方法[J].中国电机工程学报,2018,38(15):4329-4338. 被引量：15
6王飞,蔡忠亮,蒋子捷,杨龙,徐智熙.移动环境下的矢量地图快速显示方法[J].测绘地理信息,2018,43(4):111-115. 被引量：6
7刘镇,孟腾腾,徐克辉.一种异步执行改进三维重构的并行方法[J].江苏科技大学学报（自然科学版）,2018,32(3):407-413. 被引量：1
8刘伟,刘书广,韩留福.蛋白质组学及其研究技术概述[J].生物学教学,2018,43(5):4-6. 被引量：7
9蔚德睿,马洁,解增言,白明泽,朱云平,舒坤贤.基于谱图库的蛋白质鉴定策略研究进展[J].生物工程学报,2018,34(4):525-536.
10乌日罕,杨绘舸.自助气象站地面气象观测数据缺测的处理[J].南方农业,2018,12(12):159-160. 被引量：1

计算机研究与发展

2018年第7期

浏览历史

内容加载中请稍等...

CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法被引量：1

参考文献5

二级参考文献156

共引文献14

同被引文献2

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法 被引量：1

参考文献5

二级参考文献156

共引文献14

同被引文献2

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法被引量：1