摘要
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。
出处
《计算机应用研究》
CSCD
北大核心
2020年第S02期176-180,共5页
Application Research of Computers
基金
国家自然科学基金资助项目(61532014,61571163)
大学生创新创业训练计划资助项目(201810712092)
陕西省引进博士专项配套经费资助项目
西北农林科技大学基本科研业务费专项资金资助项目(2452015060)