期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Spark的转录组大数据并行处理方法 被引量:2
1
作者 于建涛 刘圣东 +7 位作者 赖灵伟 吕同轩 王嘉浩 高小雨 惠毅翔 侯君瑶 殷童 郭茂祖 《计算机应用研究》 CSCD 北大核心 2020年第S02期176-180,共5页
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Sp... 转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。 展开更多
关键词 Spark集群 并行处理 转录组 序列比对 差异表达
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部