期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Spark的转录组大数据并行处理方法
被引量:
2
1
作者
于建涛
刘圣东
+7 位作者
赖灵伟
吕同轩
王嘉浩
高小雨
惠毅翔
侯君瑶
殷童
郭茂祖
《计算机应用研究》
CSCD
北大核心
2020年第S02期176-180,共5页
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Sp...
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。
展开更多
关键词
Spark集群
并行处理
转录组
序列比对
差异表达
下载PDF
职称材料
题名
基于Spark的转录组大数据并行处理方法
被引量:
2
1
作者
于建涛
刘圣东
赖灵伟
吕同轩
王嘉浩
高小雨
惠毅翔
侯君瑶
殷童
郭茂祖
机构
西北农林科技大学信息工程学院
华东交通大学信息工程学院
北京建筑大学电气与信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2020年第S02期176-180,共5页
基金
国家自然科学基金资助项目(61532014,61571163)
大学生创新创业训练计划资助项目(201810712092)
+1 种基金
陕西省引进博士专项配套经费资助项目
西北农林科技大学基本科研业务费专项资金资助项目(2452015060)
文摘
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。
关键词
Spark集群
并行处理
转录组
序列比对
差异表达
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Spark的转录组大数据并行处理方法
于建涛
刘圣东
赖灵伟
吕同轩
王嘉浩
高小雨
惠毅翔
侯君瑶
殷童
郭茂祖
《计算机应用研究》
CSCD
北大核心
2020
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部