基于Spark的转录组大数据并行处理方法被引量：2

Spark-based parallelized methods in processing big data of transcriptome

下载PDF

导出

摘要转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。

作者于建涛刘圣东赖灵伟吕同轩王嘉浩高小雨惠毅翔侯君瑶殷童郭茂祖 Yu Jiantao;Liu Shengdong;Lai Lingwei

机构地区西北农林科技大学信息工程学院华东交通大学信息工程学院北京建筑大学电气与信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2020年第S02期176-180,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61532014,61571163) 大学生创新创业训练计划资助项目(201810712092) 陕西省引进博士专项配套经费资助项目西北农林科技大学基本科研业务费专项资金资助项目(2452015060)

关键词 Spark集群并行处理转录组序列比对差异表达

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献28

1吴迪,饶靖雯,万磊.基于OPC UA的浮法玻璃生产可视化监测系统研究[J].数字制造科学,2022(4):282-286. 被引量：2
2江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
3王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
4丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
5张德胜,马正元,王伟玲.多品种小批量机械制造企业MES的研究[J].控制工程,2005,12(3):210-212. 被引量：9
6卜尧,吴斌,陈玉峰,白德盟.BDAP——一个基于Spark的数据挖掘工具平台[J].中国科学技术大学学报,2017,47(4):358-368. 被引量：9
7陈平阳.浅析基于Spark技术的网络安全大数据分析平台[J].福建电脑,2017,33(5):142-143. 被引量：3
8黄震,钱育蓉,范迎迎,杜娇.Spark下遥感大数据特征提取的加速策略[J].计算机工程与设计,2017,38(12):3279-3283. 被引量：7
9车宝真,蔚承建,万夕里,巩绪福.基于Spark平台的心电大数据分析处理[J].计算机工程与设计,2018,39(1):108-114. 被引量：9
10曾志强,何小东,王颖,吴鑫.基于Hadoop和Spark的森林火灾混合大数据分析系统研究[J].世界林业研究,2018,31(2):55-59. 被引量：17

引证文献2

1张海峰,魏可欣.一种基于Spark大数据处理平台的查询方法[J].南京邮电大学学报（自然科学版）,2021,41(4):82-90. 被引量：6
2崔之超,寇宇路,杨宇通,纪阳,涂小风.基于实时数据采集的多品种小批量生产线生产监控体系研究[J].科技风,2024(8):52-54.

二级引证文献6

1涂志炜.基于“互联网+”时代背景下智慧医院管理智能化、信息化建设与实践[J].通讯世界,2022,29(7):128-130.
2朱毓.基于Hadoop与Spark的大数据处理平台的构建研[J].互联网周刊,2023(7):87-89. 被引量：4
3张凤,卢居辉,朱海勇,吴文.一种Spark轻量级客户端实现方法研究[J].河南科技,2023,42(15):19-24. 被引量：1
4林峰.基于Docker容器与Spark技术的分布式判题系统[J].龙岩学院学报,2023,41(5):21-26.
5王显奇,肖海,董胜光,唐先龙.自然资源调查监测指标信息窗设计与实现[J].数字技术与应用,2024,42(7):152-154.
6卓柳俊,曾心怡.基于优化模糊C-means算法的不平衡大数据分类研究[J].信息技术,2024,48(10):14-21.

1兰州市黄河干流(雁儿湾)段防洪工程文理学院段挡墙浇筑全线完成[J].中国水电三局施工技术,2020(3):33-33.
2张伟宏,马雯,李富荣,葸静,金哲宇,崔学强,何瑞芬,张俊华,朴文花.不同新型冠状病毒核酸检测试剂性能比较分析[J].宁夏医学杂志,2020,42(10):913-916. 被引量：2
3地方注协工作[J].中国注册会计师,2020(12):46-46.
4徐江,张鸿宇,李军怀,冯连强,王怀军.基于滑动窗口的流数据并行处理方法[J].重型机械,2021(1):29-36. 被引量：4
5刘燕,高堃,吕嘉怡,何飞,罗显枫.基于BIM技术的土建及管线综合二次优化设计[J].智能建筑与智慧城市,2021(2):71-73. 被引量：2
6万鑫晨,胡水海,张骏雪.新型拓扑感知的参数交换方案[J].中兴通讯技术,2020,26(5):9-15.
7张帆.图像卷积实时计算的FPGA实现[J].电子设计工程,2021,29(1):132-137. 被引量：4
8周震,王辉,李俊峰.基于家族遗传算法的虚拟机放置策略[J].计算机工程与设计,2021,42(2):482-488. 被引量：3
9李晨阳,陈雄飞,张勇,王亚文,田中朝,王世功,赵珍阳,刘英,刘鹏宇.基于XGBoost的铝合金LIBS光谱分类识别方法[J].光谱学与光谱分析,2021,41(2):624-628. 被引量：10
10张晨跃,刘黎志,邓开巍,刘杰.基于MapReduce的朴素贝叶斯算法文本分类方法[J].武汉工程大学学报,2021,43(1):102-105. 被引量：6

计算机应用研究

2020年第S02期

浏览历史

内容加载中请稍等...

基于Spark的转录组大数据并行处理方法被引量：2

同被引文献28

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Spark的转录组大数据并行处理方法 被引量：2

同被引文献28

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Spark的转录组大数据并行处理方法被引量：2