基于Spark的基因短序列比对模型被引量：2

A Scalable Distributed Computing Model for Biological Short Reads Mapping Algorithm

下载PDF

导出

摘要针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型。采用分而治之的策略将庞大的计算任务分割为多个互不重叠的小任务在分布式集群上并行执行。通过基于位置偏移量等分的数据分区算法实现数据的分发;通过将基因短序列封装入RDD数据集的方法实现了短序列的逐条处理;通过将基因比对算法传入RDD的Map函数的方法实现了基因序列的比对。计算模型的实现使得串行比对算法在分布式集群上可扩展,并显著降低了计算耗时,计算结果可与后续的生物信息分析工作相兼容。实验结果证明计算模型具有较好的稳定性和可扩展性,在Spark集群上取得了优秀的加速比。 Aiming at the long time-consuming problem of short reads mapping in bioinformatics analysis,a distributed computing model was designed using Spark platform,RDD data set and distributed file system HDFS.Using divide-and-conquer strategy,an enormous computing job was divided into several small tasks that do not overlap with each othe,r and executed in parallel in distributed cluster.Data distribution was implemented by data partitioning algorithm based on position offset,short sequences were processed by encapsulating them into RDD datasets,and short reads mapping was implemented by passing alignment algorithm into Map function of RDD.The implementation of the computing model makes the serial alignment algorithm scalable on distributed cluster,and significantly reduces the time-consuming.The results are compatible with the subsequent bioinformatics analysis work.The experimental results show that the computing model has good stability and scalability,and achieves excellent speedup ratio on the Spark cluster.

作者冯晓龙高静 FENG Xiao-long;GAO Jing(College of Computer and Information Engineering,Inner Mongolia Agricultural University,Hohhot Inner Mongolia 010018,China)

机构地区内蒙古农业大学计算机与信息工程学院

出处《计算机仿真》北大核心 2020年第2期231-236,共6页 Computer Simulation

基金国家自然科学基金(61462070)。

关键词基因序列比对短序列映射分布式计算并行计算 Gene sequence alignment Short reads mapping Distributed computing Parallel computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献21

1刘张,李坚,王超,蔡世民,唐明,黄琦,陈照辉.基于复杂城市道路网络的交通拥堵预测模型[J].电子科技大学学报,2016,45(1):17-25. 被引量：13
2韦清波,何兆成,郑喜双,陈昶佳,杨敬锋.考虑多因素的城市道路交通拥堵指数预测研究[J].交通运输系统工程与信息,2017,17(1):74-81. 被引量：31
3程山英.交通拥堵汽车流量准确预测仿真研究[J].计算机仿真,2017,34(10):123-126. 被引量：4
4顾荣,王善永,郭晨,袁春风,黄宜华.基于Spark的大规模语义规则后向链推理系统[J].中文信息学报,2018,32(3):120-134. 被引量：6
5陈忠辉,凌献尧,冯心欣,郑海峰,徐艺文.基于模糊C均值聚类和随机森林的短时交通状态预测方法[J].电子与信息学报,2018,40(8):1879-1886. 被引量：30
6曹洁,张丽君,侯亮,陈作汉,张红.基于信息熵加权的FCM交通状态识别研究[J].计算机应用与软件,2018,35(10):68-73. 被引量：8
7马菁,李力.RDD上扩展索引层优化的分布式K-means算法[J].计算机工程与应用,2019,55(1):161-167. 被引量：11
8陈天宇,张龙信,李肯立,周立前.Spark框架中RDD缓存替换策略优化[J].小型微型计算机系统,2019,40(6):1248-1253. 被引量：9
9邢一鸣,班晓娟,刘旭,尹航,沈晴.基于核超限学习机群组算法的交通拥堵预测[J].计算机科学,2019,46(11):241-246. 被引量：5
10晏雨婵,白璘,武奇生,叶珍.基于多指标模糊综合评价的交通拥堵预测与评估[J].计算机应用研究,2019,36(12):3697-3700. 被引量：18

引证文献2

1白小曼,冯永祥,李雷孝,张利平,马志强,王永生,王慧.针对城市道路拥堵的优化随机森林预测模型[J].科学技术与工程,2021,21(26):11205-11211. 被引量：11
2杨波,王宏杰,徐胜超,毛明扬,蒋金陵,蒋大锐.一种面向生物基因多序列比对算法的任务调度方法[J].计算机与现代化,2024(7):7-12.

二级引证文献11

1庄燕.轴承故障的全视角特征提取与模式诊断方法[J].机电工程,2022,39(3):344-349. 被引量：1
2王森,蔡小莉,鲍云飞,詹邦成.基于NPP/VIIRS夜间灯光图像的GDP智能预测模型研究[J].科学技术与工程,2022,22(8):3191-3201. 被引量：7
3吴苹,钟仪华,雍雪,张茜.数据挖掘方法在汽油辛烷值损失计算中的应用[J].科学技术与工程,2022,22(10):4046-4054.
4周丽,路雪鹏,尚娇,李亚坤.随机存储下多人拣选系统拥堵率研究[J].科学技术与工程,2023,23(14):5875-5886.
5秦绯.面向拥堵筛查决策应用的物联网云平台模型[J].山西交通科技,2023(3):132-134.
6龚晓岚,于孝美.实时交通大数据分析和可视化地理信息平台研究[J].贵州警察学院学报,2023,35(4):77-83.
7田佳,王德勇,师文喜.基于集合经验模态分解和随机森林的短时交通流预测[J].科学技术与工程,2023,23(29):12612-12619.
8汪孝之,牟凤云,张用川,王俊秀.利用出租车GPS轨迹数据进行短时交通流量预测:以重庆市解放碑街区为例[J].科学技术与工程,2023,23(28):12265-12274. 被引量：2
9何觅,杨发宇,苟源芳,蒋羽鹏.基于随机森林算法的电压暂降特征量预测研究[J].电工技术,2023(20):82-85. 被引量：1
10郭明娟,徐哈宁,肖慧,范凌峰,胡佳超,游丝露.基于双采样随机森林的临滑阶段的预测算法:以湖北黄石5号铁矿石治理地块为例[J].科学技术与工程,2024,24(14):5733-5741.

1黄福云,龙腾飞,杨芳芳,董锐.钢管混凝土单圆管拱模型重力失真影响振动台试验研究[J].工程力学,2019,36(12):52-61. 被引量：2
2张雨,林炳辉,李雨墨,罗彬,芦佳欣,舍志芳,刘志.基于树莓派的安全头盔视频稳像模块设计与实现[J].工业技术创新,2020,7(1):17-22. 被引量：1
3裴叶青,金晓萍,宋正河,刘龙灿.驾驶员脑力负荷计算系统的设计与实现[J].汽车工程,2019,41(11):1265-1272. 被引量：1
4杜威望,刘雅芳.中国股票市场泛谐音效应研究[J].投资研究,2019,38(9):108-124.
5温雨舟.一种移动边缘计算中最小总滞后时间的调度算法[J].软件工程与应用,2019,8(6):295-302.
6张润,冯云霞.基于改进Apriori算法的肺癌致病因素研究[J].计算机技术与发展,2020,30(2):143-147. 被引量：7
7郭剑岚,陈俞强.基于Stackelberg博弈的车载云计算任务卸载优化[J].计算机应用研究,2019,36(12):3752-3755. 被引量：4
8张夏童,任智源,胡锦涛,张怡,张海林.面向医疗大数据任务低时延需求的路径计算方案[J].西安交通大学学报,2020,54(2):119-126. 被引量：9
9陈天乐,蒲军,朱小杰,崔文娟,冯伟华,王锐,杜一,周园春.一种基于层次分割和聚合的大数据流水线任务处理方法[J].科研信息化技术与应用,2019,10(1):3-11.
10祁腾,曾林子,李文博,廖虹瑜,罗隆泽,杨小蓉,何树森.DNA条形码技术在1例社鼠鉴定中的应用[J].预防医学情报杂志,2020,36(2):209-211. 被引量：4

计算机仿真

2020年第2期

浏览历史

内容加载中请稍等...

基于Spark的基因短序列比对模型被引量：2

同被引文献21

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Spark的基因短序列比对模型 被引量：2

同被引文献21

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Spark的基因短序列比对模型被引量：2