基于MapReduce的基因读段定位改进算法被引量：1

Improved Gene Read Mapping Algorithm Based on MapReduce

下载PDF

导出

摘要由于高通量测序技术产生了海量基因读段数据,并行的基因读段定位算法成为近年来的研究热点。对基因匹配算法进行研究,提出了一种基于MapReduce的基因读段定位改进算法,并且通过在读段定位过程中融入生物信息以及利用Hadoop分布式缓存机制,在一定程度上降低了算法的复杂度。在拟南芥菜基因数据集上进行的实验表明,该算法能够有效提高算法执行效率,减少算法执行时间。 Parallel read mapping algorithms become a hotspot in recent years, since the high-throughput sequence technology generates massive reads. Genetic matching algorithm was studied and an improved gene read mapping algorithm which could reduce the complexity of the algorithm by using Hadoop distributed cache mechanism and integrating biological information was proposed. The experimental results on the Arabidopsis gene data sets show that the proposed improved algorithm can effectively improve the algorithm efficiency and reduce the algorithm running time.

作者涂金金杨明郭丽娜

机构地区南京师范大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2015年第8期82-85,共4页 Computer Science

基金国家自然科学基金(61272222 61003116) 江苏省自然科学基金重点重大专项(BK2011005) 江苏省自然科学基金(BK2011782) 江苏省普通高校研究生科研创新计划项目(CXLX12_0415)资助

关键词读段定位 MAPREDUCE SeqMap Read mapping, MapReduce, SeqMap

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1Jiang H, Wong W H. SeqMap.. mapping massive amount of oli- gonucleotides to the genome[J]. Bioinformatics, 2008,24 (20) .. 2395-2396.
2Langmead B, Trapnell C, Pop M. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biol,2009,10(3) : 25.
3Wang K, Singh D, Zeng Z. MapSplice: accurate mapping of RNA-seq reads [or splice junction discovery[J]. Nucleic Acids Res,2010,38(18) : 178.
4王曦,汪小我,王立坤,冯智星,张学工.新一代高通量RNA测序数据的处理与分析[J].生物化学与生物物理进展,2010,37(8):834-846. 被引量：64
5Homer N, Merriman B, Nelson S F. BFAST: an alignment tool for large scale genome resequeneing[J]. PLoS One, 2009,4 (11) : 7767.
6Smith T F,Waterman M S. Identification of common molecular subsequences[J]. J Mol Bio1,1981,147(1) : 195-197.
7Dean J,Ghemawat S. MapReduce: Simplified data processing on large clusters[J]. ACM, 2008,51(1) : 137-150.
8Schatz M C. CloudBurst: highly sensitive read mapping with Map- Reduce[J]. Bioinformatics, 2009,25(11) : 1363-1369.
9涂金金,杨明,郭丽娜.基于MapReduce的基因读段定位算法[J].模式识别与人工智能,2014,27(3):206-212. 被引量：2

二级参考文献100

1Marioni J C, Mason C E, Mane S M, et al. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. Genome Res, 2008, 18(9): 1509-1517.
2Mortazavi A, Williams B A, McCue K, et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods, 2008, 5(7): 621-628.
3Nagalakshmi U, Wang Z, Waem K, et al. The transcriptional landscape of the yeast genome defined by RNA sequencing. Science, 2008, 320(5881): 1344-1349.
4Sultan M, Schulz M H, Richard H, et al. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. Science, 2008, 321(5891): 956-960.
5Wang E T, Sandberg R, Luo S, etal. Alternative isoform regulation in human tissue transcriptomes. Nature, 2008, 456(7221): 470-476.
6Birzele F, Schaub J, Rust W, et al. Into the unknown: expression profiling without genome sequence information in CHO by next generation sequencing. Nucleic Acids Res, 2010, doi: 10.1093/nar/ gkq 116.
7Sanger F, Nicklen S, Coulson A R. DNA sequencing with chain- terminating inhibitors. Proc Natl Acad Sci USA, 1977, 74 (12): 5463 -5467.
8Margulies M, Egholm M, Altman W E, et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature, 2005, 437(7057): 376-380.
9Shendure J, Ji H. Next-generation DNA sequencing. Nat Biotechnol, 2008, 26(10): 1135 1145.
10Ruparel H, Bi L, Li Z, et al. Design and synthesis of a 3'-O-allyl photocleavable fluorescent nucleotide as a reversible terminator for DNA sequencing by synthesis. Proe Natl Acad Sci USA, 2005, 102(17): 5932-5937.

共引文献64

1刘戈辉,韩泽刚,孙士超,张薇.转GhB301基因棉花响应枯萎病菌侵染的转录组分析[J].核农学报,2021,35(12):2733-2745. 被引量：3
2周扬,屈武斌,卢一鸣,杨毅,张成岗.TXT2DNA:基于DNA序列的文本编、解码及比对软件系统[J].军事医学,2011,35(4):315-317.
3ZENG ZhaoYang,HUANG HongBin,ZHANG WenLing,XIANC Bo,ZHOU Ming,ZHOU YanHong,MA Jian,YI Mei,LI XiaYu,LI XiaoLing,XIONG Wei,LI GuiYuan.Nasopharyngeal carcinoma:Advances in genomics and molecular genetics[J].Science China(Life Sciences),2011,54(10):966-975. 被引量：13
4黄宏斌,梁芳,熊炜,李小玲,曾朝阳,李桂源.生物信息技术加速开发旧药新用途[J].生物化学与生物物理进展,2012,39(1):35-44. 被引量：6
5吴一雷,闫鹏程,刘充,陈禹保,赵文明.基于高通量RNA测序数据分析的弹性云平台[J].生物技术进展,2012,2(1):52-56. 被引量：1
6邹权,李旭斌,林子雨,江弋,林琛.下一代测序技术数据中的选择性剪切计算识别方法研究[J].电子学报,2012,40(2):350-357.
7申欣,田美,朱长保,刘会莲,赵方庆.应用新一代测序技术测定大室别藻苔虫线粒体基因组全序列[J].海洋学报,2012,34(2):136-142.
8刘朋虎,邓优锦,江玉姬,谢宝贵.草菇PGAM基因克隆、结构及其在同核、异核菌株中的表达量分析[J].福建农业学报,2012,27(3):252-256. 被引量：8
9高山,张宁,李勃,徐硕,叶彦波,阮吉寿.下一代测序中ChIP-seq数据的处理与分析[J].遗传,2012,34(6):773-783. 被引量：5
10孙磊,张林,刘辉.基于RNA-Seq的长非编码RNA预测[J].生物化学与生物物理进展,2012,39(12):1156-1166. 被引量：5

同被引文献8

1Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
2The Apache Software Foundation. Hadoop[EB/OL]. (2015-07-08) [2015-09-10]. http://hadoop.apache.org/.
3JiaweiHan,MichelineKamber,lianPei.数据挖掘:概念与技术(第3版)[M].范明,孟小峰,译.北京:机械工业出版社,2012.
4江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
5郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012(7):37-42. 被引量：73
6张依杨,向阳,蒋锐权,张波,张君瑛.朴素贝叶斯算法的MapReduce并行化分析与实现[J].计算机技术与发展,2013,23(3):23-26. 被引量：8
7陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：118
8姚成玉,李男,冯中魁,陈东宁.基于粗糙集属性约简和贝叶斯分类器的故障诊断[J].中国机械工程,2015,26(14):1969-1977. 被引量：16

引证文献1

1周国军,程裕强,吴庆军.基于Hadoop的并行朴素贝叶斯分类算法[J].玉林师范学院学报,2015,36(5):105-110.

1杨凌云,冯友宏.垂直交点APIT定位改进算法[J].长春工业大学学报,2014,35(1):96-100. 被引量：1
2黄富洁,李玉忱,巩垒.决策支持系统中的分布式缓存机制[J].计算机工程,2004,30(13):58-59. 被引量：1
3涂敬伟,皮建勇.基于MapReduce和分布式缓存的KNN分类算法研究[J].微型机与应用,2015,34(2):18-21. 被引量：2
4杨若冰,马严.命名数据网络中的转发策略研究[J].新型工业化,2015,5(10):59-67. 被引量：2
5田金鹏,施惠昌.无线传感器网络节点定位改进算法[J].上海大学学报（自然科学版）,2009,15(3):225-229. 被引量：5
6吴楠,刘方爱,王淑娴.基于跳数修正和跳距调整的DV-Hop定位改进算法[J].微电子学与计算机,2015,32(1):91-95. 被引量：2
7惠丽,玄萍,阚忠良,姜琳.基于跳数的传感器网络节点定位改进算法[J].黑龙江大学自然科学学报,2010,27(6):792-795.
8雷景生,郝阳阳,郝伟.无线传感器网络的定位改进算法[J].上海电力学院学报,2015,31(1):73-76. 被引量：1
9李雨童,姚登举,李哲,侯金利.基于R的医学大数据挖掘系统研究[J].哈尔滨理工大学学报,2016,21(2):38-43. 被引量：7
10孔英会,杨青青.基于WSN的定位算法研究及改进[J].测控技术,2014,33(7):102-105.

计算机科学

2015年第8期

浏览历史

内容加载中请稍等...

基于MapReduce的基因读段定位改进算法被引量：1

参考文献9

二级参考文献100

共引文献64

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的基因读段定位改进算法 被引量：1

参考文献9

二级参考文献100

共引文献64

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的基因读段定位改进算法被引量：1