摘要
由于高通量测序技术产生了海量基因读段数据,并行的基因读段定位算法成为近年来的研究热点。对基因匹配算法进行研究,提出了一种基于MapReduce的基因读段定位改进算法,并且通过在读段定位过程中融入生物信息以及利用Hadoop分布式缓存机制,在一定程度上降低了算法的复杂度。在拟南芥菜基因数据集上进行的实验表明,该算法能够有效提高算法执行效率,减少算法执行时间。
Parallel read mapping algorithms become a hotspot in recent years, since the high-throughput sequence technology generates massive reads. Genetic matching algorithm was studied and an improved gene read mapping algorithm which could reduce the complexity of the algorithm by using Hadoop distributed cache mechanism and integrating biological information was proposed. The experimental results on the Arabidopsis gene data sets show that the proposed improved algorithm can effectively improve the algorithm efficiency and reduce the algorithm running time.
出处
《计算机科学》
CSCD
北大核心
2015年第8期82-85,共4页
Computer Science
基金
国家自然科学基金(61272222
61003116)
江苏省自然科学基金重点重大专项(BK2011005)
江苏省自然科学基金(BK2011782)
江苏省普通高校研究生科研创新计划项目(CXLX12_0415)资助