摘要
Cochran-Armitage趋势检验是在基因组分析中非常重要的算法,其主要被用来完成基因型频率差异的统计检验。针对传统串行Cochran-Armitage趋势检验算法的计算耗时高和资源占用率高的问题,本文提出了基于大数据技术的分布式并行化Cochran-Armitage算法。首先将数据存储至分布式文件系统HDFS。然后逐条读取数据记录并提交至集群执行并行化的Map阶段和Reduce阶段。实验结果表明,分布式并行化的Cochran-Armitage算法相比于传统串行Cochran-Armitage算法,具有更快的计算速度和更少的资源占用等优点。
出处
《电脑知识与技术》
2024年第3期78-84,共7页
Computer Knowledge and Technology