摘要
提出一种基于Yarn云平台的基因启发式多序列比对算法。建立核酸替换等价矩阵作为基因启发式数学模型,构建Yarn云平台逻辑架构,通过对基因数据预处理、基因数据存储、基因序列比对、基因数据管理、基因数据分析等步骤,对数据分类保存,划分错误率较高的长序列,得到多个较短的基因片段。对不同片段实施定位,将其中的变长种子生成,进行骨架构建和孔隙填补,可以实现基因启发式多序列比对。结果表明,设计的算法在不同数据集下处理时间缩短,多序列比对SP(Sum of Pairs)的分值较高,实验验证了该多序列比对方法具有很好的应用价值。
This paper proposes a gene heuristic multi sequence alignment algorithm based on the Yarn cloud platform.Establish a nucleic acid replacement equivalence matrix as a genetic heuristic mathematical model,construct the Yarn cloud platform logical architecture,and classify and save the data through steps such as gene data preprocessing,gene data storage,gene data alignment,gene data management,and gene data analysis.Divide long sequences with high error rates,and obtain multiple shorter gene frag‐ments.Implementing localization on different fragments,generating variable length seeds,constructing skeletons and filling gaps,can achieve gene heuristic multi sequence alignment.The results show that the designed algorithm reduces processing time on dif‐ferent datasets,and the sum of pairs(SP)score for multi sequence alignment is higher.This experiment verifies the practicality of the multi sequence alignment method.
作者
杨波
徐胜超
周继鹏
王志坚
Yang Bo;Xu Shengchao;Zhou Jipeng;Wang Zhijian(School of Artificial Intelligent,Guangzhou Huashang College,Guangzhou 511300,China;School of Information Science and Technology,Jinan University,Guangzhou 510632,China)
出处
《电子技术应用》
2024年第11期16-22,共7页
Application of Electronic Technique
基金
国家自然科学基金面上项目(61972444)
广州华商学院校内科研导师制项目资助(2023HSDS34)。
关键词
生物数据
并行计算
分布式计算架构
分布式数据库系统
大数据处理平台
biological data
parallel computing
distributed computing architecture
distributed database system
big data pro‐cessing platform