期刊文献+

优化K-MER模型对生物序列进行聚类

Optimizing the K-mer Model for Clustering Biological Sequences
下载PDF
导出
摘要 基于K-mer的生物序列聚类算法是一种基于序列特征的聚类方法。纯粹的K-mer聚类算法运行速度较慢。为解决这个问题,本文提出了对生物序列聚类的优化KMER模型。首先以生物序列的K-mer频率为基础,将每个字符(A、C、G、T)分配一个两位的二进制数,通过位操作来构造K-mer的索引,然后使用Python的joblib库并行化getKmer函数的应用过程,最后通过K-means算法进行序列聚类。实验的结果证明,在保证准确性的前提下,优化后的KMER模型对生物序列聚类的时间减少了一半以上。 The K-mer based biological sequence clustering algorithm is a clustering method based on sequence features,and pure K-mer clustering algorithms run slowly.To address this issue,this article proposes an optimized KMER model for clustering biological sequences.Firstly,based on the K-mer frequency of biological sequences,each character(A,C,G,T)is assigned a two bit binary number,and the K-mer index is constructed through bit operations.Then,the application process of the getKmer function is parallelized using Python's joblib library.Finally,sequence clustering is performed using the K-means algorithm.The experimental results demonstrate that,while ensuring accuracy,the optimized KMER model reduces the clustering time of biological sequences by more than half.
作者 李莉 黄伟 赵佳旭 LI Li;HUANG Wei;ZHAO Jiaxu(Department of Information Engineering,Fuzhou Polytechnic,Fuzhou,China,350100)
出处 《福建电脑》 2024年第7期58-62,共5页 Journal of Fujian Computer
基金 福州职业技术学院校级科研项目(No.FZYKJJJYB202304)资助。
关键词 生物序列 聚类算法 位操作 并行化 Biological Sequences Clustering Algorithm Bit Operations Parallelization
  • 相关文献

参考文献3

二级参考文献10

共引文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部