摘要
DNA序列的分类是生物信息学的主要研究任务之一,如何提取DNA序列中的特征是影响分类精度的重要因素。为了更好地保留序列中碱基的信息,本文提出了一种基于碱基距离和相关性的特征提取方法。以H1N1、H5N1、COVID-19等6种病毒作为研究对象,将DNA序列转化为特征向量,并用KNN算法对冠状和非冠状病毒进行分类。实验结果表明该方法能提高分类的准确率。据估计地球上约有1000万~1亿种生物,如此庞大的数据使得生物分类面临着巨大挑战[1],因此DNA序列的分类成为了人们的研究热点,也是当前生物信息学的主要研究任务之一。
出处
《数字技术与应用》
2023年第1期6-9,共4页
Digital Technology & Application
基金
深圳市高等院校稳定支持计划项目(89402060020)。