严重急性呼吸综合征冠状病毒2(SARS-COV-2)在2019年年底引起了新型冠状病毒肺炎(COVID-19)的全球大流行,冠状病毒跨物种传播到多种哺乳动物包括人类.因此,快速准确地预测冠状病毒宿主分类对于未来控制和防治流行病具有重要意义.本文从NC...严重急性呼吸综合征冠状病毒2(SARS-COV-2)在2019年年底引起了新型冠状病毒肺炎(COVID-19)的全球大流行,冠状病毒跨物种传播到多种哺乳动物包括人类.因此,快速准确地预测冠状病毒宿主分类对于未来控制和防治流行病具有重要意义.本文从NCBI(National center for biotechnology information)病毒数据库收集刺突蛋白序列,使用CD-HIT软件去除重复数据得到3216条序列,将其按照宿主分类分为6种样本,按照收集时间排序后以8∶2比例划分为训练集和测试集,使用分布描述符(CTDD)以及自然语言模型Seq2Vec来编码刺突蛋白序列特征,应用多种机器学习方法训练预测分类模型,并进行模型评估.在预测人类宿主方面,Seq2Vec-GCNN作为最佳模型其准确率高达99.37%,而在预测其他宿主分类时CTDD-RF表现极佳,准确率分别为猪类95.82%,禽类95.96%,骆驼98.33%,蝙蝠92.06%,其他哺乳动物94.01%.结果表明,使用机器学习方法基于刺突蛋白序列构建预测冠状病毒宿主分类模型是切实有效的.展开更多
文摘严重急性呼吸综合征冠状病毒2(SARS-COV-2)在2019年年底引起了新型冠状病毒肺炎(COVID-19)的全球大流行,冠状病毒跨物种传播到多种哺乳动物包括人类.因此,快速准确地预测冠状病毒宿主分类对于未来控制和防治流行病具有重要意义.本文从NCBI(National center for biotechnology information)病毒数据库收集刺突蛋白序列,使用CD-HIT软件去除重复数据得到3216条序列,将其按照宿主分类分为6种样本,按照收集时间排序后以8∶2比例划分为训练集和测试集,使用分布描述符(CTDD)以及自然语言模型Seq2Vec来编码刺突蛋白序列特征,应用多种机器学习方法训练预测分类模型,并进行模型评估.在预测人类宿主方面,Seq2Vec-GCNN作为最佳模型其准确率高达99.37%,而在预测其他宿主分类时CTDD-RF表现极佳,准确率分别为猪类95.82%,禽类95.96%,骆驼98.33%,蝙蝠92.06%,其他哺乳动物94.01%.结果表明,使用机器学习方法基于刺突蛋白序列构建预测冠状病毒宿主分类模型是切实有效的.