摘要
噬菌体病毒蛋白质分类是生物信息学热点问题之一。对朴素贝斯分类中的特征独立性假设以及病毒蛋白质特征提取问题,提出一种结合伪氨基酸组成(PAAC)和k间隔氨基酸组成(CKSAAP)的混合特征提取法,且将主成分分析朴素贝叶斯分类模型(PNBC)应用于噬菌体病毒蛋白分类问题。实证分析表明,相比于朴素贝叶斯和支持向量机模型,主成分分析朴素贝叶斯模型分类准确率达80%,效果最优。
The classification of phage virion proteins is one of the hot issues of bioinformatics.Concerning the assumption of feature independence in naive Bayes classification and the problem of viral protein feature extraction,this paper proposes a hybrid feature extraction method combining pseudo amino acid composition(PAAC)and k-spaced amino acid composition(CKSAAP)and applies the principal component analysis naive Bayes classification model(PNBC)to phage viral protein classification.The empirical analysis shows that compared with the naive Bayes classification and support vector machine models,the principal component analysis naive Bayes model has the best classification accuracy of 80%.
作者
徐思蓉
叶仁玉
冷婷
XU Sirong;YE Renyu;LENG Ting(School of Mathematics and Science,Anqing Normal University,Anqing 246133,China)
出处
《皖西学院学报》
2024年第2期44-48,共5页
Journal of West Anhui University
基金
安徽高校自然科学研究重点项目(KJ2019A0557)
安徽省研究生创新创业实践项目(2022cxcysj166)
安庆师范大学院级研究生学术创新项目(2021yjsXSCX041)。
关键词
主成分分析
朴素贝叶斯
噬菌体
蛋白质分类
Principal Component Analysis
naive Bayes
phage
protein classification