摘要
目的探讨常用的基因表达谱数据缺失值填充方法对于提高目前流行的基因表达谱数据分类器一支持向量机性能的影响。方法采用公开发表的酵母菌基因表达谱数据.及Ribo功能类作为类属性构成训练集。分别利用KNN法和类均值法对其缺失值进行填充后.基于完整的表达谱数据对SVMs模型进行训练。采用k折交叉验证法避免训练中的过拟合问题,绘制CV准确率等高线图监控模型参数的迭代。采用检验对所得模型的性能进行评价。结果KNN法填充下。SVMs模型的CV准确率维持在99.554%;类均值法填充下,SVMs模型的CV准确率从99、554%上升至99.635%。对于模型性能的统计学愉验显示.两者差异无统计学意义。结论根据模型性能的统计学检验结果,两种填充方法对于SVMs模型性能改善的差别没有统计学意义。研究者可以根据实验条件和基因表达谱数据的特点任意选取两种填充方法进行处理。