乳腺癌的医治方案以及预后基本由分期所决定。因此,能够准确定位患者所属的分期变得尤为重要。本文旨在探求可以通过基因表达数据预测患者的乳腺癌分期的方法。对数据集进行过采样,对数据较少的晚期样本进行有放回随机抽取至与早期样本...乳腺癌的医治方案以及预后基本由分期所决定。因此,能够准确定位患者所属的分期变得尤为重要。本文旨在探求可以通过基因表达数据预测患者的乳腺癌分期的方法。对数据集进行过采样,对数据较少的晚期样本进行有放回随机抽取至与早期样本同等大小的样本,获得平衡的分期数据。构建随机森林模型对平衡样本的分期进行预测,其准确率达到96.75%,模型的灵敏性和特异性分别为97.5%和89.3%。将随机森林模型与k-近邻、支持向量机方法相比,随机森林模型的AUC (Area Under Curve)值明显高于其他两种方法。采用十折交叉验证对随机森林预测模型进行评估,平均准确率为96.71%。最终结果表明随机森林模型具有良好的预测性能。对随机森林算法中重要性得分排名前200的基因进行功能富集分析,富集得到的通路多与乳腺癌相关,可以认为选用的基因表达数据预测分期有意义,从而为今后乳腺癌的治疗方法和预后提供了一定的依据。展开更多
文摘乳腺癌的医治方案以及预后基本由分期所决定。因此,能够准确定位患者所属的分期变得尤为重要。本文旨在探求可以通过基因表达数据预测患者的乳腺癌分期的方法。对数据集进行过采样,对数据较少的晚期样本进行有放回随机抽取至与早期样本同等大小的样本,获得平衡的分期数据。构建随机森林模型对平衡样本的分期进行预测,其准确率达到96.75%,模型的灵敏性和特异性分别为97.5%和89.3%。将随机森林模型与k-近邻、支持向量机方法相比,随机森林模型的AUC (Area Under Curve)值明显高于其他两种方法。采用十折交叉验证对随机森林预测模型进行评估,平均准确率为96.71%。最终结果表明随机森林模型具有良好的预测性能。对随机森林算法中重要性得分排名前200的基因进行功能富集分析,富集得到的通路多与乳腺癌相关,可以认为选用的基因表达数据预测分期有意义,从而为今后乳腺癌的治疗方法和预后提供了一定的依据。