摘要
目的 使用机器学习模型预测原发性肝内胆管癌患者生存期的研究还很有限。本文比较传统模型和机器学习模型在预测原发性肝内胆管癌患者生存期上的表现。方法 我们从SEER数据库检索了2004—2015年期间确诊原发性肝内胆管癌的患者。使用分层随机划分方法,在限制组间确诊年,年龄组和死亡比例平衡的条件下,将所有样本按7∶3的比例随机划分为训练集和验证集。候选模型包括Cox比例风险模型,LASSO Cox模型,Gradient Boosting模型,Oblique Random Survival Forest模型,DeepSurv模型,DNNSurv模型,Rpart模型,Parametric生存模型,Conditional Random Forest模型和Black Boost模型。我们使用Harrell′s concordance index(C-index)评价模型在预测患者生存期上的表现。我们使用log-rank检验比较Kaplan-Meier生存曲线的差异。结果 纳入研究的肝内胆管癌患者总计5564名,其中训练集3895名(死亡2851名,73.2%),验证集1669名(死亡1223名,73.3%)。生存月份中位数(四分位间距)分别为8(3~19)和8(3~18)。肝内胆管癌患者生存期预测表现最好的模型是Cox比例风险模型,其C-index为0.74。机器学习模型在预测肝内胆管癌患者生存期的任务上表现并不优于传统Cox比例风险模型。这可能是由于SEER数据库本身缺少影响生存期的重要因素,例如切口残余肿瘤状况,患者身体状况等,而限制了机器学习模型的预测表现。Cox比例风险模型显示,生存期的影响因素包括手术,性别,婚姻,分化等级,进展分级,AJCC分级,肿瘤大小,化学治疗和放射治疗。结论 机器学习模型在预测肝内胆管癌患者生存期的表现并不优于传统模型。我们建立的Cox比例风险模型及诺莫图能够较为准确的预测肝内胆管癌患者的生存期。
出处
《中国卫生统计》
CSCD
北大核心
2024年第4期586-593,共8页
Chinese Journal of Health Statistics