摘要
目的通过生物信息学方法和机器学习算法挖掘基因表达综合数据库(Gene Expression Omnibus,GEO)中胰腺癌的关键表达基因,探究胰腺癌的诊断标志物。方法以GEO数据库获得的芯片数据集GSE15471、GSE16515作为训练组,GSE28735作为验证组,用于筛选出差异表达基因(Differentially Expressed Genes,DEGs)。利用套索算法(Least absolute shrinkage and selection operator,Lasso)与支持向量机的递归特征消除算法(Support Vector Machines with Recursive Feature Elimination,SVM-RFE)从DEGs中筛选出胰腺癌的关键表达基因,并在验证组中进行验证。采用受试者工作特征(Receiver Operating Characteristic,ROC)曲线的曲线下面积(Area Under Curve,AUC)评价关键表达基因的诊断效能。使用Kaplan-Meier生存曲线对关键表达基因进行预后生存分析。通过CellMiner数据库探究关键表达基因与药物敏感性之间关系。结果训练组中筛选得到123个DEGs,其中上调基因85个,下调基因38个。LASSO筛选获得19个特征基因,SVM-RFE筛选获得16个特征基因,两种算法取交集得到2个关键表达基因(ITGA2、KRT19)。ITGA2、KRT19在训练组中的AUC值分别为0.933和0.903,在验证组中的AUC值分别为0.900和0.903,均表现出了较高的敏感性与特异性。生存分析结果显示不同表达量的ITGA2(P=0.0019)、KRT19(P=0.0045)患者生存率有显著差异。药物敏感性分析显示,ITGA2,KRT19和多种肿瘤的化疗药物的耐药性增加有关(P<0.05)。结论通过生物信息学与机器学算法筛选出的关键表达基因与胰腺癌发生发展密切相关,可作为胰腺癌的诊断标志物在指导肿瘤靶向治疗方面发挥潜在作用。
出处
《现代消化及介入诊疗》
2023年第5期644-648,共5页
Modern Interventional Diagnosis and Treatment in Gastroenterology
基金
山西省重点研发计划项目(202102130501003)
山西省重点研发计划项目(201903D311011)
山西省回国留学人员科研资助项目(HGKY2019057)
山西医科大学省级博士基金项目(SD2229)
山西省研究生教育创新项目(2022Y426)。