目的本研究提出了融合生物学通路的变分自编码器(variational auto encoder,VAE),对蛋白质与代谢组学数据进行整合分析,并应用于肺腺癌患者探索可能的病理机制。方法为VAE的隐变量层节点赋予通路的实际意义,解码器按通路包含的生物学分...目的本研究提出了融合生物学通路的变分自编码器(variational auto encoder,VAE),对蛋白质与代谢组学数据进行整合分析,并应用于肺腺癌患者探索可能的病理机制。方法为VAE的隐变量层节点赋予通路的实际意义,解码器按通路包含的生物学分子信息构建稀疏神经网络,使通路节点只与自身包含的分子连接,将隐变量作为提取的高级特征。对隐变量进行Kmeans聚类分析并使用调整兰德系数评估效果,引入基因差异表达分析方法limma探索差异表达通路,在北京大学人民医院胸外科肺腺癌患者的蛋白质与代谢组学数据中进行实例分析。结果融合生物学通路的VAE提取的高级特征不仅将聚类准确度提高了38%,还通过差异表达分析鉴别出了实性与亚实性结节肺腺癌间的差异通路。结论融合生物学通路的VAE可用于组学数据整合分析,其提取的高级特征具有通路表达活性的实际生物学意义。展开更多
目的基于特征筛选算法探索利用胸腔积液和血清中CEA、CA125、CA153和CA199四种肿瘤标志物的组合与筛选对鉴别良、恶性胸腔积液的诊断价值。方法收集北京朝阳医院和武汉某医院收治的胸腔积液患者共452例,其中恶性胸腔积液患者143例、良...目的基于特征筛选算法探索利用胸腔积液和血清中CEA、CA125、CA153和CA199四种肿瘤标志物的组合与筛选对鉴别良、恶性胸腔积液的诊断价值。方法收集北京朝阳医院和武汉某医院收治的胸腔积液患者共452例,其中恶性胸腔积液患者143例、良性胸腔积液患者309例;取胸腔积液及配对血清标本,用化学发光法检测CEA、CA125、CA153和CA199浓度,辅以患者性别、年龄和医院所在城市三项人口学变量,首先应用独立性检验进行变量初筛,而后应用带惩罚项的逻辑回归和基于逻辑回归的模拟退火算法和遗传算法进行标志物筛选,根据受试者工作特征曲线下面积(area under the curve,AUC)和DeLong检验进行模型诊断效果的评估和比较。结果特征筛选结果以及回归系数和SHAP(shapley additive explanations)值一致表明胸腔积液CA199、CA153联合血清CEA为最优肿瘤标志物组合;在测试数据集上,该指标组合达到最高诊断精度(AUC=0.923),显著高于最优单标志物模型(AUC=0.877,P<0.001)和全标志物模型(AUC=0.906,P=0.044),灵敏度和特异度分别达到0.811和0.939。结论多项肿瘤标志物的联合应用相较单一标志物能够显著提升模型诊断精度,且合理的标志物筛选策略对提升诊断精度和简化模型有进一步帮助;本文推荐联合胸腔积液中CA199和CA153以及血清中CEA来建立诊断模型,并提供了该模型的列线图和实用化的网页计算器,为辅助临床诊断提供便利。展开更多
目的基于统计学习方法探讨癌胚抗原(carcinoembryonic antigen,CEA)、糖链抗原(carbohydrate antigen,CA)125、CA15-3和CA19-9四种肿瘤标志物的不同联合对鉴别良恶性胸腔积液的诊断价值。方法收集北京和武汉两家医院共319例患者的胸腔...目的基于统计学习方法探讨癌胚抗原(carcinoembryonic antigen,CEA)、糖链抗原(carbohydrate antigen,CA)125、CA15-3和CA19-9四种肿瘤标志物的不同联合对鉴别良恶性胸腔积液的诊断价值。方法收集北京和武汉两家医院共319例患者的胸腔积液标本及配对血清标本,应用化学发光法检测CEA、CA125、CA15-3及CA19-9在血清及胸腔积液中的浓度,采集患者的性别、年龄等协变量信息,分别应用logistic回归、随机森林和支持向量机三种方法建立联合诊断模型,通过受试者工作特征(receiver operating characteristics,ROC)曲线分析比较其诊断价值。结果使用支持向量机方法,获得胸腔积液中CEA+CA19-9的联合诊断对应的ROC曲线下面积(areas under the curve,AUC)值最大(0.92,P<0.001),灵敏度最高(0.82),特异度为0.96,AUC值比单一肿瘤标志物诊断最优值提高了1.6%,灵敏度提高了3.8%;使用logistic回归方法,获得胸腔积液中CEA+CA15-3+CA19-9联合诊断对应的AUC值达到0.91(P<0.001),比单一肿瘤标志物最优模型AUC值提高了5.7%,灵敏度提高13.2%,特异度提高4.3%;3.使用随机森林方法,最优灵敏度达到0.82,最高AUC值为0.89(P<0.001),比单一肿瘤标志物最优模型AUC值提高了5.1%,灵敏度提高6.5%,特异度提高3.3%。结论相比单一肿瘤标志物诊断,联合多肿瘤标志物的诊断能够提高诊断精度,但是提高幅度不大。基于支持向量机方法,使用胸腔积液中单一肿瘤标志物CEA即可达到较好的良、恶性胸腔积液诊断效果。综合考虑患者就医的经济负担和就医体验等因素,本研究不推荐使用多肿瘤标志物的联合诊断。展开更多
目的利用带有缺失基因型观测的家族关联数据(correlated family data,CFD)和全基因组关联研究(genome-wide association study,GWAS)探索阿尔茨海默病的潜在致病基因及关联强弱。方法研究人群来自华盛顿高地-英伍德哥伦比亚老龄化项目(W...目的利用带有缺失基因型观测的家族关联数据(correlated family data,CFD)和全基因组关联研究(genome-wide association study,GWAS)探索阿尔茨海默病的潜在致病基因及关联强弱。方法研究人群来自华盛顿高地-英伍德哥伦比亚老龄化项目(Washington Heights-Inwood Columbia Aging Project,WHICAP),该项目收集了先证者的基因型信息,并通过调查访谈收集了先证者及其家庭成员的人口统计学信息。本研究纳入352名先证者和820名关联家庭成员共1172人,首先利用家族结构信息和孟德尔遗传定律估计家庭成员缺失基因型的概率分布,然后应用混合效应logistic回归模型,并利用极大似然估计和EM算法估计基因效应值。最后,将分析结果分别与仅用先证者信息的logistic回归模型和使用主成分校正的模型进行对比。结果该GWAS+CFD研究新发现了7个显著的单核苷酸多态性(single nucleotide polymorphisms,SNP)位点,其中4个SNPs对应已知的基因位点,分别为rs 7918428(DNAJC12,OR=2.362,P=1.82×10-9),rs 6135509(MACROD2,OR=2.238,P=7.40×10-9),rs 4750496(FRMD4A,OR=2.454,P=1.12×10-8),rs4721323(MAD1L1,OR=1.593,P=2.04×10-8),另外3个为新发现的SNP位点:rs 764009(OR=2.321,P=2.23×10-8),rs 7593443(OR=1.745,P=2.83×10-8)和rs 2170560(OR=2.603,P=3.11×10-8)。相比于其他方法,本研究提出的方法能获得最小的基因膨胀系数(λ=1.007)。结论本研究提出了一种新型混合效应logistic回归模型来进行带有缺失基因型观测的家族关联数据全基因组关联分析,通过加入多层随机效应有效控制了混杂因素,能显著提高检出遗传变异的能力。该方法发现了多个阿尔茨海默病的潜在致病风险位点,将有助于后续的疾病通路探索,也为疾病检测和治疗药物的研发提供了更多可能性。展开更多
基于群数据的科学研究在医学健康照护领域备受关注。群数据指由多个数据集组成的数据集群。群数据具有明显的群特性,即不同数据集间个体的异质性。为了规范基于群数据的研究报告模式,研究人员于2022年11月在The BMJ发表了“Transparent ...基于群数据的科学研究在医学健康照护领域备受关注。群数据指由多个数据集组成的数据集群。群数据具有明显的群特性,即不同数据集间个体的异质性。为了规范基于群数据的研究报告模式,研究人员于2022年11月在The BMJ发表了“Transparent reporting of multivariable prediction models developed or validated using clustered data:TRIPOD‑Cluster checklist”(TRIPOD‑Cluster指南清单)。本文对该指南清单的关键内容进行了解读和评述,旨在促进对该指南清单的正确理解和应用。同时,从基于群数据模型的异质性和因果可解释性两个方面对该指南清单进行了拓展和延伸。展开更多
文摘目的本研究提出了融合生物学通路的变分自编码器(variational auto encoder,VAE),对蛋白质与代谢组学数据进行整合分析,并应用于肺腺癌患者探索可能的病理机制。方法为VAE的隐变量层节点赋予通路的实际意义,解码器按通路包含的生物学分子信息构建稀疏神经网络,使通路节点只与自身包含的分子连接,将隐变量作为提取的高级特征。对隐变量进行Kmeans聚类分析并使用调整兰德系数评估效果,引入基因差异表达分析方法limma探索差异表达通路,在北京大学人民医院胸外科肺腺癌患者的蛋白质与代谢组学数据中进行实例分析。结果融合生物学通路的VAE提取的高级特征不仅将聚类准确度提高了38%,还通过差异表达分析鉴别出了实性与亚实性结节肺腺癌间的差异通路。结论融合生物学通路的VAE可用于组学数据整合分析,其提取的高级特征具有通路表达活性的实际生物学意义。
文摘目的基于特征筛选算法探索利用胸腔积液和血清中CEA、CA125、CA153和CA199四种肿瘤标志物的组合与筛选对鉴别良、恶性胸腔积液的诊断价值。方法收集北京朝阳医院和武汉某医院收治的胸腔积液患者共452例,其中恶性胸腔积液患者143例、良性胸腔积液患者309例;取胸腔积液及配对血清标本,用化学发光法检测CEA、CA125、CA153和CA199浓度,辅以患者性别、年龄和医院所在城市三项人口学变量,首先应用独立性检验进行变量初筛,而后应用带惩罚项的逻辑回归和基于逻辑回归的模拟退火算法和遗传算法进行标志物筛选,根据受试者工作特征曲线下面积(area under the curve,AUC)和DeLong检验进行模型诊断效果的评估和比较。结果特征筛选结果以及回归系数和SHAP(shapley additive explanations)值一致表明胸腔积液CA199、CA153联合血清CEA为最优肿瘤标志物组合;在测试数据集上,该指标组合达到最高诊断精度(AUC=0.923),显著高于最优单标志物模型(AUC=0.877,P<0.001)和全标志物模型(AUC=0.906,P=0.044),灵敏度和特异度分别达到0.811和0.939。结论多项肿瘤标志物的联合应用相较单一标志物能够显著提升模型诊断精度,且合理的标志物筛选策略对提升诊断精度和简化模型有进一步帮助;本文推荐联合胸腔积液中CA199和CA153以及血清中CEA来建立诊断模型,并提供了该模型的列线图和实用化的网页计算器,为辅助临床诊断提供便利。
文摘目的基于统计学习方法探讨癌胚抗原(carcinoembryonic antigen,CEA)、糖链抗原(carbohydrate antigen,CA)125、CA15-3和CA19-9四种肿瘤标志物的不同联合对鉴别良恶性胸腔积液的诊断价值。方法收集北京和武汉两家医院共319例患者的胸腔积液标本及配对血清标本,应用化学发光法检测CEA、CA125、CA15-3及CA19-9在血清及胸腔积液中的浓度,采集患者的性别、年龄等协变量信息,分别应用logistic回归、随机森林和支持向量机三种方法建立联合诊断模型,通过受试者工作特征(receiver operating characteristics,ROC)曲线分析比较其诊断价值。结果使用支持向量机方法,获得胸腔积液中CEA+CA19-9的联合诊断对应的ROC曲线下面积(areas under the curve,AUC)值最大(0.92,P<0.001),灵敏度最高(0.82),特异度为0.96,AUC值比单一肿瘤标志物诊断最优值提高了1.6%,灵敏度提高了3.8%;使用logistic回归方法,获得胸腔积液中CEA+CA15-3+CA19-9联合诊断对应的AUC值达到0.91(P<0.001),比单一肿瘤标志物最优模型AUC值提高了5.7%,灵敏度提高13.2%,特异度提高4.3%;3.使用随机森林方法,最优灵敏度达到0.82,最高AUC值为0.89(P<0.001),比单一肿瘤标志物最优模型AUC值提高了5.1%,灵敏度提高6.5%,特异度提高3.3%。结论相比单一肿瘤标志物诊断,联合多肿瘤标志物的诊断能够提高诊断精度,但是提高幅度不大。基于支持向量机方法,使用胸腔积液中单一肿瘤标志物CEA即可达到较好的良、恶性胸腔积液诊断效果。综合考虑患者就医的经济负担和就医体验等因素,本研究不推荐使用多肿瘤标志物的联合诊断。
文摘基于群数据的科学研究在医学健康照护领域备受关注。群数据指由多个数据集组成的数据集群。群数据具有明显的群特性,即不同数据集间个体的异质性。为了规范基于群数据的研究报告模式,研究人员于2022年11月在The BMJ发表了“Transparent reporting of multivariable prediction models developed or validated using clustered data:TRIPOD‑Cluster checklist”(TRIPOD‑Cluster指南清单)。本文对该指南清单的关键内容进行了解读和评述,旨在促进对该指南清单的正确理解和应用。同时,从基于群数据模型的异质性和因果可解释性两个方面对该指南清单进行了拓展和延伸。