单细胞多组学测序正在广泛应用于生物医学研究中,并产生大量的多样性组学数据。然而原始的单细胞多组学数据包含多种类型的测序噪声和冗余信息,对后续生物医疗层面的分析造成困难。现有的降噪方法主要依赖于单一的数据分布假设,并针对...单细胞多组学测序正在广泛应用于生物医学研究中,并产生大量的多样性组学数据。然而原始的单细胞多组学数据包含多种类型的测序噪声和冗余信息,对后续生物医疗层面的分析造成困难。现有的降噪方法主要依赖于单一的数据分布假设,并针对性的处理单个组学数据,这对模型联合处理不同组学数据造成极大地限制。本研究提出一种使用单细胞多组学数据降噪的分析方法,称为scMAED(single-cell multi-omics data via a multi-head autoencoder network to denoising)。模型在多头自动编码器网络中添加了分类解码器,以无监督的方式来最大程度的去除数据噪声。首先,使用两个编码器独立学习多组学数据的内部特征,并联合输出的低维特征进行共同解码。其次,分类解码器不做任何数据分布假设,通过使用预测的细胞簇标签来反馈数据信息,以最大限度的去除复杂噪声。最后,使用主成分分析和t-SNE进行可视化。本文基于模拟数据集和真实的小鼠数据集对模型进行性能评估,结果显示sc-MAED在降噪效果上优于实验中的对比方法,并能够极大的改善单细胞多组学数据的质量。展开更多
在癌症研究中,精准识别癌症亚型和评估患者预后对制定优化治疗方案至关重要。高通量测序技术生成的大量多组学数据为癌症预后研究提供了宝贵资源。深度学习方法能够有效整合这些数据,精确识别更多癌症亚型。在本研究中,我们分析了12种...在癌症研究中,精准识别癌症亚型和评估患者预后对制定优化治疗方案至关重要。高通量测序技术生成的大量多组学数据为癌症预后研究提供了宝贵资源。深度学习方法能够有效整合这些数据,精确识别更多癌症亚型。在本研究中,我们分析了12种癌症的多组学数据集,并将其作为模型的输入。我们提出了一种基于卷积自动编码器的深度多视图对比学习模型(dmCLCAE),该模型旨在利用多组学数据预测与生存相关的癌症亚型。为了验证模型的效果,我们对比了多组学因子分析算法(MOFA+)和深度学习模型(ProgCAE)在不同癌症类型分类中的表现。结果显示,dmCLCAE在区分不同生存亚型方面表现出显著优势,同时在预测一致性上也有更优异的表现。In cancer research, accurately identifying cancer subtypes and assessing patient prognosis are crucial for developing optimized treatment strategies. The vast amount of multi-omics data generated by high-throughput sequencing technologies provides valuable resources for cancer prognosis studies. Deep learning methods can effectively integrate these data to accurately identify more cancer subtypes. In this study, we analyzed multi-omics datasets from 12 types of cancer and used them as input for our model. We proposed a deep multi-view contrastive learning model based on a convolutional autoencoder (dmCLCAE), designed to predict survival-related cancer subtypes using multi-omics data. To validate the model’s performance, we compared it with the Multi-Omics Factor Analysis v2 (MOFA+) and prognostic model based on a convolutional autoencoder (ProgCAE) in classifying various cancer types. The results showed that dmCLCAE demonstrated a significant advantage in distinguishing different survival subtypes and exhibited superior consistency in predictions.展开更多
胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不...胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不同生存期GBM患者差异基因。利用GISTIC软件和Kaplan-Meier(KM)生存分析方法分析TCGA数据库中的GBM拷贝数变异数据,识别影响生存的扩增基因(survival-associated amplified gene,SAG)。取短生存期组上调基因和SAG两者的交集基因,进行单因素Cox回归和迭代Lasso回归筛选重要候选基因并建立预后模型;计算预后评分,根据预后评分中位数将患者分为高风险组和低风险组。用ROC曲线判断模型的优良,KM生存分析高低风险组预后差异,并用GEO、CGGA和Rembrandt数据库3个外部数据集进行验证。多因素Cox回归分析判断预后评分的预后独立性。结果显示,GBM不同生存期差异分析得到上调基因426个,下调基因65个。短生存期组上调基因与SAG交集得到47个基因。经过筛选,最终确定六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)预后模型。TCGA实验组和3个外部验证组模型的ROC曲线下面积均大于0.6,甚至达到0.912。KM分析显示高低风险组的预后都存在差异(P<0.05)。在多因素Cox回归分析中,六基因预后评分是GBM患者预后的独立影响因素(P<0.05)。通过一系列分析,本研究确立了六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)的GBM预后模型,模型具有很好的预测能力,可作为预测GBM患者的独立预后标志物。展开更多
文摘单细胞多组学测序正在广泛应用于生物医学研究中,并产生大量的多样性组学数据。然而原始的单细胞多组学数据包含多种类型的测序噪声和冗余信息,对后续生物医疗层面的分析造成困难。现有的降噪方法主要依赖于单一的数据分布假设,并针对性的处理单个组学数据,这对模型联合处理不同组学数据造成极大地限制。本研究提出一种使用单细胞多组学数据降噪的分析方法,称为scMAED(single-cell multi-omics data via a multi-head autoencoder network to denoising)。模型在多头自动编码器网络中添加了分类解码器,以无监督的方式来最大程度的去除数据噪声。首先,使用两个编码器独立学习多组学数据的内部特征,并联合输出的低维特征进行共同解码。其次,分类解码器不做任何数据分布假设,通过使用预测的细胞簇标签来反馈数据信息,以最大限度的去除复杂噪声。最后,使用主成分分析和t-SNE进行可视化。本文基于模拟数据集和真实的小鼠数据集对模型进行性能评估,结果显示sc-MAED在降噪效果上优于实验中的对比方法,并能够极大的改善单细胞多组学数据的质量。
文摘在癌症研究中,精准识别癌症亚型和评估患者预后对制定优化治疗方案至关重要。高通量测序技术生成的大量多组学数据为癌症预后研究提供了宝贵资源。深度学习方法能够有效整合这些数据,精确识别更多癌症亚型。在本研究中,我们分析了12种癌症的多组学数据集,并将其作为模型的输入。我们提出了一种基于卷积自动编码器的深度多视图对比学习模型(dmCLCAE),该模型旨在利用多组学数据预测与生存相关的癌症亚型。为了验证模型的效果,我们对比了多组学因子分析算法(MOFA+)和深度学习模型(ProgCAE)在不同癌症类型分类中的表现。结果显示,dmCLCAE在区分不同生存亚型方面表现出显著优势,同时在预测一致性上也有更优异的表现。In cancer research, accurately identifying cancer subtypes and assessing patient prognosis are crucial for developing optimized treatment strategies. The vast amount of multi-omics data generated by high-throughput sequencing technologies provides valuable resources for cancer prognosis studies. Deep learning methods can effectively integrate these data to accurately identify more cancer subtypes. In this study, we analyzed multi-omics datasets from 12 types of cancer and used them as input for our model. We proposed a deep multi-view contrastive learning model based on a convolutional autoencoder (dmCLCAE), designed to predict survival-related cancer subtypes using multi-omics data. To validate the model’s performance, we compared it with the Multi-Omics Factor Analysis v2 (MOFA+) and prognostic model based on a convolutional autoencoder (ProgCAE) in classifying various cancer types. The results showed that dmCLCAE demonstrated a significant advantage in distinguishing different survival subtypes and exhibited superior consistency in predictions.