目的本研究提出了融合生物学通路的变分自编码器(variational auto encoder,VAE),对蛋白质与代谢组学数据进行整合分析,并应用于肺腺癌患者探索可能的病理机制。方法为VAE的隐变量层节点赋予通路的实际意义,解码器按通路包含的生物学分...目的本研究提出了融合生物学通路的变分自编码器(variational auto encoder,VAE),对蛋白质与代谢组学数据进行整合分析,并应用于肺腺癌患者探索可能的病理机制。方法为VAE的隐变量层节点赋予通路的实际意义,解码器按通路包含的生物学分子信息构建稀疏神经网络,使通路节点只与自身包含的分子连接,将隐变量作为提取的高级特征。对隐变量进行Kmeans聚类分析并使用调整兰德系数评估效果,引入基因差异表达分析方法limma探索差异表达通路,在北京大学人民医院胸外科肺腺癌患者的蛋白质与代谢组学数据中进行实例分析。结果融合生物学通路的VAE提取的高级特征不仅将聚类准确度提高了38%,还通过差异表达分析鉴别出了实性与亚实性结节肺腺癌间的差异通路。结论融合生物学通路的VAE可用于组学数据整合分析,其提取的高级特征具有通路表达活性的实际生物学意义。展开更多
文摘在癌症研究中,随着高通量测序技术发展已经产生了海量的复杂数据。尽管有了一些利用深度学习和统计学方法进行多组学数据整合的研究,但目前仍缺乏较为有效率的整合方法。因此提出一种基于深度自编码器的多组学数据整合方法(deep autoencoder for multi-omics integration,DAEMI)。它利用自编码器中的瓶颈层,学习多组学数据的特征表示。与先前利用深度学习整合的研究相比,DAEMI可以发现明显生存差异的癌症亚型。同时因为不需要生存数据来选择特征,DAEMI可以使用更多特征进行K均值聚类,进而完成癌症分型任务。将DAEMI应用于模拟数据集与四个癌症数据集实验,通过与高阶路径相似度网络的融合模型(HOPES)、相似性网络融合(SNF)、iClusterPlus和moCluster进行比较,结合模拟数据集测试结果与真实癌症数据集测试结果来看,DAEMI要优于其他方法。相应的生物功能分析揭示,神经退行性疾病与线粒体功能障碍可能与癌症共享某些生物学通路。
文摘目的本研究提出了融合生物学通路的变分自编码器(variational auto encoder,VAE),对蛋白质与代谢组学数据进行整合分析,并应用于肺腺癌患者探索可能的病理机制。方法为VAE的隐变量层节点赋予通路的实际意义,解码器按通路包含的生物学分子信息构建稀疏神经网络,使通路节点只与自身包含的分子连接,将隐变量作为提取的高级特征。对隐变量进行Kmeans聚类分析并使用调整兰德系数评估效果,引入基因差异表达分析方法limma探索差异表达通路,在北京大学人民医院胸外科肺腺癌患者的蛋白质与代谢组学数据中进行实例分析。结果融合生物学通路的VAE提取的高级特征不仅将聚类准确度提高了38%,还通过差异表达分析鉴别出了实性与亚实性结节肺腺癌间的差异通路。结论融合生物学通路的VAE可用于组学数据整合分析,其提取的高级特征具有通路表达活性的实际生物学意义。