期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
多组数据方差分析模型:以杀虫剂药效为例
1
作者 陈维 《科技视界》 2014年第5期144-145,共2页
参数统计方法都是已知总体分布,对其分布的总体参数进行假设检验。在试验法研究调查中,常常采取最传统的方法,分为试验组和对照组两组进行研究。然而,在实际生活中由于研究问题的复杂性,往往需要研究多于两组的研究对象之间的差异,在参... 参数统计方法都是已知总体分布,对其分布的总体参数进行假设检验。在试验法研究调查中,常常采取最传统的方法,分为试验组和对照组两组进行研究。然而,在实际生活中由于研究问题的复杂性,往往需要研究多于两组的研究对象之间的差异,在参数统计中,常常需要数据符合正态分布假定,但是,当先验信息不足以支持正态分布时,就要采取非参数方法解决。说明了非参数估计的方差分析法,阐述了两种检验方法,并将其运用到检验杀虫剂药效当中。 展开更多
关键词 多组数据 方差分析 Q检验 D检验
下载PDF
基于单细胞多组学数据解析结直肠癌动态调控扰动 被引量:1
2
作者 徐琪 禹雷 +2 位作者 潘涛 张娅 李永生 《海南医学》 CAS 2024年第11期1533-1544,共12页
目的探讨结直肠癌恶性转变过程中的分子特征及其调控网络扰动,深入剖析结直肠癌恶性转变的微环境异质性并识别潜在治疗靶点。方法首先从Gene Expression Omnibus(GEO)数据库中收集单细胞转录组测序数据,从欧洲分子生物学实验室(EMBL)收... 目的探讨结直肠癌恶性转变过程中的分子特征及其调控网络扰动,深入剖析结直肠癌恶性转变的微环境异质性并识别潜在治疗靶点。方法首先从Gene Expression Omnibus(GEO)数据库中收集单细胞转录组测序数据,从欧洲分子生物学实验室(EMBL)收集单细胞ATAC测序数据。数据共涉及来自14例患者的70例样本,包含22例正常样本、43例息肉样本和5例肿瘤样本。首先对scRNA-Seq测序数据进行预处理,基于Seurat包筛除双细胞和低质量细胞,对scATAC-Seq测序数据使用10X Cell Ranger-atac进行原始数据处理,并使用Signac包去除低质量细胞,得到三个阶段的scRNA-Seq和scATAC-Seq细胞图谱。进一步数据整合,基于Pando R包推断T细胞和上皮细胞的转录调控网络,通过mfinder软件分析网络motif和拓扑属性,对转录因子进行分级分析。最后,基于随机森林算法进行细胞分子特征预测及预后分析。结果筛选出202465个scRNA-Seq测序细胞和136422个scATAC-Seq测序细胞。基于数据整合分析,构建不同癌变阶段的细胞图谱。结果发现,随着结直肠癌进展,肿瘤微环境组成发生显著变化,尤其是T细胞和上皮细胞在不同疾病阶段的比例有较大差异。基于单细胞多组学数据整合,利用Pando包推断结直肠癌不同阶段的转录调控网络,揭示了T细胞和上皮细胞中转录因子及其调控关系的动态变化。功能富集分析结果显示在T细胞和上皮细胞中,转录因子所调控的功能在不同的疾病阶段有明显差异。基于转录调控网络分析发现,T细胞和上皮细胞转录调控网络符合无标度网络特性。网络motif分析揭示了在不同阶段存在的特定motif模式,反映了网络拓扑结构的动态变化,且网络中大多数相互作用都具有阶段特异性。共享转录因子的层级在癌变过程中也会发生变化。最后基于转录因子调控网络构建的分类器可以成功识别T细胞和上皮细胞,表明其作为细胞分子特征的有效性。进一步识别出与患者生存显著相关的网络motif,揭示其在结直肠癌预后中的潜在作用。结论基于整合单细胞多组学数据构建转录调控网络,解析随结直肠癌的进展转录调控网络及其功能的动态变化,揭示了结直肠癌进展过程中的细胞分子特征及关键预后motif,为结直肠癌的分子机制及预后评估提供了深刻见解。 展开更多
关键词 结直肠癌 单细胞多组数据 转录调控网络 细胞分子特征
下载PDF
基于生存结局加权多组学数据整合的胶质瘤分子分型
3
作者 贾聪聪 杜港 +5 位作者 赵鑫 师国京 房瑞玲 李治 张岩波 曹红艳 《中国卫生统计》 CSCD 北大核心 2024年第5期644-649,共6页
目的探讨将生存结局加权的多组学数据整合方法survClust应用于胶质瘤(glioma)数据,以识别具有显著分子异质性和预后差异的胶质瘤分子分型。方法采用survClust方法对中国胶质瘤基因数据库(Chinese glioma genome atlas,CGGA)的胶质瘤多... 目的探讨将生存结局加权的多组学数据整合方法survClust应用于胶质瘤(glioma)数据,以识别具有显著分子异质性和预后差异的胶质瘤分子分型。方法采用survClust方法对中国胶质瘤基因数据库(Chinese glioma genome atlas,CGGA)的胶质瘤多组学数据进行结局加权整合分型,并拟合Cox比例风险模型评估不同分型患者预后。对不同分型间的差异表达基因(DEmiRNAs,DEmRNAs,DMGs)进行筛选,对DEmiRNAs靶基因、DEmRNAs、DMGs的重合基因进行GO功能注释;最后对不同分型患者进行免疫浸润分析。结果survClust将胶质瘤患者分为高危组和低危组,高危组患者的死亡风险是低危组的2.931倍。不同分型差异基因的分布存在差异,共筛选出194个DEmiRNAs,3396个DEmRNAs,1230个DMGs。将189个重合基因进行GO功能注释,得到52条差异具有统计学意义的GO生物项。此外,不同分型在B淋巴细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞和髓样树突状细胞的免疫浸润水平存在统计学差异。结论结局加权整合算法survClust能够有效识别兼具分子异质性和显著预后差异的胶质瘤亚型,同时基于分型结果筛选出的潜在生物标志物将为胶质瘤的个性化治疗提供科学理论依据。 展开更多
关键词 生存结局加权聚类 分子亚型 多组数据整合 胶质瘤
下载PDF
网络增强核融合方法的改进及其在乳头状肾细胞癌多组学数据整合分子分型中的应用
4
作者 师国京 李灵梅 +6 位作者 魏亿芳 赵鑫 房瑞玲 杨海涛 余红梅 张岩波 曹红艳 《中国卫生统计》 CSCD 北大核心 2024年第3期376-381,共6页
目的针对网络增强的相似网络融合(network enhancement fusion,ne-SNF)方法先融合不同组学网络,再对融合后的网络降噪,忽略了不同组学相似网络噪声对融合网络影响的问题,本文提出了改进的网络增强融合(improved network enhancement fus... 目的针对网络增强的相似网络融合(network enhancement fusion,ne-SNF)方法先融合不同组学网络,再对融合后的网络降噪,忽略了不同组学相似网络噪声对融合网络影响的问题,本文提出了改进的网络增强融合(improved network enhancement fusion,improved ne-SNF)方法,并探讨其在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)分子分型中的应用,识别PRCC高危患者,筛选重要通路及免疫浸润细胞。方法通过模拟研究评估improved ne-SNF分型性能,并将其用于PRCC多组学数据的整合分型,利用Cox回归模型分析不同分型患者的预后风险;筛选不同分型的差异表达mRNA(DEmRNAs)、miRNA(DEmiRNAs)及差异甲基化基因(DMGs),并对其重合基因进行KEGG通路分析;最后对不同分型患者进行免疫细胞浸润分析。结果模拟研究结果表明improved ne-SNF在不同信号比例和噪声强度下的分型准确性均优于SNF和ne-SNF。improved ne-SNF方法将PRCC患者分为高危组和低危组,高危组患者的死亡风险是低危组的7.727倍;筛选出3511个DEmRNAs,96个DEmiRNAs及3426个DMGs,其联合分析的649个重合基因得到42条有统计学差异的KEGG通路。此外,筛选出3种在不同分型中存在统计学差异的免疫浸润细胞。结论improved ne-SNF分型性能优于SNF和ne-SNF,且能够有效识别PRCC预后高风险患者,并筛选出PRCC重要通路及相关免疫浸润细胞,为PRCC的治疗及预后提供新的思路和参考依据。 展开更多
关键词 改进的网络增强融合 乳头状肾细胞癌 多组数据整合 分子亚型
下载PDF
多组学数据驱动的机器学习模型在乳腺癌生存及治疗响应预测中的应用 被引量:1
5
作者 章子怡 王棨临 +4 位作者 张俊有 段迎迎 刘家欣 刘赵硕 李春燕 《遗传》 CAS CSCD 北大核心 2024年第10期820-832,共13页
乳腺癌的高度异质性导致其治疗及预后评估较为复杂。治疗方案的选择受到肿瘤亚型、病变分级、基因型等多种因素的影响,因此需要制定个体化治疗策略。患者的预后效果因病情不同而产生显著差异。作为人工智能的一个重要分支,机器学习能高... 乳腺癌的高度异质性导致其治疗及预后评估较为复杂。治疗方案的选择受到肿瘤亚型、病变分级、基因型等多种因素的影响,因此需要制定个体化治疗策略。患者的预后效果因病情不同而产生显著差异。作为人工智能的一个重要分支,机器学习能高效处理海量数据,并实现决策过程的自动化。机器学习方法的引入将为乳腺癌治疗的选择和预后评估提供新的解决方案。在癌症治疗领域,传统方法预测生存与治疗效果往往依赖于单一或少量的生物标志物,难以全面捕捉复杂的生物学过程。机器学习通过分析患者的多组学数据以及它们在疾病发生发展过程中复杂的变化趋势,预测患者的生存和治疗响应效果,从而选择适合的治疗措施,实施早期干预,改善患者的治疗效果。本文首先介绍了常用的机器学习方法,在此基础上分别从评估生存情况和预测治疗效果这两方面展开,详细分析了机器学习在乳腺癌患者生存预测及预后领域中的应用,以期为乳腺癌患者提供精准医疗治疗策略,提高治疗效果和生存质量。 展开更多
关键词 乳腺癌 机器学习 多组数据整合分析 生存预测 治疗响应
下载PDF
基于Bootstrap方法的多组配对数据风险差的一致性检验
6
作者 张延欣 孙舒曼 唐加山 《江苏师范大学学报(自然科学版)》 CAS 2024年第2期42-47,共6页
在Dallal模型下构建3个统计量,研究小样本多组配对数据风险差的一致性检验问题.通过Monte-Carlo数值模拟,比较小样本下渐近方法和Bootstrap方法在检验过程中的性能.研究发现,Bootstrap方法在第一类错误率和功效上表现更优;特别地,基于Sc... 在Dallal模型下构建3个统计量,研究小样本多组配对数据风险差的一致性检验问题.通过Monte-Carlo数值模拟,比较小样本下渐近方法和Bootstrap方法在检验过程中的性能.研究发现,Bootstrap方法在第一类错误率和功效上表现更优;特别地,基于Score检验的Bootstrap方法的第一类错误率较稳健,且有较高的功效,检验性能最优. 展开更多
关键词 多组配对数据 Dallal模型 BOOTSTRAP方法 一致性检验
下载PDF
基于多头自编码网络的单细胞多组学数据无监督降噪
7
作者 李双翼 刘发荣 +1 位作者 任胜 于彬 《青岛科技大学学报(自然科学版)》 CAS 2024年第4期146-158,共13页
单细胞多组学测序正在广泛应用于生物医学研究中,并产生大量的多样性组学数据。然而原始的单细胞多组学数据包含多种类型的测序噪声和冗余信息,对后续生物医疗层面的分析造成困难。现有的降噪方法主要依赖于单一的数据分布假设,并针对... 单细胞多组学测序正在广泛应用于生物医学研究中,并产生大量的多样性组学数据。然而原始的单细胞多组学数据包含多种类型的测序噪声和冗余信息,对后续生物医疗层面的分析造成困难。现有的降噪方法主要依赖于单一的数据分布假设,并针对性的处理单个组学数据,这对模型联合处理不同组学数据造成极大地限制。本研究提出一种使用单细胞多组学数据降噪的分析方法,称为scMAED(single-cell multi-omics data via a multi-head autoencoder network to denoising)。模型在多头自动编码器网络中添加了分类解码器,以无监督的方式来最大程度的去除数据噪声。首先,使用两个编码器独立学习多组学数据的内部特征,并联合输出的低维特征进行共同解码。其次,分类解码器不做任何数据分布假设,通过使用预测的细胞簇标签来反馈数据信息,以最大限度的去除复杂噪声。最后,使用主成分分析和t-SNE进行可视化。本文基于模拟数据集和真实的小鼠数据集对模型进行性能评估,结果显示sc-MAED在降噪效果上优于实验中的对比方法,并能够极大的改善单细胞多组学数据的质量。 展开更多
关键词 单细胞多组数据 深度学习 多头自编码网络 降噪
下载PDF
基于深度多视图对比学习方法的多组学数据整合及预后预测模型构建
8
作者 高新凤 《应用数学进展》 2024年第9期4182-4190,共9页
在癌症研究中,精准识别癌症亚型和评估患者预后对制定优化治疗方案至关重要。高通量测序技术生成的大量多组学数据为癌症预后研究提供了宝贵资源。深度学习方法能够有效整合这些数据,精确识别更多癌症亚型。在本研究中,我们分析了12种... 在癌症研究中,精准识别癌症亚型和评估患者预后对制定优化治疗方案至关重要。高通量测序技术生成的大量多组学数据为癌症预后研究提供了宝贵资源。深度学习方法能够有效整合这些数据,精确识别更多癌症亚型。在本研究中,我们分析了12种癌症的多组学数据集,并将其作为模型的输入。我们提出了一种基于卷积自动编码器的深度多视图对比学习模型(dmCLCAE),该模型旨在利用多组学数据预测与生存相关的癌症亚型。为了验证模型的效果,我们对比了多组学因子分析算法(MOFA+)和深度学习模型(ProgCAE)在不同癌症类型分类中的表现。结果显示,dmCLCAE在区分不同生存亚型方面表现出显著优势,同时在预测一致性上也有更优异的表现。In cancer research, accurately identifying cancer subtypes and assessing patient prognosis are crucial for developing optimized treatment strategies. The vast amount of multi-omics data generated by high-throughput sequencing technologies provides valuable resources for cancer prognosis studies. Deep learning methods can effectively integrate these data to accurately identify more cancer subtypes. In this study, we analyzed multi-omics datasets from 12 types of cancer and used them as input for our model. We proposed a deep multi-view contrastive learning model based on a convolutional autoencoder (dmCLCAE), designed to predict survival-related cancer subtypes using multi-omics data. To validate the model’s performance, we compared it with the Multi-Omics Factor Analysis v2 (MOFA+) and prognostic model based on a convolutional autoencoder (ProgCAE) in classifying various cancer types. The results showed that dmCLCAE demonstrated a significant advantage in distinguishing different survival subtypes and exhibited superior consistency in predictions. 展开更多
关键词 多组数据 卷积自编码器 对比学习 深度学习
下载PDF
多组学联合缺失数据填补方法的评价 被引量:6
9
作者 董学思 林丽娟 +3 位作者 赵杨 魏永越 戴俊程 陈峰 《中国卫生统计》 CSCD 北大核心 2017年第4期558-561,566,共5页
目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据... 目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%)。采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较。评价指标包括估计偏差和矩阵-2-范数。根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。结论综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补。 展开更多
关键词 多组数据 块缺失 统计学填补 机器学习填补 效果评价
下载PDF
基于癌症基因组图谱计划多组学数据构建胶质母细胞瘤六基因预后模型 被引量:3
10
作者 雷常贵 贾学渊 孙文靖 《遗传》 CAS CSCD 北大核心 2021年第7期665-679,I0002-I0011,共25页
胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不... 胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不同生存期GBM患者差异基因。利用GISTIC软件和Kaplan-Meier(KM)生存分析方法分析TCGA数据库中的GBM拷贝数变异数据,识别影响生存的扩增基因(survival-associated amplified gene,SAG)。取短生存期组上调基因和SAG两者的交集基因,进行单因素Cox回归和迭代Lasso回归筛选重要候选基因并建立预后模型;计算预后评分,根据预后评分中位数将患者分为高风险组和低风险组。用ROC曲线判断模型的优良,KM生存分析高低风险组预后差异,并用GEO、CGGA和Rembrandt数据库3个外部数据集进行验证。多因素Cox回归分析判断预后评分的预后独立性。结果显示,GBM不同生存期差异分析得到上调基因426个,下调基因65个。短生存期组上调基因与SAG交集得到47个基因。经过筛选,最终确定六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)预后模型。TCGA实验组和3个外部验证组模型的ROC曲线下面积均大于0.6,甚至达到0.912。KM分析显示高低风险组的预后都存在差异(P<0.05)。在多因素Cox回归分析中,六基因预后评分是GBM患者预后的独立影响因素(P<0.05)。通过一系列分析,本研究确立了六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)的GBM预后模型,模型具有很好的预测能力,可作为预测GBM患者的独立预后标志物。 展开更多
关键词 胶质母细胞瘤 多组数据 六基因 预后模型 癌症基因图谱计划
下载PDF
多组学数据分析中关联网络融合ANF算法及应用研究 被引量:1
11
作者 徐臻旖 王策 +1 位作者 侯艳 李康 《中国卫生统计》 CSCD 北大核心 2020年第6期822-827,共6页
目的引入关联网络融合(affinity network fusion,ANF)方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法模拟产生两组学数据,改变总体差异大小等情况比较多种多组学整合方法的效果。实例分析中目标人群选择TCGA数据库中对... 目的引入关联网络融合(affinity network fusion,ANF)方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法模拟产生两组学数据,改变总体差异大小等情况比较多种多组学整合方法的效果。实例分析中目标人群选择TCGA数据库中对铂类药物敏感并拥有mRNA和甲基化两个组学的卵巢癌患者,目标基因是TCGA数据库和ImmPort数据库中共有基因,目标甲基化位点是目标基因对应的所有甲基化位点。使用ANF、SNF、K-means、系统聚类和iCluster五种方法比较聚类效果。结果模拟实验提示存在总体差异的两亚型间差异较小时ANF方法的效果明显优于其他方法。实例分析结果表明,通过ANF方法进行多组学数据整合得到的分子分型较单组学得到的分子分型有更好的生物学意义且多组学聚类效果优于其他方法。结论ANF方法可以应用于多组学数据整合分析,具有实际应用意义。 展开更多
关键词 ANF方法 多组数据整合 免疫分型
下载PDF
JIVE方法在卵巢癌多组学数据整合分析中的应用 被引量:1
12
作者 徐欢 宋微 +2 位作者 蔡雨晴 侯艳 李康 《中国卫生统计》 CSCD 北大核心 2019年第5期774-776,共3页
目的引入JIVE方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法使用TCGA数据库中卵巢癌mRNA和miRNA的组学数据,应用JIVE方法整合分析两个组学数据,提取两不同组学数据的共同特征,然后通过对其具有共同结构的数据做主成分分... 目的引入JIVE方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法使用TCGA数据库中卵巢癌mRNA和miRNA的组学数据,应用JIVE方法整合分析两个组学数据,提取两不同组学数据的共同特征,然后通过对其具有共同结构的数据做主成分分析,给出卵巢癌miRNA分子分型的结果。结果经过JIVE方法整合分析后,使miRNA数据具有明显与mRNA相一致的分型结构,从而进一步支持了mRNA的分型结果,同时揭示了两组学之间在组织分子分型上具有一定的调控关系。结论JIVE方法可以用于提取组学之间存在的共同结构矩阵,从而进行多组学数据的整合分析。 展开更多
关键词 JIVE方法 多组数据整合 特征提取
下载PDF
基于多组学数据识别癌症驱动通路的模型和算法 被引量:2
13
作者 蔡齐荣 吴璟莉 《计算机科学》 CSCD 北大核心 2019年第9期310-314,共5页
通过整合体细胞突变、拷贝数变异和基因表达等3种组学数据,提出识别癌症驱动通路的改进最大权重子矩阵模型。该模型用通路中基因平均权重调控覆盖度和互斥度,对权重大的基因集覆盖度进行加强,同时放松其高互斥度约束。引入基于贪心算法... 通过整合体细胞突变、拷贝数变异和基因表达等3种组学数据,提出识别癌症驱动通路的改进最大权重子矩阵模型。该模型用通路中基因平均权重调控覆盖度和互斥度,对权重大的基因集覆盖度进行加强,同时放松其高互斥度约束。引入基于贪心算法的重组算子,提出求解该模型的单亲遗传算法PGA-MWS。采用胶质母细胞瘤和卵巢癌数据集对算法PGA-MWS和GA进行实验对比分析。实验结果显示,较GA方法,基于改进模型的PGA-MWS算法能识别出覆盖度高但互斥度不太高的基因集,且其识别的基因集中,许多均参与已知信号通路,并被证实与癌细胞密切相关,同时还能识别几种潜在的候选驱动通路,因此PGA-MWS方法可作为检测癌症驱动通路的一种有效补充。 展开更多
关键词 驱动通路 多组数据 癌症 算法 模型
下载PDF
基于rMKL-LPP方法的乳头状肾细胞癌多组学数据整合分型分析 被引量:1
14
作者 李灵梅 魏亿芳 +3 位作者 李治 房瑞玲 崔跃华 曹红艳 《中国卫生统计》 CSCD 北大核心 2022年第4期522-528,共7页
目的探讨局部保留投影的正则化多核学习(regularized multiple kernel learning with locality preserving projections,rMKL-LPP)在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)多组学数据分子分型中的应用,进一步研究PRCC分... 目的探讨局部保留投影的正则化多核学习(regularized multiple kernel learning with locality preserving projections,rMKL-LPP)在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)多组学数据分子分型中的应用,进一步研究PRCC分子分型在信号通路活性和基因表达调控方面的异质性。方法采用rMKL-LPP方法对PRCC的mRNA、miRNA和DNA甲基化数据进行整合,进一步采用k-means方法聚类分型,并通过Cox回归分析研究不同分型的预后风险。针对不同分型,进行通路活性分析,使用差异表达分析筛选DEmRNAs(differentially expressed mRNAs),DEmiRNAs(differentially expressed miRNAs)和DMGs(differentially methylated genes),并对三者的重合基因进行GO(gene ontology)富集分析,最后使用相关及生存分析筛选可能受DNA甲基化或miRNA调控且影响患者生存的基因。结果PRCC患者分为三型,不同亚型在通路活性和基因表达方面均有差异。筛选出10条活性存在差异的通路;1185个DEmRNAs,13个DEmiRNAs及416个DMGs,其中36个重合基因富集于有统计学差异的8个GO生物项。相关分析发现,ABL2可能受hsa-miR-107调控,13个基因可能受DNA甲基化调控。生存分析表明,ZNF135和RBPMS2可能与患者生存结局相关。结论rMKL-LPP能够有效识别PRCC亚型,筛选出的通路及潜在生物标志物,可为PRCC针对性治疗提供依据。 展开更多
关键词 局部保留投影的正则化多核学习 多组数据整合 分子亚型 乳头状肾细胞癌
下载PDF
基于多组学数据和稀疏变分自编码器的生存分析算法 被引量:1
15
作者 殷清燕 武锐萍 +1 位作者 陈旺旺 边根庆 《计算机应用研究》 CSCD 北大核心 2023年第3期771-775,共5页
针对生存分析中多组学数据带来的维数灾难和过拟合问题,提出了一种基于多组学数据和稀疏变分自编码器的生存分析算法VAESCox。该算法将变分自编码器的基本结构与稀疏编码和生存分析相结合,在无监督阶段训练变分自编码器学习低维表示,在... 针对生存分析中多组学数据带来的维数灾难和过拟合问题,提出了一种基于多组学数据和稀疏变分自编码器的生存分析算法VAESCox。该算法将变分自编码器的基本结构与稀疏编码和生存分析相结合,在无监督阶段训练变分自编码器学习低维表示,在监督阶段将训练的权重迁移到生存分析模型,并对传递权重进行微调和稀疏编码。实验结果表明,在八种不同癌症类型的数据集上,VAESCox模型在消融和对比实验中均取得了较高的C指数值。与其他四种基准生存分析方法相比,所提算法不仅缓解了多组学数据融合的过拟合问题,也显著提高了生存预测性能,表明不同组学数据的融合有助于预后生存结果的精准预测。 展开更多
关键词 生存分析 多组数据融合 变分自编码器 稀疏编码
下载PDF
多组学数据整合分析和应用研究综述 被引量:11
16
作者 钟雅婷 林艳梅 +2 位作者 陈定甲 彭昱忠 曾远鹏 《计算机工程与应用》 CSCD 北大核心 2021年第23期1-17,共17页
随着组学新测序技术的不断涌现和推广,产生了大量的组学数据,这些数据对人们深入研究和揭示生命奥秘有着极重要的意义。利用多组学数据整合技术分析生命科学问题可获得更丰富更全面的生命系统相关信息,已成为研究者探索生命机制的新方... 随着组学新测序技术的不断涌现和推广,产生了大量的组学数据,这些数据对人们深入研究和揭示生命奥秘有着极重要的意义。利用多组学数据整合技术分析生命科学问题可获得更丰富更全面的生命系统相关信息,已成为研究者探索生命机制的新方向。介绍了多组学数据整合分析的研究背景和研究意义,综述了近年来多组学数据整合分析的方法和相关领域的应用研究,探讨了多组学数据整合分析方法当前所存在的问题以及未来展望。 展开更多
关键词 多组数据 数据分析 生物信息 数据整合
下载PDF
基于相似核融合的多组学数据结直肠癌分子亚型研究
17
作者 武永清 郭志飞 +3 位作者 房瑞玲 李治 曹红艳 崔跃华 《中国卫生统计》 CSCD 北大核心 2021年第5期650-655,660,共7页
目的探讨相似核融合(similarity kernel fusion, SKF)方法在整合多组学数据的结直肠癌分子分型中的应用,识别结直肠癌预后高危患者,筛选出潜在的生物标志物以及重要通路。方法采用SKF对结直肠癌患者多组学数据进行整合,得到融合核,在融... 目的探讨相似核融合(similarity kernel fusion, SKF)方法在整合多组学数据的结直肠癌分子分型中的应用,识别结直肠癌预后高危患者,筛选出潜在的生物标志物以及重要通路。方法采用SKF对结直肠癌患者多组学数据进行整合,得到融合核,在融合核基础上采用谱聚类进行聚类分型,进一步采用Cox回归研究不同分型患者的预后风险;针对不同分型,筛选差异表达的mRNA(DEmRNAs)、miRNA(DEmiRNAs)以及异常甲基化基因,对三者进行联合分析获得重合基因;最后利用GO和KEGG分析得到重合基因富集的通路。结果结直肠癌患者分为预后高危组和低危组,其中高危组的死亡风险是低危组的2.72倍,并筛选出1908个DEmRNAs, 30个DEmiRNAs, 7763个异常甲基化基因,联合分析得到35个基因同时受到mRNA、miRNA及DNA甲基化调控,并富集到有统计学差异的17个GO生物项和23条KEGG通路。结论 SKF能够有效地识别出结直肠癌预后高风险患者,并筛选出结直肠癌的潜在生物标志物及重要通路,为结直肠癌的临床诊断和治疗预后提供重要的思路和依据。 展开更多
关键词 相似核融合 多组数据 分子亚型 差异基因 结直肠癌
下载PDF
癌症多组学数据深度自编码器整合分型方法 被引量:2
18
作者 曹业伟 刘飞 《计算机工程与应用》 CSCD 北大核心 2022年第18期154-161,共8页
在癌症研究中,随着高通量测序技术发展已经产生了海量的复杂数据。尽管有了一些利用深度学习和统计学方法进行多组学数据整合的研究,但目前仍缺乏较为有效率的整合方法。因此提出一种基于深度自编码器的多组学数据整合方法(deep autoenc... 在癌症研究中,随着高通量测序技术发展已经产生了海量的复杂数据。尽管有了一些利用深度学习和统计学方法进行多组学数据整合的研究,但目前仍缺乏较为有效率的整合方法。因此提出一种基于深度自编码器的多组学数据整合方法(deep autoencoder for multi-omics integration,DAEMI)。它利用自编码器中的瓶颈层,学习多组学数据的特征表示。与先前利用深度学习整合的研究相比,DAEMI可以发现明显生存差异的癌症亚型。同时因为不需要生存数据来选择特征,DAEMI可以使用更多特征进行K均值聚类,进而完成癌症分型任务。将DAEMI应用于模拟数据集与四个癌症数据集实验,通过与高阶路径相似度网络的融合模型(HOPES)、相似性网络融合(SNF)、iClusterPlus和moCluster进行比较,结合模拟数据集测试结果与真实癌症数据集测试结果来看,DAEMI要优于其他方法。相应的生物功能分析揭示,神经退行性疾病与线粒体功能障碍可能与癌症共享某些生物学通路。 展开更多
关键词 多组数据整合 癌症分型 K均值 深度学习 生存分析
下载PDF
机器学习在多组学数据分析中的应用 被引量:5
19
作者 邱越 邢卓 +1 位作者 孙筱松 何宇腾 《科技与创新》 2021年第24期170-171,共2页
随着高通量技术的发展,已经积累了不同种类的组学数据,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学和宏基因组学,因此需要对不同类型的多组学数据进行综合分析,以了解疾病发展的潜在机制。机器学习算法现在正成为分析... 随着高通量技术的发展,已经积累了不同种类的组学数据,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学和宏基因组学,因此需要对不同类型的多组学数据进行综合分析,以了解疾病发展的潜在机制。机器学习算法现在正成为分析和理解疾病多组学数据的有效工具。讨论了基于机器学习的多组学数据分析的挑战及应用,包括疾病亚型识别、生物标志物发现、通路分析和药物发现及其再利用。 展开更多
关键词 机器学习 多组数据 数据分析 应用
下载PDF
基于基因注意力和多组学的低级别胶质瘤分类方法
20
作者 程昊 韩笑 +2 位作者 任建雪 闫奥煜 王会青 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期63-75,共13页
现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力... 现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力网络提取LGG多组学数据的重要特征,使用嵌入网络处理临床数据得到临床数据特征;将临床数据特征与组学数据重要特征进行融合,采用密集深度神经网络进行LGG分子亚型分类。实验结果表明,MODDA的分类性能优于现有LGG分子亚型分类方法,并且在外部验证数据集上也表现出较好的泛化性能。此外,对卡方检验过程中发现的重要基因进行了富集基因本体论(gene ontology,GO)术语和生物学途径分析,有助于LGG的个性化治疗。 展开更多
关键词 低级别胶质瘤 分子亚型 多组数据 基因注意力 深度神经网络
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部