生物学通路被广泛应用于基因功能学研究,但现有的生物学通路知识并不完善,仍需进一步扩充。生物信息学预测为通路扩充提供了一种有效且经济的途径。文章提出了一种融合蛋白质?蛋白质互作知识以及Gene Ontology(GO)数据库信息进行基因通...生物学通路被广泛应用于基因功能学研究,但现有的生物学通路知识并不完善,仍需进一步扩充。生物信息学预测为通路扩充提供了一种有效且经济的途径。文章提出了一种融合蛋白质?蛋白质互作知识以及Gene Ontology(GO)数据库信息进行基因通路预测的新方法。首先选取目标基因在蛋白质?蛋白质互作层面上的邻居所在的Kyoto Encyclopedia of Genes and Genomes(KEGG)通路为候选通路,然后通过检验候选通路中的基因是否在与目标基因关联的GO节点富集来判断目标基因的通路归属。分别利用Human Protein Reference Database(HPRD)和Biological General Repository for Interaction Datasets(BioGRID)数据库中的蛋白质?蛋白质互作信息进行预测。结果表明,在两套数据中,随着互作邻居个数的增加,预测的平均准确率(在所有目标基因注释的通路中被成功预测的比例)及相对准确率(在至少有一个注释通路被成功预测的基因集中,所有注释通路均被预测正确的基因所占的比例)均呈现上升趋势。当互作邻居个数达到22时,预测的平均准确率分别达到96.2%(HPRD)和96.3%(BioGRID),而相对准确率分别为93.3%(HPRD)和84.1%(BioGRID)。进一步利用新版数据库对旧版数据库中被更新的89个基因进行验证,至少有一个更新通路被预测正确的基因有50个,其中43个基因的更新通路被完全正确预测,相对准确率为86.0%。这些结果显示该方法是一种可靠且有效的通路扩充方法。展开更多
【目的】提出基于知识融合策略构建基因网络方法 ,并应用于双相障碍相关的致病基因网络分析。【方法】将Wellcome Trust Case Control Consortium(WTCCC)提供的双相障碍全基因组单核苷酸多态(SNP)数据与人类蛋白质-蛋白质互作数据库对...【目的】提出基于知识融合策略构建基因网络方法 ,并应用于双相障碍相关的致病基因网络分析。【方法】将Wellcome Trust Case Control Consortium(WTCCC)提供的双相障碍全基因组单核苷酸多态(SNP)数据与人类蛋白质-蛋白质互作数据库对应的基因做交集。通过单体型全模型logistic回归模型检验获得经多重检验校正统计学显著的基因互作对子,并由此构建致病基因网络以及挖掘连通度显著高于理论分布的核心致病基因。【结果】采用知识融合的方法,将数据维度从482 248个SNP位点降至98 157。经统计模型检验获得3 841个互作基因用于构建双相障碍致病基因网络,并挖掘出115个核心致病基因。其中,在连通度高于30的29个核心基因中,有12个重复了以前的报道(PRKCA,EGFR,ESR1,ATXN1,FYN,CREBBP,TP53,AKT1,CSNK2A1,DLG1,PTN和LYN),另外17个未被报道过的基因从其生物功能以及致病分子机制上看,可能是新的双相障碍易感基因(SMAD3,SRC,GRB2,PIK3R1,ZBTB16,ABL1,APP,EP300,TGFBR1,SYK,YWHAZ,INSR,MAPK1,PRKCB,PRKCD,SMAD2和SVIL)。【结论】本文提出的基于蛋白质-蛋白质互作知识引导的基因网络构建方法是一种可靠的系统性分析方法,有助于全面地了解复杂疾病的分子网络机制和确立核心风险基因。展开更多
文摘生物学通路被广泛应用于基因功能学研究,但现有的生物学通路知识并不完善,仍需进一步扩充。生物信息学预测为通路扩充提供了一种有效且经济的途径。文章提出了一种融合蛋白质?蛋白质互作知识以及Gene Ontology(GO)数据库信息进行基因通路预测的新方法。首先选取目标基因在蛋白质?蛋白质互作层面上的邻居所在的Kyoto Encyclopedia of Genes and Genomes(KEGG)通路为候选通路,然后通过检验候选通路中的基因是否在与目标基因关联的GO节点富集来判断目标基因的通路归属。分别利用Human Protein Reference Database(HPRD)和Biological General Repository for Interaction Datasets(BioGRID)数据库中的蛋白质?蛋白质互作信息进行预测。结果表明,在两套数据中,随着互作邻居个数的增加,预测的平均准确率(在所有目标基因注释的通路中被成功预测的比例)及相对准确率(在至少有一个注释通路被成功预测的基因集中,所有注释通路均被预测正确的基因所占的比例)均呈现上升趋势。当互作邻居个数达到22时,预测的平均准确率分别达到96.2%(HPRD)和96.3%(BioGRID),而相对准确率分别为93.3%(HPRD)和84.1%(BioGRID)。进一步利用新版数据库对旧版数据库中被更新的89个基因进行验证,至少有一个更新通路被预测正确的基因有50个,其中43个基因的更新通路被完全正确预测,相对准确率为86.0%。这些结果显示该方法是一种可靠且有效的通路扩充方法。
文摘【目的】提出基于知识融合策略构建基因网络方法 ,并应用于双相障碍相关的致病基因网络分析。【方法】将Wellcome Trust Case Control Consortium(WTCCC)提供的双相障碍全基因组单核苷酸多态(SNP)数据与人类蛋白质-蛋白质互作数据库对应的基因做交集。通过单体型全模型logistic回归模型检验获得经多重检验校正统计学显著的基因互作对子,并由此构建致病基因网络以及挖掘连通度显著高于理论分布的核心致病基因。【结果】采用知识融合的方法,将数据维度从482 248个SNP位点降至98 157。经统计模型检验获得3 841个互作基因用于构建双相障碍致病基因网络,并挖掘出115个核心致病基因。其中,在连通度高于30的29个核心基因中,有12个重复了以前的报道(PRKCA,EGFR,ESR1,ATXN1,FYN,CREBBP,TP53,AKT1,CSNK2A1,DLG1,PTN和LYN),另外17个未被报道过的基因从其生物功能以及致病分子机制上看,可能是新的双相障碍易感基因(SMAD3,SRC,GRB2,PIK3R1,ZBTB16,ABL1,APP,EP300,TGFBR1,SYK,YWHAZ,INSR,MAPK1,PRKCB,PRKCD,SMAD2和SVIL)。【结论】本文提出的基于蛋白质-蛋白质互作知识引导的基因网络构建方法是一种可靠的系统性分析方法,有助于全面地了解复杂疾病的分子网络机制和确立核心风险基因。