生物学通路被广泛应用于基因功能学研究,但现有的生物学通路知识并不完善,仍需进一步扩充。生物信息学预测为通路扩充提供了一种有效且经济的途径。文章提出了一种融合蛋白质?蛋白质互作知识以及Gene Ontology(GO)数据库信息进行基因通...生物学通路被广泛应用于基因功能学研究,但现有的生物学通路知识并不完善,仍需进一步扩充。生物信息学预测为通路扩充提供了一种有效且经济的途径。文章提出了一种融合蛋白质?蛋白质互作知识以及Gene Ontology(GO)数据库信息进行基因通路预测的新方法。首先选取目标基因在蛋白质?蛋白质互作层面上的邻居所在的Kyoto Encyclopedia of Genes and Genomes(KEGG)通路为候选通路,然后通过检验候选通路中的基因是否在与目标基因关联的GO节点富集来判断目标基因的通路归属。分别利用Human Protein Reference Database(HPRD)和Biological General Repository for Interaction Datasets(BioGRID)数据库中的蛋白质?蛋白质互作信息进行预测。结果表明,在两套数据中,随着互作邻居个数的增加,预测的平均准确率(在所有目标基因注释的通路中被成功预测的比例)及相对准确率(在至少有一个注释通路被成功预测的基因集中,所有注释通路均被预测正确的基因所占的比例)均呈现上升趋势。当互作邻居个数达到22时,预测的平均准确率分别达到96.2%(HPRD)和96.3%(BioGRID),而相对准确率分别为93.3%(HPRD)和84.1%(BioGRID)。进一步利用新版数据库对旧版数据库中被更新的89个基因进行验证,至少有一个更新通路被预测正确的基因有50个,其中43个基因的更新通路被完全正确预测,相对准确率为86.0%。这些结果显示该方法是一种可靠且有效的通路扩充方法。展开更多
不宁腿综合征(Restless legs syndrome,RLS)遗传学研究近年来获得了许多重要的进展,极大地丰富了对于这种疾病分子机制的认识。RLS是一种常见的复杂疾病,几个遗传流行病学和双生子研究对RLS遗传组分进行了剖析,说明RLS是一个遗传性很强...不宁腿综合征(Restless legs syndrome,RLS)遗传学研究近年来获得了许多重要的进展,极大地丰富了对于这种疾病分子机制的认识。RLS是一种常见的复杂疾病,几个遗传流行病学和双生子研究对RLS遗传组分进行了剖析,说明RLS是一个遗传性很强的性状,其遗传力约为50%。采用基于模型的连锁分析方法或者是不依赖于模型的连锁分析方法目前已定位了5个重要的RLS疾病连锁位点:12q13-23,14q13-21,9p24-22,2q33和20p13,为定位克隆RLS致病基因或者易感基因提供了连锁图谱。最新基于高通量的SNPs分型平台开展的全基因组分析确立3个与RLS显著关联的区域:6p21.2,2p14和15q23。文章结合作者近年来从事不宁腿综合征遗传学的研究工作,对该领域的重要成果进行了汇总和评述。展开更多
Objective: To develop novel strategies to identify relevant molecular signatures for complex human diseases based on data of identical-by-decent profiles and genomic context.Methods: In the proposed strategies, we def...Objective: To develop novel strategies to identify relevant molecular signatures for complex human diseases based on data of identical-by-decent profiles and genomic context.Methods: In the proposed strategies, we define four relevancy criteria for mapping SNP-phenotype relationships-point-wise IBD mean difference, averaged IBD difference for window, Z curve and averaged slope for window.Results: Application of these criteria and permutation test to 100 simulated replicates for two hypothetical American populations to extract the relevant SNPs for alcoholism based on sib-pair IBD profiles of pedigrees demonstrates that the proposed strategies have successfully identified most of the simulated true loci.Conclusion: The data mining practice implies that IBD statistic and genomic context could be used as the informatics for locating the underlying genes for complex human diseases. Compared with the classical Haseman-Elston sib-pair regression method, the proposed strategies are more efficient for large-scale genomic mining.展开更多
Objective: To extract the relevant SNPs for alcoholism using sib-pair IBD profiles of pedigrees.Methods: We used the ensemble decision approach, a supervised learning approach based on decision forests, to locate alco...Objective: To extract the relevant SNPs for alcoholism using sib-pair IBD profiles of pedigrees.Methods: We used the ensemble decision approach, a supervised learning approach based on decision forests, to locate alcoholism relevant SNPs using genome-wide SNP data. Results: Application to a publicly available large dataset of 100 simulated replicates for three American populations (http://www.gaworkshop.org/) demonstrates that the proposed approach has successfully located all of the simulated true loci.Conclusion: The numerical results establish the proposed decision forest analysis to be a powerful and practical alternative for large-scale family-based association study.展开更多
基因芯片技术为疾病异质性研究提供了有力的工具。当前基于传统聚类分析的方法一般利用芯片上大量基因作为特征来发现疾病的亚型,因此它们没有考虑到特征中包含的大量无关基因会掩盖有意义的疾病样本的分割。为了避免这个缺点,提出了基...基因芯片技术为疾病异质性研究提供了有力的工具。当前基于传统聚类分析的方法一般利用芯片上大量基因作为特征来发现疾病的亚型,因此它们没有考虑到特征中包含的大量无关基因会掩盖有意义的疾病样本的分割。为了避免这个缺点,提出了基于耦合双向聚类的异质性分析方法(Heterogeneous Analysis Based on Coupled Two-WayClustering,HCTWC)来搜索有意义的基因簇以便发现样本的内在分割。该方法被应用于弥漫性大B细胞淋巴瘤(diffuselargeB-celllymphomaDLBCL)芯片数据集,通过识别的基因簇作为特征对DLBCL样本聚类发现生存期分别为55%和25%的两类DLBCL亚型(P<0.05),因此,HCTWC方法在解决疾病异质性是有效的。展开更多
基因表达调控网络的深入研究有利于分子药物靶标的发现以及推新药的研发,是未来生物医学研究的重要内容。针对基因表达调控的时间延迟问题,我们初步设计开发了一套基于基因表达谱数据识别基因表达时间延迟调控关系的软件ITdGR(Identific...基因表达调控网络的深入研究有利于分子药物靶标的发现以及推新药的研发,是未来生物医学研究的重要内容。针对基因表达调控的时间延迟问题,我们初步设计开发了一套基于基因表达谱数据识别基因表达时间延迟调控关系的软件ITdGR(Identification of Time-delayed Gene Regulations)。并已经成功地将该软件应用于酿酒酵母细胞周期的基因表达谱数据中,识别出的调控关系与已有的知识相符。该软件为基因调控网络重构以及基因表达动态研究提供了一个方便和快捷的工具。展开更多
文摘生物学通路被广泛应用于基因功能学研究,但现有的生物学通路知识并不完善,仍需进一步扩充。生物信息学预测为通路扩充提供了一种有效且经济的途径。文章提出了一种融合蛋白质?蛋白质互作知识以及Gene Ontology(GO)数据库信息进行基因通路预测的新方法。首先选取目标基因在蛋白质?蛋白质互作层面上的邻居所在的Kyoto Encyclopedia of Genes and Genomes(KEGG)通路为候选通路,然后通过检验候选通路中的基因是否在与目标基因关联的GO节点富集来判断目标基因的通路归属。分别利用Human Protein Reference Database(HPRD)和Biological General Repository for Interaction Datasets(BioGRID)数据库中的蛋白质?蛋白质互作信息进行预测。结果表明,在两套数据中,随着互作邻居个数的增加,预测的平均准确率(在所有目标基因注释的通路中被成功预测的比例)及相对准确率(在至少有一个注释通路被成功预测的基因集中,所有注释通路均被预测正确的基因所占的比例)均呈现上升趋势。当互作邻居个数达到22时,预测的平均准确率分别达到96.2%(HPRD)和96.3%(BioGRID),而相对准确率分别为93.3%(HPRD)和84.1%(BioGRID)。进一步利用新版数据库对旧版数据库中被更新的89个基因进行验证,至少有一个更新通路被预测正确的基因有50个,其中43个基因的更新通路被完全正确预测,相对准确率为86.0%。这些结果显示该方法是一种可靠且有效的通路扩充方法。
文摘不宁腿综合征(Restless legs syndrome,RLS)遗传学研究近年来获得了许多重要的进展,极大地丰富了对于这种疾病分子机制的认识。RLS是一种常见的复杂疾病,几个遗传流行病学和双生子研究对RLS遗传组分进行了剖析,说明RLS是一个遗传性很强的性状,其遗传力约为50%。采用基于模型的连锁分析方法或者是不依赖于模型的连锁分析方法目前已定位了5个重要的RLS疾病连锁位点:12q13-23,14q13-21,9p24-22,2q33和20p13,为定位克隆RLS致病基因或者易感基因提供了连锁图谱。最新基于高通量的SNPs分型平台开展的全基因组分析确立3个与RLS显著关联的区域:6p21.2,2p14和15q23。文章结合作者近年来从事不宁腿综合征遗传学的研究工作,对该领域的重要成果进行了汇总和评述。
文摘Objective: To develop novel strategies to identify relevant molecular signatures for complex human diseases based on data of identical-by-decent profiles and genomic context.Methods: In the proposed strategies, we define four relevancy criteria for mapping SNP-phenotype relationships-point-wise IBD mean difference, averaged IBD difference for window, Z curve and averaged slope for window.Results: Application of these criteria and permutation test to 100 simulated replicates for two hypothetical American populations to extract the relevant SNPs for alcoholism based on sib-pair IBD profiles of pedigrees demonstrates that the proposed strategies have successfully identified most of the simulated true loci.Conclusion: The data mining practice implies that IBD statistic and genomic context could be used as the informatics for locating the underlying genes for complex human diseases. Compared with the classical Haseman-Elston sib-pair regression method, the proposed strategies are more efficient for large-scale genomic mining.
文摘Objective: To extract the relevant SNPs for alcoholism using sib-pair IBD profiles of pedigrees.Methods: We used the ensemble decision approach, a supervised learning approach based on decision forests, to locate alcoholism relevant SNPs using genome-wide SNP data. Results: Application to a publicly available large dataset of 100 simulated replicates for three American populations (http://www.gaworkshop.org/) demonstrates that the proposed approach has successfully located all of the simulated true loci.Conclusion: The numerical results establish the proposed decision forest analysis to be a powerful and practical alternative for large-scale family-based association study.
文摘基因芯片技术为疾病异质性研究提供了有力的工具。当前基于传统聚类分析的方法一般利用芯片上大量基因作为特征来发现疾病的亚型,因此它们没有考虑到特征中包含的大量无关基因会掩盖有意义的疾病样本的分割。为了避免这个缺点,提出了基于耦合双向聚类的异质性分析方法(Heterogeneous Analysis Based on Coupled Two-WayClustering,HCTWC)来搜索有意义的基因簇以便发现样本的内在分割。该方法被应用于弥漫性大B细胞淋巴瘤(diffuselargeB-celllymphomaDLBCL)芯片数据集,通过识别的基因簇作为特征对DLBCL样本聚类发现生存期分别为55%和25%的两类DLBCL亚型(P<0.05),因此,HCTWC方法在解决疾病异质性是有效的。
文摘基因表达调控网络的深入研究有利于分子药物靶标的发现以及推新药的研发,是未来生物医学研究的重要内容。针对基因表达调控的时间延迟问题,我们初步设计开发了一套基于基因表达谱数据识别基因表达时间延迟调控关系的软件ITdGR(Identification of Time-delayed Gene Regulations)。并已经成功地将该软件应用于酿酒酵母细胞周期的基因表达谱数据中,识别出的调控关系与已有的知识相符。该软件为基因调控网络重构以及基因表达动态研究提供了一个方便和快捷的工具。