期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于RefSeq数据库的人类标准转录数据集的构建 被引量:6
1
作者 李稚锋 李玉鉴 +4 位作者 赵东升 杭兴宜 王正志 骆志刚 张成岗 《遗传》 CAS CSCD 北大核心 2006年第3期329-333,共5页
美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。然而,由于基因普遍存在的多态性以及不同实验室对于序列测定的质量控制存在差异等原因,已发现RefSeq数据库可能存在部分质量问... 美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。然而,由于基因普遍存在的多态性以及不同实验室对于序列测定的质量控制存在差异等原因,已发现RefSeq数据库可能存在部分质量问题。文章基于“中心法则”提出“标准转录数据集”的概念,以人类基因和基因组序列为例,利用BLAT、Sim4和自行设计的EIparser等基因结构解析程序分析了RefSeq人类基因转录数据(2005-4-18)与目前所公布的人类标准基因组(2005-4-20)的对应关系。对于有实验证据支持的标记为NM_和NR_的记录,多种程序分析结果表明,其与标准基因组完全相对应的记录为9 771个;符合多个程序修订标准的记录有10 943个;而与标准基因组有较大差异的记录为203个,多种程序分析结果不一致的记录为2 676个,提示研究人员在使用此非标准转录组数据时,必须考虑到其存在非标准转录的原因甚至存在错误的可能性。此文为基于标准、高质量转录数据集的生物信息学数据分析、分子生物学实验设计、基因多样性和遗传变异分析等提供了重要的参考标准。相关结果可通过http://biocompute.bmi.ac.cn/transcriptome/index.htm访问。 展开更多
关键词 refseq数据库 转录组 质量控制 人类标准转录数据集
下载PDF
基于RefSeq的人类基因荧光定量PCR引物库的构建
2
作者 周贵良 洪来法 +2 位作者 梁敏玲 郑柳城 陈转贤 《生物信息学》 2010年第2期139-141,共3页
利用NCBI提供的RefSeq序列,通过BLAT、Sim4和自主开发的剪接比对程序Ealter1.0对人类RefSeq转录本进行外显子预测,根据预测的外显子信息,采用自主开发SYBR Green I Real Time PCR引物设计程序E-qPCR-Design1.0高通量设计21,118对SYBR Gr... 利用NCBI提供的RefSeq序列,通过BLAT、Sim4和自主开发的剪接比对程序Ealter1.0对人类RefSeq转录本进行外显子预测,根据预测的外显子信息,采用自主开发SYBR Green I Real Time PCR引物设计程序E-qPCR-Design1.0高通量设计21,118对SYBR Green I Real Time PCR引物,同时选取5000条基因进行SYBR Green I Real Time PCR引物验证,95.92%的基因引物取得良好效果,1.64%的基因引物产生引物二聚体,1.08%的基因引物有非特异性扩增,通过生物信息技术分析与实验验证,建立了基于RefSeq的人类基因荧光定量PCR引物库。 展开更多
关键词 refseq转录本数据库 实时定量PCR
下载PDF
构建非冗余EID的若干技巧
3
作者 金鹰 邓小元 刘海 《华南师范大学学报(自然科学版)》 CAS 北大核心 2009年第4期94-96,110,共4页
基于GenBank构建的外显子内含子数据库(EID)含有大量的冗余数据.为了解决冗余问题,构建了基于RefSeq的非冗余EID(non-redundantEID).RefSeq是由NCBI工作人员负责维护和更新的参考序列库,为基因组注释、基因识别、基因突变、多态性分析... 基于GenBank构建的外显子内含子数据库(EID)含有大量的冗余数据.为了解决冗余问题,构建了基于RefSeq的非冗余EID(non-redundantEID).RefSeq是由NCBI工作人员负责维护和更新的参考序列库,为基因组注释、基因识别、基因突变、多态性分析、表达研究和比对分析提供了重要的参考.该EID可用于大规模分析Exon/Intron结构和内含子剪切(Splicing)的研究,并拥有一些内部机制来控制数据质量和可能出现的错误.同时,它的新的改进是增加了基因序列中非翻译区(UTR)的数据内容.该文对构建基于RefSeq的非冗余EID的一些技巧作出说明. 展开更多
关键词 非冗余EID refseq 剪切 非翻译区
下载PDF
通过新基因计算机识别与实验确认对NCBI人类基因数据库一些模式参考序列错误的分析与纠正 被引量:4
4
作者 张德礼 季梁 李衍达 《Acta Genetica Sinica》 SCIE CAS CSCD 北大核心 2004年第5期431-443,共13页
采用生物信息学分析与实验确认相结合的技术路线 ,通过所识别的基因在非冗余数据库比对发现了网上公布的计算机注释人类基因组编码序列存在各种类型的多处错误 ,包括cDNA水平的一个或一段碱基插入、缺失或突变 ,或是这些错误的不同排列... 采用生物信息学分析与实验确认相结合的技术路线 ,通过所识别的基因在非冗余数据库比对发现了网上公布的计算机注释人类基因组编码序列存在各种类型的多处错误 ,包括cDNA水平的一个或一段碱基插入、缺失或突变 ,或是这些错误的不同排列组合 ,其中以错误插入为多 ,往往导致编码氨基酸的移码突变。最先举证了NCBIGENOMEAnnotationProject预测人类新基因的下列错误类型 :(1)开放读码框架 (ORF)中错误插入一个碱基造成编码氨基酸移码 ;(2 )错误拼接 ;(3)开放读框中错误插入一个或一段碱基造成该读框提前终止。只编码N 端氨基酸的cDNA序列而不完整 ;(4 )只有编码C 端氨基酸序列的cDNA而不完整 ;(5 )只是正确基因ORF中间的一段编码蛋白cDNA序列而不完整 ,缺N 端与C 端氨基酸序列 ,并且将不完整蛋白氨基酸序列的第一个非起始码氨基酸错误地预测为起始码氨基酸 ,如将L错误地预测为M ;(6 )开放读框中错误插入一个或一段碱基造成前面出现不该有的终止码 ,因而编码蛋白缺开头部分氨基酸 ;(7)可能将污染基因组序列当作完整基因cDNA序列对待而预测出所谓单一外显子基因。即便真是基因 ,也只是较长单一外显子mRNA中有一小ORF ,而ORF起始码上游同一相位确实存在终止码 ,无其他特点符合基因条件 ;(8)所预测基因只有ORF , 展开更多
关键词 人类基因组 表达序列标签 计算机克隆 基因纠正 模式参考序列 生物信息学
下载PDF
用电子克隆新基因C17orf32和ZNF362对NCBI人类基因数据库模式参考序列5种错误类型的分析与纠正 被引量:3
5
作者 张德礼 李衍达 季梁 《Acta Genetica Sinica》 SCIE CAS CSCD 北大核心 2004年第4期325-334,共10页
采用生物信息学分析与实验确认相结合的技术路线 ,通过所识别的基因在非冗余数据库比对发现了网上公布的计算机注释人类基因组编码序列存在各种类型的多处错误。该策略既有助于发现更多的人类新基因 ,又有助于纠正美国国家生物技术信息... 采用生物信息学分析与实验确认相结合的技术路线 ,通过所识别的基因在非冗余数据库比对发现了网上公布的计算机注释人类基因组编码序列存在各种类型的多处错误。该策略既有助于发现更多的人类新基因 ,又有助于纠正美国国家生物技术信息中心 (NCBI)基因组注释项目公布的参考序列 (REFSEQs)中所存在的错误。比如他们采用基因预测方法通过自动计算分析从NCBIcontigNT_0 10 80 8预测到两个模式参考序列LOC12 4 919和LOC14 70 0 7,本该都是C17orf32 ,但却都是C17orf32的不同错误形式 ,分别为第 1和 2类型错误 ;再如 ,他们采用基因预测方法通过自动计算分析从NCBIcontigNT_0 0 4 5 11预测到 3个模式参考序列LOC14 90 7、LOC2 0 0 0 84和LOC9112 6 ,实际上都是ZNF36 2一种基因 ,却提交了ZNF36 2的 3种不同错误形式 ,分别为第 4、5和 7类型错误。本研究利用计算机识别并结合实验验证能够纠正或避免现有的人类基因组编码序列错误。以前公开发表的文献没有明确指出NCBI人类基因模式参考序列存在错误 ,因此应当慎重看待计算机注释的可能存在各种类型错误的人类基因组编码序列。人类新基因的正确识别和注释仍是一项长期而繁重的任务。 展开更多
关键词 人类基因组 表达序列标签 计算机克隆 模式参考序列 生物信息学
下载PDF
人类基因组非冗余Exon/Intron数据库的构建
6
作者 罗冬梅 金鹰 +1 位作者 邓小元 刘海 《华南师范大学学报(自然科学版)》 CAS 北大核心 2010年第4期87-92,共6页
以Homo.sapiensRefSeq作为原始数据库来构建EID(Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列... 以Homo.sapiensRefSeq作为原始数据库来构建EID(Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大小、总数、非翻译区(UTR)内含子、内含子相位、内含子剪切位点模式).结果表明,人类24条染色体(22条常染色体和2条性染色体,共计2 870 827355 bps)中含有32 157个基因标识符(gene blocks),其中7 398个基因为假基因,4 014个基因发生了可变剪切(Al-ternative Splicing,AS),15 533个基因含有CDS内含子,765个基因含有UTR内含子,2 585个基因不含有内含子,其他的为异常基因. 展开更多
关键词 非冗余外显子/内含子数据库 refseq Homo.sapiens 编码序列 非翻译区
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部