基于R语言的基因表达芯片注释流程被引量：1

An R workflow for annotation of gene expression microarray

下载PDF

导出

摘要基于R语言,将R程序包Rsubread、Rsamtools、refGenome和GenomicRanges整合为一个完整的流程,实现了基因表达芯片探针序列的自主注释。以应用范围最广的GPL570,GPL10558和曾使用的GPL21163芯片平台为测试数据进行重注释,并将GPL570的新注释与现存的注释做比较;对较新的长链非编码RNA表达芯片GPL16956进行自主注释,以测试流程的实用性。结果表明:GPL570的自主注释覆盖到了89.58%的探针,GPL10558、GPL21163和GPL16956的自主注释分别覆盖到了81.54%、84.68%和76.15%的探针。在GPL570新注释单独比对到的7107个基因中,有411个编码蛋白的基因能够富集到GO条目,而另外两种注释未能比对到这些基因,证明了本流程的可靠性和先进性。因此,本流程实用、有效,为数据挖掘工作提供了新的有力工具。 Based on the R language,the packages Rsubread,Rsamtools,refGenome,and GenomicRanges are integrated into a complete workflow to realize the self⁃annotation of the microarray gene expression.The most widely applied chip platform GPL570,GPL10558 and GPL21163 used as re⁃annotating datasets and the new annotation of GPL570 is compared with existing one.Self⁃annotation of the relatively new lincRNA expression chip GPL16956 is accomplished to test the practicality of the workflow.The annotation coverage rate of GPL570 was 89.58%whereas the rate of GPL10558,GPL21163 and GPL16956 were 81.54%,84.68%and 76.15%.Among the unique 7107 genes in this workflow,411 protein⁃coding gene were enriched to GO terms whereas the other two existing annotations could not,indicating the reliability and advancement of this study.Therefore,this workflow is practical and effective,and provides a new powerful tool for data mining.

作者孙小洁郑方强曾健明 SUN Xiaojie;ZHENG Fangqiang;ZENG Jianming(College of Plant Protection,Shandong Agricultural University,Tai′an 271018,China;Zhuhai Jianming Biomedical Technology Co.,Ltd.,Zhuhai 519000,China)

机构地区山东农业大学植物保护学院珠海健明生物医药科技有限公司

出处《生物加工过程》 CAS 2021年第1期17-22,共6页 Chinese Journal of Bioprocess Engineering

关键词基因表达芯片(GEO) 数据挖掘 R语言 gene expression microarray(GEO) data mining R langrage

分类号 Q786 [生物学—分子生物学]

引文网络
相关文献

参考文献1

1余海浪,马文丽,郑文岭.用于基因数据挖掘的基因表达数据库GEO[J].中国生物工程杂志,2007,27(8):96-103. 被引量：18

二级参考文献15

1Ron E, Alex L. The gene expression omnibus (GEO) : a gene expression and hybridization reository. The NCBI Handbook, 2003(6) :1 -17
2Edgar R,Domrachev M,Lash A E. Gene expression omnibus: NCBI gene expression and hybridization array data repository . Nucleic Acids Research, 2002,30( 1 ) :207 -210
3Brazma A, Hingamp P, Quackenbush J, et al. Minimum information about a microarray experiment (MIAME) -toward standards for microarray data. Nature Genet, 2001,29 (4) :365-371
4Ball C, Brazma A, Causton H, et al. Microarray data standards: An open letter. Environ Health Perspect, 2004,112 ( 12 ) : A666 - A667
5Spellman P T, Miller M, Stewart J, et al. Design and implementation of microarray gene expression markup language ( MAGE-ML). Genome Biology, 2002,3 ( 9 ) : research0046.1 -0046.9
6Schuler G D, Epstein J A, Ohkawa H, et al. Entrez: molecular biology database and retrieval system. Methods Enzymol, 1996, 266:141 - 162
7Tanya B, Tugba O S, Dennis B T, et al. NCBI GEO: mining millions of expression profiles--database and tools. Nucleic Acids Research, 2005,33( Database issue) :562 -566
8Altschul S F, Gish W, Miller W, et al. Basic local alignment search tool. J Mol Biol,1990,215:403 -410
9Wheeler D L, Church D M, Edgar R, et al. Database resources of the National Center for Biotechnology Information:update. Nucleic Acids Res, 2004,32 ( Database issue) : 35 - 40
10Tasheva E S,Ke A,Conrad G W. Analysis of the expression of chondroadherin in mouse ocular and non-ocular tissues. Mol Vis, 2004,10:544 -554

共引文献17

1王维,林雷,郭敏,粱彦军,孟祥艳,张文成.基于基因表达数据库的鼠ZFP580基因功能分析[J].武警医学院学报,2011,20(2):147-150. 被引量：3
2付媛,王岩,周柚,张帆,王珏鑫,梁艳春.基于SVM-RFE的水稻抗病基因筛选[J].吉林大学学报（理学版）,2011,49(6):1101-1104. 被引量：1
3周漩,吴韵瑶,钟兆健.乳腺癌转移相关分子标志物的筛选[J].广东药学院学报,2015,31(5):676-678.
4卢娟,郑剑锋.利用公共数据库挖掘肿瘤关键基因[J].实验与检验医学,2015,33(6):711-713.
5郑世超,霍梦琪,张燕玲,乔延江.动态网络模块分析丹酚酸B治疗冠心病作用机制[J].中国科学：生命科学,2016,46(8):929-939. 被引量：5
6刘浩,朱维宁,张大鹏,张林生.小麦脱水素基因WDHN1-2的克隆及其表达分析[J].麦类作物学报,2016,36(10):1291-1298. 被引量：1
7霍梦琪,张燕玲,郑世超,乔延江.基于共表达蛋白相互作用网络探讨川芎嗪治疗冠心病的机制[J].北京中医药大学学报,2016,39(12):989-997. 被引量：13
8李丹辉,朱建华,乐健伟,王志宇,叶继辉,范震.急性心肌梗死相关基因的生物信息学分析[J].浙江医学,2017,39(24):2232-2235. 被引量：1
9闫小妮,田国祥,郭晓娟,李豹,张军,吕军.GEO数据库架构、申请及数据提取方法与流程[J].中国循证心血管医学杂志,2019,11(2):134-137. 被引量：10
10田阔,王健健,刘佩芳,张荟雪,卢晓宇,徐晨,王丽华.脓毒症患者骨骼肌细胞基因标志物的特征分析[J].中华危重病急救医学,2019,31(3):293-297. 被引量：2

同被引文献2

1袁尔东.功能性甜味剂塔格糖的生产及应用[J].食品与发酵工业,2005,31(1):109-113. 被引量：6
2徐铮,徐恺,陈昱金,李丽,付铭洋.异构酶在生物制造中的研究进展[J].食品与发酵工业,2021,47(5):244-251. 被引量：4

引证文献1

1张芝琳,陈耀,朱丽英,刘伟,江凌.D-半乳糖底物特异性木糖还原酶的挖掘及其在D-塔格糖合成中的应用[J].食品与发酵工业,2023,49(13):1-8.

1张霞军,胡孟谋,袁红萍,储磊,曾明辉.基于生物信息学分析肾透明细胞癌组织中差异过表达miRNAs及其临床意义[J].生物技术,2020,30(5):457-464. 被引量：3
2吕伟峰,贾博,刘伟,郭庆东.组织蛋白酶S(CTSS)在替莫唑胺耐药胶质母细胞瘤T98G细胞高表达并与预后差相关[J].细胞与分子免疫学杂志,2020,36(10):924-929.
3孟河杉.机器学习技术在数据挖掘中的商业应用[J].数码设计,2021,10(1):148-148. 被引量：2
4杜亚娟,赵恩法,张玉顺.基于支持向量机递归特征消除筛选急性心肌梗死相关免疫基因诊断急性心肌梗死的价值[J].心脏杂志,2020(5):471-475. 被引量：2
5孙泽龙,王萍利.信息技术中Python语言的特点及应用[J].西安职业技术学院职教研究,2020,13(4):52-56.
6刘小红,张咏祀,张春艳,文国琴,何道文,赵欢.水杉核糖体蛋白基因MeGl-RPL10的克隆及生物信息学分析[J].基因组学与应用生物学,2020(9):4067-4072.
7张艳珍,程存刚,赵德英,周江涛,陈艳辉,张海棠,解斌.施氮水平对富士苹果果实钙形态及品质的影响[J].植物营养与肥料学报,2021,27(1):87-96. 被引量：9
8赵伟,李琳,刘永辉,章露露,杨莹,孟海军,王磊,吴国良.红仁核桃自然杂交后代不同表型叶片差异表达CHS基因的鉴定及生物信息学分析[J].果树学报,2021,38(2):179-191. 被引量：10

生物加工过程

2021年第1期

浏览历史

内容加载中请稍等...

基于R语言的基因表达芯片注释流程被引量：1

参考文献1

二级参考文献15

共引文献17

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于R语言的基因表达芯片注释流程 被引量：1

参考文献1

二级参考文献15

共引文献17

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于R语言的基因表达芯片注释流程被引量：1