生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National...生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National Genomics Data Center,NGDC)面向我国人口健康和社会可持续发展的重大战略需求,建立了生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,形成了一系列数据安全管理的制度和措施。本文聚焦于生命组学大数据全生命周期的安全管理问题,探讨生命组学大数据安全管理框架,全面分析在数据汇交、存储、管理、共享全生命周期中涉及的安全管理内容,并总结了NGDC在生命组学大数据安全管理方面的成效。最后,本文展望了生命组学大数据安全管理的发展方向,包括完善数据分级分类制度、提升数据分级安全管理技术和加强数据异地灾备建设,以期实现生命组学大数据的安全管理与可持续发展。展开更多
面向我国人口健康和社会可持续发展的重大战略需求,国家基因组科学数据中心(National Genomics Data Center,NGDC)自2019年成立以来,已初步建成具有自主知识产权、安全可控、涵盖领域广的多维组学数据汇交、存储、管理和共享体系,涵盖...面向我国人口健康和社会可持续发展的重大战略需求,国家基因组科学数据中心(National Genomics Data Center,NGDC)自2019年成立以来,已初步建成具有自主知识产权、安全可控、涵盖领域广的多维组学数据汇交、存储、管理和共享体系,涵盖基础组学数据资源、国家人类遗传资源、重要战略生物资源、生物安全资源以及生物信息分析工具和平台等,为人口健康、公共安全、育种改良、生物多样性等相关研究提供重要资源和参考信息.截至目前,NGDC已存储和管理27.6 PB的数据量,数据编号被Springer Nature,Elsevier,Wiley,Taylor&Francis等全球主要出版集团推荐或认可.尽管NGDC已连续六年被本领域国际权威期刊《核酸研究》称为与美国NCBI、欧洲EBI齐名的国际主要生物数据中心,但与国际一流数据中心仍存在一定差距.展望未来,NGDC将重点聚焦于数据智能审编、数据融合检索、生物大数据云平台、前沿算法工具等,同时在经费争取、人才培养和国际合作方面加大工作力度,建成国际领先的基因组科学数据中心,支撑我国生命与健康科学领域的科技创新发展和自立自强.展开更多
根据DNA核苷酸组分的动态变化规律将遗传密码的传统排列按密码子对GC和嘌呤含量的敏感性进行了重排.新密码表可划分为2个半区(或1/2区)和4个四分区(或1/4区).就原核生物基因组而言,当GC含量增加时,物种蛋白质组所含的氨基酸倾向于使用G...根据DNA核苷酸组分的动态变化规律将遗传密码的传统排列按密码子对GC和嘌呤含量的敏感性进行了重排.新密码表可划分为2个半区(或1/2区)和4个四分区(或1/4区).就原核生物基因组而言,当GC含量增加时,物种蛋白质组所含的氨基酸倾向于使用GC富集区和嘌呤不敏感半区所编码的氨基酸,它们均使用四重简并密码,对DNA序列的突变具有相对鲁棒性(Robustness).当GC含量降低时,大多数密码子处于AU富集区和嘌呤敏感半区,这个区域编码的氨基酸具有物理化学性质的多样性.因为当密码子第三位核苷酸(CP3)在嘌呤和嘧啶之间发生转换时,密码子所编码的氨基酸也倾向于发生变化.关于遗传密码的进化存在多种假说,包括凝固事件假说、共进化假说和立体化学假说等,每种假说均试图解释遗传密码所表现出来的某些化学和生物学规律.基于遗传密码的物理化学性质、基因组变异的规律和相关的生物学假说,本研究提出了遗传密码分步进化假说(The Stepwise Evolution Hypothesis for the Genetic Code).在人们推断的最原始的RNA世界里,原初(Primordial)遗传密码从只能识别嘌呤和嘧啶开始,编码一个或两个简单而功能明确的氨基酸.由于胞嘧啶C的化学不稳定性,最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码,却可得到一组7个多元化的氨基酸.随着生命复杂性的增加,鸟嘌呤G从主载操作信号的功能中释放出来,再伴随着C的引入,使遗传密码逐步扩展到12,15和20个氨基酸,最终完成全部进化步骤.遗传密码的进化过程同时也伴随以蛋白质为主体的分子机制和细胞过程的进化,包括氨酰tRNA合成酶(AARS)从初始翻译机器上的脱离、DNA作为信息载体而取代RNA以及AARS和tRNA共进化等基本过程.分子机制和细胞过程是生命的基本组成元件,它们不但自己不断地趋于完善,也促使生命体走着不尽相同的道路,或维持鲁棒性(Robustness,如细菌),或寻觅多元化(Diversity,如节肢动物和植物),或追求综合性(Complexity,如脊椎动物).展开更多
文摘生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National Genomics Data Center,NGDC)面向我国人口健康和社会可持续发展的重大战略需求,建立了生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,形成了一系列数据安全管理的制度和措施。本文聚焦于生命组学大数据全生命周期的安全管理问题,探讨生命组学大数据安全管理框架,全面分析在数据汇交、存储、管理、共享全生命周期中涉及的安全管理内容,并总结了NGDC在生命组学大数据安全管理方面的成效。最后,本文展望了生命组学大数据安全管理的发展方向,包括完善数据分级分类制度、提升数据分级安全管理技术和加强数据异地灾备建设,以期实现生命组学大数据的安全管理与可持续发展。
文摘根据DNA核苷酸组分的动态变化规律将遗传密码的传统排列按密码子对GC和嘌呤含量的敏感性进行了重排.新密码表可划分为2个半区(或1/2区)和4个四分区(或1/4区).就原核生物基因组而言,当GC含量增加时,物种蛋白质组所含的氨基酸倾向于使用GC富集区和嘌呤不敏感半区所编码的氨基酸,它们均使用四重简并密码,对DNA序列的突变具有相对鲁棒性(Robustness).当GC含量降低时,大多数密码子处于AU富集区和嘌呤敏感半区,这个区域编码的氨基酸具有物理化学性质的多样性.因为当密码子第三位核苷酸(CP3)在嘌呤和嘧啶之间发生转换时,密码子所编码的氨基酸也倾向于发生变化.关于遗传密码的进化存在多种假说,包括凝固事件假说、共进化假说和立体化学假说等,每种假说均试图解释遗传密码所表现出来的某些化学和生物学规律.基于遗传密码的物理化学性质、基因组变异的规律和相关的生物学假说,本研究提出了遗传密码分步进化假说(The Stepwise Evolution Hypothesis for the Genetic Code).在人们推断的最原始的RNA世界里,原初(Primordial)遗传密码从只能识别嘌呤和嘧啶开始,编码一个或两个简单而功能明确的氨基酸.由于胞嘧啶C的化学不稳定性,最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码,却可得到一组7个多元化的氨基酸.随着生命复杂性的增加,鸟嘌呤G从主载操作信号的功能中释放出来,再伴随着C的引入,使遗传密码逐步扩展到12,15和20个氨基酸,最终完成全部进化步骤.遗传密码的进化过程同时也伴随以蛋白质为主体的分子机制和细胞过程的进化,包括氨酰tRNA合成酶(AARS)从初始翻译机器上的脱离、DNA作为信息载体而取代RNA以及AARS和tRNA共进化等基本过程.分子机制和细胞过程是生命的基本组成元件,它们不但自己不断地趋于完善,也促使生命体走着不尽相同的道路,或维持鲁棒性(Robustness,如细菌),或寻觅多元化(Diversity,如节肢动物和植物),或追求综合性(Complexity,如脊椎动物).
基金supported by the National Natural Science Foundation of China(31970568 and 32371537)the National Science and Technology Major Project of China(2018ZX10712001-018-002 and 2021YFC2301003)。