期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于特征聚类集成技术的在线特征选择 被引量:1
1
作者 杜政霖 李云 《计算机应用》 CSCD 北大核心 2017年第3期866-870,905,共6页
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,... 针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。 展开更多
关键词 组特征选择 聚类集成 流特征 在线特征选择
下载PDF
GSA-Human:人类遗传资源数据管理的公共系统 被引量:6
2
作者 张思思 陈旭 +16 位作者 陈婷婷 朱军伟 唐碧霞 王安可 董丽莉 张哲文 孙艳玲 俞彩霞 翟爽 孙玉彬 陈焕新 杜政霖 肖景发 章张 鲍一明 王彦青 赵文明 《遗传》 CAS CSCD 北大核心 2021年第10期988-993,共6页
GSA-Human是人类遗传资源数据汇交、存储、管理与共享的数据库系统,可提供人类遗传资源数据的上传、下载、浏览、检索等公共服务,并有效支撑了国家重点研发计划科技项目数据的汇交与管理工作。系统具有符合《中华人民共和国人类遗传资... GSA-Human是人类遗传资源数据汇交、存储、管理与共享的数据库系统,可提供人类遗传资源数据的上传、下载、浏览、检索等公共服务,并有效支撑了国家重点研发计划科技项目数据的汇交与管理工作。系统具有符合《中华人民共和国人类遗传资源管理条例》数据安全管理策略,提供公开访问和受控访问相结合的数据使用模式。公开访问数据允许用户自由下载与获取;受控访问数据采用申请-审核的模式,即需要通过数据管理委员会(Data Access Committee,DAC)的授权方可获得下载和使用权限。系统自上线以来,截至2021年7月,汇集数据总量已超5.27 PB。 展开更多
关键词 人类遗传资源数据管理系统 组学数据 数据汇交 数据共享
下载PDF
高通量计算在大规模人群队列基因组数据解析应用中的挑战 被引量:1
3
作者 曾瀞瑶 苑娜 +2 位作者 魏文娟 李根 杜政霖 《数据与计算发展前沿》 2020年第1期117-127,共11页
【目的】为推动精准医学研究的发展,世界各国相继开展大规模人群队列基因组测序计划,通过对数以万计个体进行全基因组测序,构建人群特异的基因组变异图谱。这些海量基因组数据产出,对计算速度和计算通量提出了新的要求,迫切需要速度更... 【目的】为推动精准医学研究的发展,世界各国相继开展大规模人群队列基因组测序计划,通过对数以万计个体进行全基因组测序,构建人群特异的基因组变异图谱。这些海量基因组数据产出,对计算速度和计算通量提出了新的要求,迫切需要速度更快、通量更高的计算平台来处理与解读这些生物序列信息。由于基因组数据自身的特点、数据解析过程的多样性和复杂性,致使在大规模人群基因组变异解析中高通量计算资源的使用效率低、计算速度慢、耗时长,服务器与本地数据交换不便,因此需要针对基因组变异解析进行多方面优化,通过软硬件开发来解决应用中存在的多种问题。本文拟对这些优化方法进行分析和综述。【方法】在高通量计算系统中,系统IO瓶颈问题是基因组变异解析并行化效率低的主要原因,通常采用基于分布式非结构化存储数据库以及对象存储系统,以提升IO的大规模可扩展能力,解决分析流程中存在的IO问题;同时通过基因组数据的高效压缩算法,可减少数据IO和传输压力。为了加快基因组数据解析速度,可在软件上采用神经网络等算法优化基因组解析方法,在硬件上使用FPGA(现场可编程逻辑门阵列)或GPU异构计算,以提高数据处理速度。【结果】综合来看,以上多方面的优化可以大幅提升基因组数据分析中高通量计算的性能,解决基因组数据处理中的存储墙问题,提高高通量计算资源的使用效率,大大减少全基因组变异解析的计算时间。【结论】高通量计算在基因组数据解析应用中存在的多种问题,可通过软硬件开发和优化得以解决,从而显著改进高通量计算在大规模人群队列变异解析应用中的计算效率,促进今后人群队列基因组研究与应用的广泛开展。 展开更多
关键词 高通量计算 IO性能 基因组变异解析 异构加速 数据压缩
下载PDF
Vero细胞培养传代后的2株SARS冠状病毒基因组序列变异分析
4
作者 金渭武 胡良湘 +7 位作者 杜政霖 高强 高虹 宁叶 冯继东 张建三 尹卫东 李宁 《科学通报》 EI CAS CSCD 北大核心 2004年第16期1623-1626,共4页
RNA病毒在复制时有易出错的倾向, 因此SARS病毒在传染或传代过程中易发生突变而产生不同的毒株, 这种机制也利于病毒逃脱宿主的免疫系统而生存下来. 许多研究也表明, 不同的SARS病毒分离株的全基因组序列存在不同程度的差异, 这些差异... RNA病毒在复制时有易出错的倾向, 因此SARS病毒在传染或传代过程中易发生突变而产生不同的毒株, 这种机制也利于病毒逃脱宿主的免疫系统而生存下来. 许多研究也表明, 不同的SARS病毒分离株的全基因组序列存在不同程度的差异, 这些差异的研究无疑对SARS病毒疫苗的研制具有重要的指导意义. 同时, 对SARS病毒在传代过程中的遗传稳定性及核酸特性的分析, 是SARS疫苗研制不可或缺的环节. 采用PCR产物直接测序的方法, 对2株用Vero细胞培养经过多次传代的SARS病毒进行了全基因组序列的测定, 通过比较分析发现该病毒在传代过程中具有高遗传稳定性, 其中检定参比株(Sino1株)2和11代全基因组序列比较有4个碱基的变化, 而候选疫苗株(Sino3株)3与10代的基因组全序列仅有1个碱基的差异. SARS病毒在Vero细胞上传代的遗传稳定性表明, 以此制备的灭活病毒疫苗是稳定的. 展开更多
关键词 严重急性呼吸综合征 严重急性呼吸综合征冠状病毒 病毒 疫苗 蛋白氨基酸序列
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部