期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
Systems biology and OMIC data integration to understand gastrointestinal cancers 被引量:1
1
作者 Iasmin Moreira Costa Bispo Henry Paul Granger +2 位作者 Palloma Porto Almeida Patricia Belini Nishiyama Leandro Martins de Freitas 《World Journal of Clinical Oncology》 CAS 2022年第10期762-778,共17页
Gastrointestinal(GI)cancers are a set of diverse diseases affecting many parts/organs.The five most frequent GI cancer types are esophageal,gastric cancer(GC),liver cancer,pancreatic cancer,and colorectal cancer(CRC);... Gastrointestinal(GI)cancers are a set of diverse diseases affecting many parts/organs.The five most frequent GI cancer types are esophageal,gastric cancer(GC),liver cancer,pancreatic cancer,and colorectal cancer(CRC);together,they give rise to 5 million new cases and cause the death of 3.5 million people annually.We provide information about molecular changes crucial to tumorigenesis and the behavior and prognosis.During the formation of cancer cells,the genomic changes are microsatellite instability with multiple chromosomal arrangements in GC and CRC.The genomically stable subtype is observed in GC and pancreatic cancer.Besides these genomic subtypes,CRC has epigenetic modification(hypermethylation)associated with a poor prognosis.The pathway information highlights the functions shared by GI cancers such as apoptosis;focal adhesion;and the p21-activated kinase,phosphoinositide 3-kinase/Akt,transforming growth factor beta,and Toll-like receptor signaling pathways.These pathways show survival,cell proliferation,and cell motility.In addition,the immune response and inflammation are also essential elements in the shared functions.We also retrieved information on protein-protein interaction from the STRING database,and found that proteins Akt1,catenin beta 1(CTNNB1),E1A binding protein P300,tumor protein p53(TP53),and TP53 binding protein 1(TP53BP1)are central nodes in the network.The protein expression of these genes is associated with overall survival in some GI cancers.The low TP53BP1 expression in CRC,high EP300 expression in esophageal cancer,and increased expression of Akt1/TP53 or low CTNNB1 expression in GC are associated with a poor prognosis.The Kaplan Meier plotter database also confirmed the association between expression of the five central genes and GC survival rates.In conclusion,GI cancers are very diverse at the molecular level.However,the shared mutations and protein pathways might be used to understand better and reveal diagnostic/prognostic or drug targets. 展开更多
关键词 Gastrointestinal cancers GENOME Cellular pathways Protein-protein interaction PROGNOSIS omic data
下载PDF
基于自主研发ACU&MOX-DATA平台探索腧穴功效特点研究
2
作者 李思慧 刘书庆 +8 位作者 唐强 张瑞斌 陈伟 洪浩 朱冰梅 蓝勋 王勇 余曙光 吴巧凤 《中国中医药信息杂志》 CAS CSCD 2024年第2期64-69,共6页
目的基于ACU&MOX-DATA平台,初步明确不同腧穴、不同靶器官及不同刺灸法对腧穴功效的影响,并可视化展示相关结果是否存在腧穴功效“特性”“共性”的特点。方法以原创组学数据和公共组学数据整合后获得的多源异构数据作为数据源,经... 目的基于ACU&MOX-DATA平台,初步明确不同腧穴、不同靶器官及不同刺灸法对腧穴功效的影响,并可视化展示相关结果是否存在腧穴功效“特性”“共性”的特点。方法以原创组学数据和公共组学数据整合后获得的多源异构数据作为数据源,经标准化处理后,利用ACU&MOX-DATA平台中Batch Search、Stimulation Mode等模块对不同腧穴、不同靶器官、不同刺灸法的数据进行差异基因分析、疾病病理网络分析和富集分析。结果在同一疾病状态、同一干预措施下,不同腧穴间存在效应差异;在同一疾病状态、同一腧穴及干预措施下,不同靶器官产生的应答不完全一致;在同一疾病状态、同一腧穴下,不同干预措施间存在效应差异。结论基于ACU&MOX-DATA平台,初步明确腧穴、靶器官、刺灸法是影响腧穴功效的关键因素,上述结果间存在腧穴功效的特异性或共性调节特点。将ACU&MOX-DATA平台应用于针灸学领域关键科学问题的分析和可视化解读,可为深化腧穴认知、指导临床选穴、提高针灸临床疗效等提供参考。 展开更多
关键词 腧穴功效 针灸干预方式 靶器官响应 多组学数据 异源数据分析
下载PDF
Assessment and Optimization of Explainable Machine Learning Models Applied to Transcriptomic Data
3
作者 Yongbing Zhao Jinfeng Shao Yan W.Asmann 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2022年第5期899-911,共13页
Explainable artificial intelligence aims to interpret how machine learning models make decisions,and many model explainers have been developed in the computer vision field.However,understanding of the applicability of... Explainable artificial intelligence aims to interpret how machine learning models make decisions,and many model explainers have been developed in the computer vision field.However,understanding of the applicability of these model explainers to biological data is still lacking.In this study,we comprehensively evaluated multiple explainers by interpreting pre-trained models for predicting tissue types from transcriptomic data and by identifying the top contributing genes from each sample with the greatest impacts on model prediction.To improve the reproducibility and interpretability of results generated by model explainers,we proposed a series of optimization strategies for each explainer on two different model architectures of multilayer perceptron(MLP)and convolutional neural network(CNN).We observed three groups of explainer and model architecture combinations with high reproducibility.Group II,which contains three model explainers on aggregated MLP models,identified top contributing genes in different tissues that exhibited tissue-specific manifestation and were potential cancer biomarkers.In summary,our work provides novel insights and guidance for exploring biological mechanisms using explainable machine learning models. 展开更多
关键词 Machine learning Model interpretability Gene expression Marker gene omics data mining
原文传递
A Localized-Statistic-Based Approach for Biomarker Identification of Omics Data
4
作者 Kuan Zhang He Chen Yongtao Li 《Engineering(科研)》 2013年第10期433-439,共7页
Omics data provides an essential means for molecular biology and systems biology to capture the systematic properties of inner activities of cells. And one of the strongest challenge problems biological researchers ha... Omics data provides an essential means for molecular biology and systems biology to capture the systematic properties of inner activities of cells. And one of the strongest challenge problems biological researchers have faced is to find the methods for discovering biomarkers for tracking the process of disease such as cancer. So some feature selection methods have been widely used to cope with discovering biomarkers problem. However omics data usually contains a large number of features, but a small number of samples and some omics data have a large range distribution, which make feature selection methods remains difficult to deal with omics data. In order to overcome the problems, wepresent a computing method called localized statistic of abundance distribution based on Gaussian window(LSADBGW) to test the significance of the feature. The experiments on three datasets including gene and protein datasets showed the accuracy and efficiency of LSADBGW for feature selection. 展开更多
关键词 Protein-omics data BIOMARKER Selection LOCALIZED Statistic GAUSSIAN WINDOW
下载PDF
Exploring the Unknown: The Application and Prospects of Artificial Intelligence in Genomics and Bioinformatics
5
作者 Qigang Feng Jie Li Qing Zhang 《Health》 2024年第9期837-848,共12页
This review comprehensively explores the core application of artificial intelligence (AI) in the fields of genomics and bioinformatics, and deeply analyzes how it leads the innovative progress of science. In the cutti... This review comprehensively explores the core application of artificial intelligence (AI) in the fields of genomics and bioinformatics, and deeply analyzes how it leads the innovative progress of science. In the cutting-edge fields of genomics and bioinformatics, the application of AI is propelling a deeper understanding of complex genetic mechanisms and the development of innovative therapeutic approaches. The precision of AI in genomic sequence analysis, coupled with breakthroughs in precise gene editing, such as AI-designed gene editors, significantly enhances our comprehension of gene functions and disease associations . Moreover, AI’s capabilities in disease prediction, assessing individual disease risks through genomic data analysis, provide robust support for personalized medicine. AI applications extend beyond gene identification, gene expression pattern prediction, and genomic structural variant analysis, encompassing key areas such as epigenetics, multi-omics data integration, genetic disease diagnosis, evolutionary genomics, and non-coding RNA function prediction. Despite challenges including data privacy, algorithm transparency, and bioethical issues, the future of AI is expected to continue revolutionizing genomics and bioinformatics, ushering in a new era of personalized medicine and precision treatments. 展开更多
关键词 AI GENomicS Disease Prediction Gene Editing Multi-omics data Fusion
下载PDF
Co-expression network analysis of virulence genes exoS and exoU of pseudomonas aeruginosa in lower respiratory tract based on histological data expression profiles
6
作者 Erli Jiao Bo Chen 《Discussion of Clinical Cases》 2019年第4期10-16,共7页
Objective:To use the gene chip of pseudomonas aeruginosa as a research sample and to explore it at an omics level,aiming at elucidating the co-expression network characteristics of the virulence genes exoS and exoU of... Objective:To use the gene chip of pseudomonas aeruginosa as a research sample and to explore it at an omics level,aiming at elucidating the co-expression network characteristics of the virulence genes exoS and exoU of pseudomonas aeruginosa in the lower respiratory tract from the perspective of molecular biology and identifying its key regulatory genes.Methods:From March 2016 to May 2018,312 patients infected with pseudomonas aeruginosa in the lower respiratory tract who were admitted to Department of Respiratory Medicine of Baogang Hospital and given follow-up treatments in the hospital were selected as subjects by use of cluster sampling.Alveolar lavage fluid and sputum collected from those patients were used as biological specimens.The genes of pseudomonas aeruginosa were detected with the help of oligonucleotide probes to make a pre-processing of chip data.A total of 8 common antibiotics(ceftazidime,gentamicin,piperacillin,amikacin,ciprofloxacin,levofloxacin,doripenem and ticarcillin)against Gram-negative bacteria were selected to determine the drug resistance of biological specimens.MCODE algorithm was used to construct a co-expression network model of the drug-resistance genes focused on exoS/exoU.Results:The expression level of exoS/exoU in the drug-resistance group was significantly higher than that in the non-resistance group(p<0.05).The top 5 differentially expressed genes in the alveolar lavage fluid specimens from the drug-resistance group were RAC1,ITGB1,ITGB5,CRK and IGF1R in the order from high to low.In the sputum specimens,the top 5 differentially expressed genes were RAC1,CRK,IGF1R,ITGB1 and ITGB5.In the alveolar lavage fluid specimens,only RAC1 had a positive correlation with the expression of exoS and exoU(p<0.05).In the sputum specimens,RAC1,ITGB1,ITGB5,CRK and IGF1R were positively correlated with the expression of exoS and exoU(p<0.05).The genes included in the co-expression network contained exoS,exoU,RAC1,ITGB1,ITGB5,CRK,CAMK2D,RHOA,FLNA,IGF1R,TGFBR2 and FOS.Among them,RAC1 had a highest score in the aspect of regulatory ability(72.00)and the largest number of regulatory genes(6);followed by ITGB1,ITGB5 and CRK genes.Conclusions:The high expression of exoS and exoU in the sputum specimens suggests that pseudomonas aeruginosa has a higher probability to get resistant to antibiotics;RAC1,ITGB1,ITGB5 and CRK genes may be the key genes that can regulate the expression of exoS and exoU. 展开更多
关键词 omics data expression profile Lower respiratory tract Pseudomonas aeruginosa exoS exoU Co-expression network
下载PDF
基于单细胞多组学数据解析结直肠癌动态调控扰动 被引量:1
7
作者 徐琪 禹雷 +2 位作者 潘涛 张娅 李永生 《海南医学》 CAS 2024年第11期1533-1544,共12页
目的探讨结直肠癌恶性转变过程中的分子特征及其调控网络扰动,深入剖析结直肠癌恶性转变的微环境异质性并识别潜在治疗靶点。方法首先从Gene Expression Omnibus(GEO)数据库中收集单细胞转录组测序数据,从欧洲分子生物学实验室(EMBL)收... 目的探讨结直肠癌恶性转变过程中的分子特征及其调控网络扰动,深入剖析结直肠癌恶性转变的微环境异质性并识别潜在治疗靶点。方法首先从Gene Expression Omnibus(GEO)数据库中收集单细胞转录组测序数据,从欧洲分子生物学实验室(EMBL)收集单细胞ATAC测序数据。数据共涉及来自14例患者的70例样本,包含22例正常样本、43例息肉样本和5例肿瘤样本。首先对scRNA-Seq测序数据进行预处理,基于Seurat包筛除双细胞和低质量细胞,对scATAC-Seq测序数据使用10X Cell Ranger-atac进行原始数据处理,并使用Signac包去除低质量细胞,得到三个阶段的scRNA-Seq和scATAC-Seq细胞图谱。进一步数据整合,基于Pando R包推断T细胞和上皮细胞的转录调控网络,通过mfinder软件分析网络motif和拓扑属性,对转录因子进行分级分析。最后,基于随机森林算法进行细胞分子特征预测及预后分析。结果筛选出202465个scRNA-Seq测序细胞和136422个scATAC-Seq测序细胞。基于数据整合分析,构建不同癌变阶段的细胞图谱。结果发现,随着结直肠癌进展,肿瘤微环境组成发生显著变化,尤其是T细胞和上皮细胞在不同疾病阶段的比例有较大差异。基于单细胞多组学数据整合,利用Pando包推断结直肠癌不同阶段的转录调控网络,揭示了T细胞和上皮细胞中转录因子及其调控关系的动态变化。功能富集分析结果显示在T细胞和上皮细胞中,转录因子所调控的功能在不同的疾病阶段有明显差异。基于转录调控网络分析发现,T细胞和上皮细胞转录调控网络符合无标度网络特性。网络motif分析揭示了在不同阶段存在的特定motif模式,反映了网络拓扑结构的动态变化,且网络中大多数相互作用都具有阶段特异性。共享转录因子的层级在癌变过程中也会发生变化。最后基于转录因子调控网络构建的分类器可以成功识别T细胞和上皮细胞,表明其作为细胞分子特征的有效性。进一步识别出与患者生存显著相关的网络motif,揭示其在结直肠癌预后中的潜在作用。结论基于整合单细胞多组学数据构建转录调控网络,解析随结直肠癌的进展转录调控网络及其功能的动态变化,揭示了结直肠癌进展过程中的细胞分子特征及关键预后motif,为结直肠癌的分子机制及预后评估提供了深刻见解。 展开更多
关键词 结直肠癌 单细胞多组学数据 转录调控网络 细胞分子特征
下载PDF
网络增强核融合方法的改进及其在乳头状肾细胞癌多组学数据整合分子分型中的应用
8
作者 师国京 李灵梅 +6 位作者 魏亿芳 赵鑫 房瑞玲 杨海涛 余红梅 张岩波 曹红艳 《中国卫生统计》 CSCD 北大核心 2024年第3期376-381,共6页
目的针对网络增强的相似网络融合(network enhancement fusion,ne-SNF)方法先融合不同组学网络,再对融合后的网络降噪,忽略了不同组学相似网络噪声对融合网络影响的问题,本文提出了改进的网络增强融合(improved network enhancement fus... 目的针对网络增强的相似网络融合(network enhancement fusion,ne-SNF)方法先融合不同组学网络,再对融合后的网络降噪,忽略了不同组学相似网络噪声对融合网络影响的问题,本文提出了改进的网络增强融合(improved network enhancement fusion,improved ne-SNF)方法,并探讨其在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)分子分型中的应用,识别PRCC高危患者,筛选重要通路及免疫浸润细胞。方法通过模拟研究评估improved ne-SNF分型性能,并将其用于PRCC多组学数据的整合分型,利用Cox回归模型分析不同分型患者的预后风险;筛选不同分型的差异表达mRNA(DEmRNAs)、miRNA(DEmiRNAs)及差异甲基化基因(DMGs),并对其重合基因进行KEGG通路分析;最后对不同分型患者进行免疫细胞浸润分析。结果模拟研究结果表明improved ne-SNF在不同信号比例和噪声强度下的分型准确性均优于SNF和ne-SNF。improved ne-SNF方法将PRCC患者分为高危组和低危组,高危组患者的死亡风险是低危组的7.727倍;筛选出3511个DEmRNAs,96个DEmiRNAs及3426个DMGs,其联合分析的649个重合基因得到42条有统计学差异的KEGG通路。此外,筛选出3种在不同分型中存在统计学差异的免疫浸润细胞。结论improved ne-SNF分型性能优于SNF和ne-SNF,且能够有效识别PRCC预后高风险患者,并筛选出PRCC重要通路及相关免疫浸润细胞,为PRCC的治疗及预后提供新的思路和参考依据。 展开更多
关键词 改进的网络增强融合 乳头状肾细胞癌 多组学数据整合 分子亚型
下载PDF
Omics data analysis reveals the system-level constraint on cellular amino acid composition 被引量:1
9
作者 Yuanyuan Huang Zhitao Mao +8 位作者 Yue Zhang Jianxiao Zhao Xiaodi Luan Ke Wu Lili Yun Jing Yu Zhenkun Shi Xiaoping Liao Hongwu Ma 《Synthetic and Systems Biotechnology》 SCIE CSCD 2024年第2期304-311,共8页
Proteins play a pivotal role in coordinating the functions of organisms,essentially governing their traits,as the dynamic arrangement of diverse amino acids leads to a multitude of folded configurations within peptide... Proteins play a pivotal role in coordinating the functions of organisms,essentially governing their traits,as the dynamic arrangement of diverse amino acids leads to a multitude of folded configurations within peptide chains.Despite dynamic changes in amino acid composition of an individual protein(referred to as AAP)and great variance in protein expression levels under different conditions,our study,utilizing transcriptomics data from four model organisms uncovers surprising stability in the overall amino acid composition of the total cellular proteins(referred to as AACell).Although this value may vary between different species,we observed no significant differences among distinct strains of the same species.This indicates that organisms enforce system-level constraints to maintain a consistent AACell,even amid fluctuations in AAP and protein expression.Further exploration of this phenomenon promises insights into the intricate mechanisms orchestrating cellular protein expression and adaptation to varying environmental challenges. 展开更多
关键词 omics data System-level constraint Amino acid composition
原文传递
生命组学大数据安全管理实践
10
作者 王彦青 陈婷婷 +7 位作者 张思思 朱军伟 陈焕新 肖景发 宋述慧 章张 赵文明 鲍一明 《农业大数据学报》 2024年第3期325-332,共8页
生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National... 生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National Genomics Data Center,NGDC)面向我国人口健康和社会可持续发展的重大战略需求,建立了生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,形成了一系列数据安全管理的制度和措施。本文聚焦于生命组学大数据全生命周期的安全管理问题,探讨生命组学大数据安全管理框架,全面分析在数据汇交、存储、管理、共享全生命周期中涉及的安全管理内容,并总结了NGDC在生命组学大数据安全管理方面的成效。最后,本文展望了生命组学大数据安全管理的发展方向,包括完善数据分级分类制度、提升数据分级安全管理技术和加强数据异地灾备建设,以期实现生命组学大数据的安全管理与可持续发展。 展开更多
关键词 生命组学大数据 数据汇交 数据共享 安全管理
下载PDF
多组学数据驱动的机器学习模型在乳腺癌生存及治疗响应预测中的应用 被引量:1
11
作者 章子怡 王棨临 +4 位作者 张俊有 段迎迎 刘家欣 刘赵硕 李春燕 《遗传》 CAS CSCD 北大核心 2024年第10期820-832,共13页
乳腺癌的高度异质性导致其治疗及预后评估较为复杂。治疗方案的选择受到肿瘤亚型、病变分级、基因型等多种因素的影响,因此需要制定个体化治疗策略。患者的预后效果因病情不同而产生显著差异。作为人工智能的一个重要分支,机器学习能高... 乳腺癌的高度异质性导致其治疗及预后评估较为复杂。治疗方案的选择受到肿瘤亚型、病变分级、基因型等多种因素的影响,因此需要制定个体化治疗策略。患者的预后效果因病情不同而产生显著差异。作为人工智能的一个重要分支,机器学习能高效处理海量数据,并实现决策过程的自动化。机器学习方法的引入将为乳腺癌治疗的选择和预后评估提供新的解决方案。在癌症治疗领域,传统方法预测生存与治疗效果往往依赖于单一或少量的生物标志物,难以全面捕捉复杂的生物学过程。机器学习通过分析患者的多组学数据以及它们在疾病发生发展过程中复杂的变化趋势,预测患者的生存和治疗响应效果,从而选择适合的治疗措施,实施早期干预,改善患者的治疗效果。本文首先介绍了常用的机器学习方法,在此基础上分别从评估生存情况和预测治疗效果这两方面展开,详细分析了机器学习在乳腺癌患者生存预测及预后领域中的应用,以期为乳腺癌患者提供精准医疗治疗策略,提高治疗效果和生存质量。 展开更多
关键词 乳腺癌 机器学习 多组学数据整合分析 生存预测 治疗响应
下载PDF
基于基因注意力和多组学的低级别胶质瘤分类方法
12
作者 程昊 韩笑 +2 位作者 任建雪 闫奥煜 王会青 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期63-75,共13页
现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力... 现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力网络提取LGG多组学数据的重要特征,使用嵌入网络处理临床数据得到临床数据特征;将临床数据特征与组学数据重要特征进行融合,采用密集深度神经网络进行LGG分子亚型分类。实验结果表明,MODDA的分类性能优于现有LGG分子亚型分类方法,并且在外部验证数据集上也表现出较好的泛化性能。此外,对卡方检验过程中发现的重要基因进行了富集基因本体论(gene ontology,GO)术语和生物学途径分析,有助于LGG的个性化治疗。 展开更多
关键词 低级别胶质瘤 分子亚型 多组学数据 基因注意力 深度神经网络
下载PDF
基于个性化随机游走的基因-表型关联分析
13
作者 谭好江 王峻 +2 位作者 余国先 陈建 郭茂祖 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1619-1632,共14页
基因与表型间的关联分析对揭示生物的内在遗传关联具有重要意义.随机游走算法可以融合多组学数据,聚合一阶或高阶邻居的标签信息,对网络中不同节点间关联信息进行补全,提高关联预测的准确度,进而发现基因和表型间潜在的遗传关联.但现有... 基因与表型间的关联分析对揭示生物的内在遗传关联具有重要意义.随机游走算法可以融合多组学数据,聚合一阶或高阶邻居的标签信息,对网络中不同节点间关联信息进行补全,提高关联预测的准确度,进而发现基因和表型间潜在的遗传关联.但现有随机游走算法通常平等地对待每个节点,忽略了不同节点的重要性,使非重要节点过度传播,降低了模型性能.为此,本文提出了一种基于多组学数据融合的个性化随机游走算法(individual Multiple Random Walks,iMRW),在由基因、miRNA及表型节点构建的多组学异质网络上,基于网络拓扑结构,设计个性化多元随机游走策略,为不同重要程度的节点分配不同的游走步长,并结合高斯相互作用属性核相似性与随机游走,对网络不同节点及节点间关联信息进行补全,最终实现多源基因-表型关联矩阵的融合,准确获取基因-表型关联预测矩阵.在不同实验设置下,与主流算法的对比实验结果均显示iMRW能够取得更优的预测性能.在玉米光合作用能力和淀粉含量表型的实验分析结果也进一步证实了iMRW在识别潜在的基因-表型关联的实用性与有效性. 展开更多
关键词 基因-表型关联 随机游走 异质网络 多组学数据融合 网络拓扑结构
下载PDF
多模态深度神经网络的高级别浆液性卵巢癌分类方法
14
作者 李浩琳 韩家乐 +1 位作者 王会青 丰智鹏 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期418-426,共9页
提出了高级别浆液性卵巢癌(HGSOC)分子亚型分类模型MMDNN-HGSOC,该模型将miRNA表达、DNA甲基化、拷贝数变异(CNV)与mRNA表达数据进行集成,构建多组学特征空间;基于LASSO(Least Absolute Shrinkage and Selection Operator)回归算法,提... 提出了高级别浆液性卵巢癌(HGSOC)分子亚型分类模型MMDNN-HGSOC,该模型将miRNA表达、DNA甲基化、拷贝数变异(CNV)与mRNA表达数据进行集成,构建多组学特征空间;基于LASSO(Least Absolute Shrinkage and Selection Operator)回归算法,提出叠加式LASSO(S-LASSO)回归算法,充分获得每个组学数据中与HGSOC分子亚型关联的基因子集;引入多组学数据晚期集成策略,利用多模态深度神经网络学习不同组学数据的高级特征表示。实验结果表明,MMDNN-HGSOC在HGSOC分子亚型分类中表现出较好性能。此外,对特征选择过程中发现的重要基因进行了GO(Gene Ontology)和KEGG(Kyoto Encycloped Genomes)富集分析,为HGSOC分子亚型鉴定和发病机制的研究提供有力支持。 展开更多
关键词 高级别浆液性卵巢癌 多组学数据 晚期集成 深度神经网络 LASSO
下载PDF
BioMGE——一个用于采集和分析生物医用材料和多组学数据的数据库
15
作者 龚海燕 张晓彤 +5 位作者 张司臣 李铭鸿 赵赫 王婧宇 王秀梅 陈阳 《工程科学学报》 EI CSCD 北大核心 2024年第2期279-289,共11页
随着机器学习技术的发展,生物医用材料的科学研究也逐渐走向数据驱动,利用生物测序技术来测试生物医用材料的生物功能,需要对生物医用材料进行进一步优化.因此,一个开放、共享的基础设施来存储来自不同研究领域的异构科学数据是多学科... 随着机器学习技术的发展,生物医用材料的科学研究也逐渐走向数据驱动,利用生物测序技术来测试生物医用材料的生物功能,需要对生物医用材料进行进一步优化.因此,一个开放、共享的基础设施来存储来自不同研究领域的异构科学数据是多学科交叉联合分析的基石.本文介绍了BioMGE,一个基于灵活的自定义平台NMDMS(国家材料数据管理与服务平台)实现的数据库建设案例,用于收集生物医用材料和多组学测序数据.NMDMS的动态容器框架允许用户定义个性化的数据提交模式,存储来自生物医用材料和多组学研究领域的数据.自2019年以来,BioMGE已收集了1547100个生物医用材料和多组学数据集.BioMGE提供了数据导出接口,方便用户直接导出数据以进行数据分析.以组学数据可视化为例,提供BioMGE-viewer模块以实现对生物染色质结构数据从一维到三维的数据可视化.该数据库可为其他跨领域研究的数据共享提供了新的思路和平台. 展开更多
关键词 生物医用材料 多组学 动态容器数据库 异构数据存储 可视化
下载PDF
基于堆叠降噪自编码器的肝癌亚型分类
16
作者 张甜甜 赵庶旭 王小龙 《计算机应用与软件》 北大核心 2024年第6期79-84,共6页
肝癌是威胁人类健康的常见恶性肿瘤之一。通过对基因数据使用深度学习方法进行整合来系统地获取对肝癌的认知,使用多组学的疾病分析方法来探究各组学之间的相互关系,有助于更准确的临床决策。然而,由于多组学数据具有高维稀疏性,存在大... 肝癌是威胁人类健康的常见恶性肿瘤之一。通过对基因数据使用深度学习方法进行整合来系统地获取对肝癌的认知,使用多组学的疾病分析方法来探究各组学之间的相互关系,有助于更准确的临床决策。然而,由于多组学数据具有高维稀疏性,存在大量的冗余特征和较少的可用临床标签样本。堆叠降噪编码器(SDAE)是能够从海量数据中获取有效特征的高效模型,因此基于SDAE模型提出一种层次式堆叠降噪编码器,来学习肝癌的RNA表达、miRNA表达和DNA甲基化数据的特征并进行整合和识别。实验结果表明:Hi-SDAE方法提高了对肝癌亚型分类的准确度,为肝癌针对性治疗提供了更有价值的参考依据。 展开更多
关键词 堆叠降噪 自动编码器 数据降维 多组学整合 肝癌亚型
下载PDF
基于多维组学数据的玉米农艺和品质性状预测研究
17
作者 杨静蕾 吴冰杰 +1 位作者 王安洲 肖英杰 《作物学报》 CAS CSCD 北大核心 2024年第2期373-382,共10页
基因组选择是利用覆盖基因组的高密度标记对未知表型进行预测并选择的技术。在植物中,利用该技术可对不同作物性状进行早期选择,保留优势个体,节约田间管理和表型鉴定成本,大大加快育种进程。本研究使用rrBLUP和LASSO两种统计模型,基于... 基因组选择是利用覆盖基因组的高密度标记对未知表型进行预测并选择的技术。在植物中,利用该技术可对不同作物性状进行早期选择,保留优势个体,节约田间管理和表型鉴定成本,大大加快育种进程。本研究使用rrBLUP和LASSO两种统计模型,基于基因组、转录组和代谢组数据对玉米的农艺性状和品质性状进行了基因组预测。研究发现,对于不同组学数据而言,其预测能力高低依次为基因组、转录组、代谢组数据。对于不同性状而言,品质性状的预测能力高于农艺性状。对于rrBLUP和LASSO两种模型而言,基于基因组数据预测时所有性状均是rrBLUP为最优预测模型;基于转录组数据预测时有53种性状是以rrBLUP为最佳预测模型, 2种性状以LASSO为最佳预测模型;基于代谢组数据,有43种性状以rrBLUP为最佳预测模型, 12种性状以LASSO为最佳预测模型。此外,还发现用不同系谱材料进行预测时,热带玉米预测温带玉米,其效果略优于温带玉米预测热带玉米。而对于品质性状,不同系谱间材料的预测精度高于同一系谱内。本研究系统评估了各种组学数据和不同统计模型对玉米农艺及品质性状预测能力的差异,为未来玉米重要性状的基因组育种提供了理论依据。 展开更多
关键词 玉米 农艺和品质性状 基因组预测 多维组学数据
下载PDF
肿瘤标志物识别的特征选择综述
18
作者 韩媛媛 《计算机应用》 CSCD 北大核心 2024年第S01期142-149,共8页
高通量测序技术的进步,产生了大量的组学数据。随着肿瘤数据信息化管理和精准医疗的快速发展,肿瘤标志物的识别对肿瘤的早期检测、诊断、预后和治疗方面具有重要意义。特征选择技术在肿瘤标志物的识别中起到了关键作用,通过机器学习模... 高通量测序技术的进步,产生了大量的组学数据。随着肿瘤数据信息化管理和精准医疗的快速发展,肿瘤标志物的识别对肿瘤的早期检测、诊断、预后和治疗方面具有重要意义。特征选择技术在肿瘤标志物的识别中起到了关键作用,通过机器学习模型筛选肿瘤标志物的成本较生物实验法更低廉且准确性更有保障。特征选择算法能从复杂的组学数据中筛选重要的特征集合。首先,介绍组学的不同类型及肿瘤标志物识别的重要意义;其次,介绍过滤式、包装式、嵌入式和整合式这4种不同类型的特征选择方法;再次,总结不同特征选择算法在肿瘤标志物识别中的应用;最后,探讨肿瘤标志物识别的挑战、研究突破点以及未来发展趋势。 展开更多
关键词 肿瘤标志物识别 特征选择 组学数据 机器学习 高维小样本
下载PDF
冠状病毒感染动物模型组学数据集成分析
19
作者 吴玥 李璐 +5 位作者 张阳 王珏 冯婷婷 李依桐 王凯 孔琪 《实验动物与比较医学》 CAS 2024年第4期357-373,共17页
目的分析各个公共数据库中可感染人的冠状病毒感染动物模型的组学数据资源情况,包括数据分布、数据集数量、数据类型、物种、品系、研究内容等,从而深入理解冠状病毒的生物学特征和致病机制,为研究有效的治疗方案和预防措施奠定基础。... 目的分析各个公共数据库中可感染人的冠状病毒感染动物模型的组学数据资源情况,包括数据分布、数据集数量、数据类型、物种、品系、研究内容等,从而深入理解冠状病毒的生物学特征和致病机制,为研究有效的治疗方案和预防措施奠定基础。方法定义特定病毒名称、时间范围和物种等检索策略与纳入排除标准,检索GEO、ArrayExpress等大型公共组学数据库。根据不同字段类型进行二次过滤,获取更精确的数据列表。建立组学数据文本库,进行文献计量学分析,构建共现网络图,分析不同研究主题、技术方法和涉及物种之间的关联强度。同时,分析研究涉及的细胞类型、器官和参与的生物途径,以进一步阐明病原体与宿主之间的致病相互作用。结果含有冠状病毒组学数据的公共数据库有20余个,以新型冠状病毒感染组学数据为主。常用物种为人、小鼠、仓鼠和猴,常用病毒株为Wuhan-Hu-1和USA-WA1/2020。此外,人类相关研究主要集中于气道上皮细胞和Calu-3细胞,动物模型(如小鼠、猕猴与雪貂)则多采用肺组织。表达谱数据显示感染后参与炎症、细胞因子反应、补体途径、细胞损伤、增殖和分化等通路基因显著上调。蛋白组学研究揭示,在不同感染阶段的患者样本中磷酸化蛋白质组、泛素组和全蛋白质组具有显著变化。特定蛋白质类别,包括病毒受体和蛋白酶、转录因子、细胞因子、凝血系统相关蛋白、血管生成相关蛋白及纤维化标志物等六类蛋白均在冠状病毒感染后发生改变。此外,代谢组数据提示磷酸胆碱、磷酸乙醇胺、花生四烯酸和油酸可作为潜在的代谢标志物。表观组学研究结果显示,m6A甲基化在新冠病毒复制、感染和传播过程中发挥作用,并且对宿主细胞-病毒互作产生影响。N、S、非结构蛋白2和3泛素化最为显著。微生物组学研究趋势表明,肠道和废水中的微生物群落正在成为新的研究重点。结论冠状病毒组学数据类型丰富,模型与细胞类型多样。根据不同病毒的特征,造模物种和技术方法的选择具有差异性。研究冠状病毒感染动物模型的多组学数据可以揭示宿主-病原体之间的关键相互作用,发现生物标志物和潜在的治疗靶点,为深入理解冠状病毒的生物学特性和感染机制提供丰富信息。 展开更多
关键词 冠状病毒感染 动物模型 组学数据 SARS-CoV-2 SARS-COV MERS-CoV 集成分析
下载PDF
面向癌症亚型预测的多组学AI模型
20
作者 曹云芳 李东喜 《计算机工程与设计》 北大核心 2024年第8期2454-2460,共7页
针对癌症亚型预测中仅使用单组学数据信息有限的问题,提出一种基于稀疏自编码器和相似网络融合的多组学癌症分型预测模型(multi-omics sparse auto-encoder, MOSAE)。利用稀疏自编码器提取患者特征向量,应用相似网络融合方法构建患者的... 针对癌症亚型预测中仅使用单组学数据信息有限的问题,提出一种基于稀疏自编码器和相似网络融合的多组学癌症分型预测模型(multi-omics sparse auto-encoder, MOSAE)。利用稀疏自编码器提取患者特征向量,应用相似网络融合方法构建患者的相似度网络。基于患者特征向量和患者相似度网络利用残差图卷积网络构建预测模型。实验结果表明,在乳腺癌和卵巢癌数据上,所提模型识别亚型的准确率比现有方法分别提高了2.74%和19.74%。在TCGA的肺鳞状细胞癌和头颈部癌症数据上验证了MOSAE模型的优越性。 展开更多
关键词 稀疏自编码器 残差图卷积网络 相似网络融合 多组学数据 癌症亚型 多模态 特征提取
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部