期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于BERT和CNN的基因剪接位点识别
1
作者 左敏 王虹 +1 位作者 颜文婧 张青川 《计算机应用》 CSCD 北大核心 2023年第10期3309-3314,共6页
随着高通量测序技术的发展,海量的基因组序列数据为了解基因组的结构提供了数据基础。剪接位点识别是基因组学研究的重要环节,在基因发现和确定基因结构方面发挥着重要作用,且有利于理解基因性状的表达。针对现有模型对脱氧核糖核酸(DNA... 随着高通量测序技术的发展,海量的基因组序列数据为了解基因组的结构提供了数据基础。剪接位点识别是基因组学研究的重要环节,在基因发现和确定基因结构方面发挥着重要作用,且有利于理解基因性状的表达。针对现有模型对脱氧核糖核酸(DNA)序列高维特征提取能力不足的问题,构建了由BERT(Bidirectional Encoder Representations from Transformer)和平行的卷积神经网络(CNN)组合而成的剪接位点预测模型——BERT-splice。首先,采用BERT预训练方法训练DNA语言模型,从而提取DNA序列的上下文动态关联特征,并且使用高维矩阵映射DNA序列特征;其次,采用人类参考基因组序列hg19数据,使用DNA语言模型将该数据映射为高维矩阵后作为平行CNN分类器的输入进行再训练;最后,在上述基础上构建了剪接位点预测模型。实验结果表明,BERT-splice模型在DNA剪接位点供体集上的预测准确率为96.55%,在受体集上的准确率为95.80%,相较于BERT与循环卷积神经网络(RCNN)构建的预测模型BERT-RCNN分别提高了1.55%和1.72%;同时,在5条完整的人类基因序列上测试得到的所提模型的供体/受体剪接位点平均假阳性率(FPR)为4.74%。以上验证了BERT-splice模型用于基因剪接位点预测的有效性。 展开更多
关键词 剪接位点识别 BERT 卷积神经网络 深度学习 脱氧核糖核酸
下载PDF
基于模糊支持向量机的剪接位点识别 被引量:2
2
作者 孙波 李小霞 李铖果 《计算机应用》 CSCD 北大核心 2011年第4期1117-1120,共4页
为了提高模糊支持向量机(FSVM)对剪接位点的识别精度,提出一种计算样本隶属度的新方法。将样本到两聚类中心的距离比值作为样本的初始隶属度,采用K近邻(KNN)方法计算样本的紧密度,最后将初始隶属度与紧密度的乘积作为样本的最终隶属度,... 为了提高模糊支持向量机(FSVM)对剪接位点的识别精度,提出一种计算样本隶属度的新方法。将样本到两聚类中心的距离比值作为样本的初始隶属度,采用K近邻(KNN)方法计算样本的紧密度,最后将初始隶属度与紧密度的乘积作为样本的最终隶属度,这样既提高了支持向量的隶属度,又降低了噪声样本的隶属度。将此方法应用到剪接位点的识别中,对组成性5'和3'剪接位点的识别精度分别达到了94.65%和88.79%,与经典支持向量机相比,3'剪接位点的识别精度提高了7.94%。 展开更多
关键词 模糊支持向量机 隶属度 紧密度 剪接位点识别 选择性剪接
下载PDF
一种基于概率统计特征的剪接位点识别方法 被引量:2
3
作者 李绍燕 邓伟 《计算机工程与应用》 CSCD 北大核心 2011年第31期182-184,共3页
依据剪接位点附近存在的序列保守性出现了多种机器学习识别方法,如基于统计概率的方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的方法和基于支持向量机(Support Vector Machines,SVM)的方法等,这些方法识别精度较高,但算法过程... 依据剪接位点附近存在的序列保守性出现了多种机器学习识别方法,如基于统计概率的方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的方法和基于支持向量机(Support Vector Machines,SVM)的方法等,这些方法识别精度较高,但算法过程复杂。基于剪接位点附近碱基之间的相关性和统计特征,构造了一种固定位点上碱基间的网络结构图,并在此网络结构图的基础上提出了基于概率统计特征的剪接位点识别计算公式,利用N269数据库对识别方法和其他传统方法的性能进行了比较。实验结果表明,基于概率统计特征的方法预测人类的剪接位点,有较好的预测效果,与其他的一些算法相比,表现出参数少,精度高等优点。 展开更多
关键词 剪接位点识别 机器学习 概率统计特征
下载PDF
基于改进的Winnow算法的剪接位点识别
4
作者 晏春 倪青山 +1 位作者 杜耀华 王正志 《生命科学研究》 CAS CSCD 2005年第3期218-226,共9页
DNA序列功能位点的识别是目前生物信息学领域的一个研究热点,剪接位点的识别就是其中之一.为了充分利用剪接位点的特征模式,从而更好地识别剪接位点,建立了一个基于改进Winnow算法的剪接位点识别系统.与其他方法相比较,改进的Winnow算... DNA序列功能位点的识别是目前生物信息学领域的一个研究热点,剪接位点的识别就是其中之一.为了充分利用剪接位点的特征模式,从而更好地识别剪接位点,建立了一个基于改进Winnow算法的剪接位点识别系统.与其他方法相比较,改进的Winnow算法具有更好的鲁棒性,适用于高维特征空间,能够融合多种模式信息,即使在包含很多不相关特征的情况下,也能有很好的性能.同时在训练的时候,对特征集进行了剪枝,把一些对识别几乎没有贡献的特征去除,这样做对结果的影响可以忽略,而且提高了算法的效率.通过实验验证,改进的Winnow算法可以很好地识别剪接位点,其多个性能指标达到或超过目前国际上流行的剪接位点识别软件. 展开更多
关键词 剪接位点识别 改进Winnow算法 信息融合 乘法权更新方法 特征分析
下载PDF
基因短序列模式分析及其在5’剪接位点识别中的应用
5
作者 晏春 杜耀华 王正志 《国防科技大学学报》 EI CAS CSCD 北大核心 2006年第1期51-56,共6页
短序列模式分析是基因序列分析的一个重要组成部分,在进行生物信号识别的时候,一般都会利用到短序列模式的信息。通常短序列模式的数目很多,如果每个都应用到生物信号识别中,会产生大量的参数,而且无法体现信号的主要特征。为了找出在... 短序列模式分析是基因序列分析的一个重要组成部分,在进行生物信号识别的时候,一般都会利用到短序列模式的信息。通常短序列模式的数目很多,如果每个都应用到生物信号识别中,会产生大量的参数,而且无法体现信号的主要特征。为了找出在识别信号位点中起关键作用的短序列模式,以信息增益作为评价依据,按照逐步选择的策略,将模式进行排队。根据排队结果,选取信息增益突出的短序列模式作为识别生物信号的关键依据,这样可以用较少的模式得到较好的结果。结合选取的短序列模式,用最大熵模型作为信号序列真实分布的估计,从而对给定序列进行识别。最后将这个方法用于5’剪接位点的识别,得到了满意的结果。 展开更多
关键词 5’剪接位点识别 模式分析 最大熵模型
下载PDF
利用多样性增量位置得分函数预测人类5'非翻译区剪接位点 被引量:1
6
作者 陈丽萍 吕军 《内蒙古工业大学学报(自然科学版)》 2009年第4期274-278,共5页
5’非翻译区中的剪接位点两侧不存在由编码区到非编码区的状态转换,所以通常的识别剪接位点的算法在非翻译区的性能不太理想.本文把多样性增量的位置得分函数应用到5’非翻译区剪接位点的识别中.对于供体端,正负集样本数之比为1∶17,识... 5’非翻译区中的剪接位点两侧不存在由编码区到非编码区的状态转换,所以通常的识别剪接位点的算法在非翻译区的性能不太理想.本文把多样性增量的位置得分函数应用到5’非翻译区剪接位点的识别中.对于供体端,正负集样本数之比为1∶17,识别敏感性为66.91%,阳性预报值为68.54%,总精度为96.45%,ROC曲线下面积为97.23%;对于受体端,正负集样本数之比为1:24,识别敏感性为77.19%,阳性预报值为29.37%,总精度为91.78%,ROC曲线下面积为93.91%.这一结果要好于已有相似算法. 展开更多
关键词 5’非翻译区 剪接位点识别 多样性增量位置得分函数
下载PDF
基于快速傅里叶变换的剪接特征提取 被引量:3
7
作者 吕佳 彭勤科 《北京理工大学学报》 EI CAS CSCD 北大核心 2014年第2期207-210,共4页
挖掘剪接特征是剪接位点识别算法的基础,在频域空间挖掘对位点识别有帮助的特征至关重要.利用基于快速傅里叶变换的剪接特征提取方法对其进行特征提取,该方法能够将时域信息转化到频域中,以此来构建所需的频域特征,为了比较还构建了位... 挖掘剪接特征是剪接位点识别算法的基础,在频域空间挖掘对位点识别有帮助的特征至关重要.利用基于快速傅里叶变换的剪接特征提取方法对其进行特征提取,该方法能够将时域信息转化到频域中,以此来构建所需的频域特征,为了比较还构建了位置特征与统计特征.实验结果表明将频域特征加入剪接位点识别中能够有效地提高识别精度,这也表明将信号处理方法应用于生物信息学领域是可行有效的. 展开更多
关键词 快速傅里叶变换 生物信息处理 剪接位点识别
下载PDF
KL距离的变长马尔可夫模型识别人类剪接位点
8
作者 李绍燕 邓伟 《生物物理学报》 CAS CSCD 北大核心 2011年第8期719-726,共8页
针对传统基因剪接位点识别方法具有所用到的序列长,且参数多的问题,论文提出了一种基于KL距离的变长马尔可夫模型(Kullback Leibler divergence-variable length Markovmodel,KL-VLMM)。该模型在变长马尔可夫模型的基础上进行改进,由KL... 针对传统基因剪接位点识别方法具有所用到的序列长,且参数多的问题,论文提出了一种基于KL距离的变长马尔可夫模型(Kullback Leibler divergence-variable length Markovmodel,KL-VLMM)。该模型在变长马尔可夫模型的基础上进行改进,由KL距离代替原来的概率比值来判断序列扩展的方向,有效地提高了特征序列的识别能力,且模型阶数由二阶降为一阶,降低了算法的空间复杂度。利用人类剪接位点数据库N269,对该模型和其他传统方法的识别性能进行了比较。实验结果表明,采用KL-VLMM方法预测人类基因剪接位点的预测效果更好。 展开更多
关键词 变长马尔可夫模型 剪接位点识别 KL距离
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部