-
题名相似性比对预测蛋白质亚细胞区间
被引量:1
- 1
-
-
作者
王雄飞
张梁
薛卫
赵南
徐焕良
-
机构
南京农业大学信息科学技术学院
江南大学粮食发酵工艺与技术国家工程实验室
苏州市康绿农产品发展有限公司
-
出处
《微生物学通报》
CAS
CSCD
北大核心
2016年第10期2298-2305,共8页
-
基金
中央高校基本科研业务费专项资金项目(No.KYZ201668)
江苏省自然科学基金项目(No.BK2012363
+1 种基金
BK20140002)
江苏省博士后科研项目(No.1302038B)~~
-
文摘
【目的】对蛋白质所属的亚细胞区间进行预测,为进一步研究蛋白质的生物学功能提供基础。【方法】以蛋白质序列的氨基酸组成、二肽、伪氨基酸组成作为序列特征,用BLAST比对改进K最近邻分类算法(K-nearest neighbor,KNN)实现蛋白序列所属亚细胞区间预测。【结果】在Jackknife检验下,数据集CH317三种特征的成功率分别为91.5%、91.5%和89.3%,数据集ZD98成功率分别为93.9%、92.9%和89.8%。【结论】BLAST比对改进KNN算法是预测蛋白质亚细胞区间的一种有效方法。
-
关键词
亚细胞区间
KNN
BLAST
蛋白序列特征
-
Keywords
Subcellular locations
K-Nearest Neighbor
Blast
Protein sequence characteristics
-
分类号
Q51
[生物学—生物化学]
-
-
题名集成改进KNN算法预测蛋白质亚细胞定位
被引量:3
- 2
-
-
作者
薛卫
王雄飞
赵南
杨荣丽
洪晓宇
-
机构
南京农业大学信息科学技术学院
-
出处
《生物工程学报》
CAS
CSCD
北大核心
2017年第4期683-691,共9页
-
基金
中央高校基本科研业务费专项资金(No.KYZ201668)
江苏省自然科学基金(No.BK2012363)
国家科技支撑计划(No.2015BAK36B05)资助~~
-
文摘
基于Adaboost算法对多个相似性比对K最近邻(K-nearest neighbor,KNN)分类器集成实现蛋白质的亚细胞定位预测。相似性比对KNN算法分别以氨基酸组成、二肽、伪氨基酸组成为蛋白序列特征,在KNN的决策阶段使用Blast比对决定蛋白质的亚细胞定位。在Jackknife检验下,Adaboost集成分类算法提取3种蛋白序列特征,3种特征在数据集CH317和Gram1253的最高预测成功率分别为92.4%和93.1%。结果表明Adaboost集成改进KNN分类预测方法是一种有效的蛋白质亚细胞定位预测方法。
-
关键词
亚细胞区间
蛋白序列特征
K-nearest
NEIGHBOR
basic
local
ALIGNMENT
search
tool
ADABOOST
-
Keywords
subcellular locations, protein sequence characteristics, K-nearest neighbor, basic local alignment search tool (Blast), Adaboost
-
分类号
Q51
[生物学—生物化学]
-
-
题名基于关系拓展的改进词袋模型研究
被引量:7
- 3
-
-
作者
陈行健
胡雪娇
薛卫
-
机构
南京农业大学信息科学技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2019年第5期1040-1044,共5页
-
基金
江苏省科技厅产学研前瞻性研究项目(BY2015012-01)资助
中央高校基本科研业务费专项资金项目(Y0201600175)资助
-
文摘
提出了一种基于位置关系拓展的改进词袋模型.该模型在传统词袋模型的基础上,结合马尔科夫假设对聚类单词提取位置关系图谱,并对关系图谱进行特征转换,将得到的图谱特征与基于传统词袋模型得到的词袋特征融合作为模型最终特征表示,解决了传统词袋模型中忽略特征单词之间的空间位置信息进而导致特征区分度不足的问题.模型采用词嵌入方法对稀疏图谱进行密集表示,并结合卷积神经网络构建特征学习框架,相比于池化等算法,能更加全面地反映图谱特征的分布规律.将改进词袋模型应用于蛋白质亚细胞区间定位预测研究中,实验表明,文中算法分类结果更优.
-
关键词
词袋模型
关系图谱
马尔科夫
卷积神经网络
蛋白质亚细胞区间定位
-
Keywords
bag of words model
relationship images
Markov
convolutional neural network
protein subcellular location prediction
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于多层次稀疏编码预测蛋白质亚细胞定位
被引量:5
- 4
-
-
作者
陈行健
胡雪娇
薛卫
-
机构
南京农业大学信息科学技术学院
-
出处
《生物工程学报》
CAS
CSCD
北大核心
2019年第4期687-696,共10页
-
基金
国家重点研发计划(No.2017YFD0800204)
中央高校基本科研业务费专项资金(No.KYZ201600175)资助~~
-
文摘
文中提出了一种简单有效的蛋白质亚细胞区间定位预测方法,为进一步了解蛋白质的功能和性质提供理论基础。运用稀疏编码,结合氨基酸组成信息提取蛋白质序列特征,基于不同字典大小对得到的特征进行多层次池化整合,并送入支持向量机进行分类。经Jackknife检验,在数据集ZD98、CH317和Gram1253上的预测成功率分别达到95.9%、93.4%和94.7%。实验证明基于多层次稀疏编码的分类预测算法能显著提高蛋白质亚细胞区间定位的预测精度。
-
关键词
稀疏编码
氨基酸组成
多层次池化
支持向量机
亚细胞区间定位
-
Keywords
sparse coding
amino acid composition
multilayer pooling
support vector machine
subcellular localization prediction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
Q51
[生物学—生物化学]
-