基于碱基组成和分布的DNA序列特征提取方法及应用被引量：1

Feature extraction of DNA sequence based on the base composition and distribution and its applications

下载PDF

导出

摘要通过特征提取方式挖掘生物信息数据中潜在的规律是生物信息学研究的基本问题之一。基于DNA序列的碱基转移概率、含量和位置比三类特征构造了24维特征向量,成功应用于11物种的β-珠蛋白基因完整编码序列和18哺乳动物线粒体基因组序列的相似性比较,构建的系统发生树与进化事实相符。基于该特征向量,结合支持向量机分类方法识别了28株细菌中的必需基因,平均AUC值高达0.808,高于部分识别方法。实验结果说明:生物序列基本构成元素的转移概率、含量和位置比可作为研究生物信息学中相关分类问题的选择性工具。 To exploit some potential rules in biological information data based on the feature extraction is one of the basic problems in bioinformatics.The constructed24-D feature vector is composed of base transition probabilities,base contents and base position ratios,and is applied to compare complete coding sequences of p-globin genes of11species and whole mitochondrial genomes of18eutherian mammals respectively.The derived phylogenetic trees are quite agreement with the evolutionary relationship.In addition,the essential genes of28bacteria are successfully identified by combining the feature vector and the support vector machine.The average AUC value is0.808,much higher than some other methods.The results of experiments demonstrate that the proposed three characteristics are alternative classifiers in related bioinformatics research.

作者李玉双魏东吕艳芬 LI Yushuang;WEI Dong;LU Yanfen(School of Sciences, Yanshan University, Qinhuangdao, Hebei 066004, China)

机构地区燕山大学理学院

出处《燕山大学学报》 CAS 北大核心 2018年第1期59-66,74,共9页 Journal of Yanshan University

基金河北省高等学校青年拔尖人才计划资助项目(BJ2014060) 燕山大学"新锐工程"人才支持计划项目

关键词转移概率特征向量系统发生树必需基因支持向量机 transition probability feature vector phylogenetic tree essential gene support vector machine

分类号 Q332 [生物学—遗传学]

引文网络
相关文献

参考文献2

1郭静,王超,张宏彬,陈崚.系统发生树构建方法综述[J].计算机应用研究,2013,30(3):647-655. 被引量：19
2叶远浓,郭锋彪.微生物必需基因的理论研究现状[J].遗传,2012,34(4):420-430. 被引量：2

二级参考文献78

1窦运涛.基于必需基因数据库的微生物必需基因的分析[J].天津理工大学学报,2006,22(2):9-13. 被引量：1
2Hu WQ,Sillaots S,Lemieux S,Davison J,Kauffman S,Breton A,Linteau A,Xin CL,Bowman J,Becker J,Jiang B,Roemer T.Essential gene identification and drug target prioritization in Aspergillus fumigatus.PLoS Pathog,2007,3(3):e24.
3Hutchison CA III,Peterson SN,Gill SR,Cline RT,White O,Fraser CM,Smith HO,Venter1 JC.Global transposon mutagenesis and a minimal Mycoplasma genome.Science,1999,286(5447):2165–2169.
4Ko KS,Lee JY,Song JH,Baek JY,Oh WS,Chun JK,Yoon HS.Screening of Essential genes in Staphylococcus aureus N315 using comparative genomics and allelic replacement mutagenesis.J Microbiol Biotechnol,2006,16(4):623–632.
5Chaudhuri RR,Allen AG,Owen PJ,Shalom G,Stone K,Harrison M,Burgis TA,Lockyer M,Jorge GL,Foster SJ,Pleasance SJ,Peters SE,Maskell DJ,Charles IG.Comprehensive identification of essential Staphylococcus aureus genes using transposon-mediated differential hybridisation (TMDH).BMC Genomics,2009,10(1):291.
6Sassetti CM,Boyd DH,Rubin EJ.Genes required for mycobacterial growth defined by high density mutagenesis.Mol Microbiol,2003,48(1):77–84.
7Song JH,Ko KS,Lee JY,Baek JY,Oh WS,Yoon HS,Jeong JY,Chun J.Identification of essential genes in Streptococcus pneumoniae by allelic replacement mutagenesis.Mol Cells,2005,19(3):365–374.
8de Berardinis V,Vallenet D,Castelli V,Besnard M,Pinet A,Cruaud C,Samair S,Lechaplais C,Gyapay G,Richez C,Durot M,Kreimeyer A,Fèvre FL,Sch-chter V,Pezo V,D-ring V,Scarpelli C,Médigue C,Cohen GN,Marlière P,Salanoubat M,Weissenbach J.A complete collection of single-gene deletion mutants of Acinetobacter baylyi ADP1.Mol Syst Biol,2008,4:174.
9Seringhaus M,Paccanaro A,Borneman A,Snyder M,Gerstein M.Predicting essential genes in fungal genomes.Genome Res,2006,16(1):1126–1135.
10Hirsh AE,Fraser HB.Protein dispensability and rate of evolution.Nature,2001,411(6841):1046–1049.

共引文献19

1耿士忠,郭荣显,焦新安,潘志明.鸡白痢沙门菌研究进展[J].中国家禽,2014,36(5):34-37. 被引量：17
2毛小辉,魏毅东,张建福,谢华安.粳稻品种‘云引’谷胱甘肽S-转移酶基因OsGST的克隆及序列分析[J].福建农业学报,2014,29(3):197-203. 被引量：3
3赵敏,赵林清.系统发生分析研究进展[J].国际病毒学杂志,2014,21(2):94-96.
4张海俊,王波.求解TSP的蚁群与模糊自适应粒子群算法[J].计算机工程与应用,2015,51(16):117-120. 被引量：1
5刘清雪,胡伟,李恒,刘晓峰.基于PRUFER编码的遗传算法在简约树构建中的应用[J].电子技术与软件工程,2015(19):186-186.
6陈伟,蒋艳.改进的蚁群与粒子群算法求解TSP问题[J].信息技术,2016,40(5):162-165. 被引量：5
7王丹依,陈京,徐攀,李冉,夏娇丽,赵伟春.ITS2序列作为DNA条形码鉴定紫堇属植物的有效性研究[J].浙江中医药大学学报,2017,41(2):97-102. 被引量：6
8徐云飞,祁依佳,温思思,王丹依,赵伟春.浙贝母黑斑病致病菌的分离鉴定及分子检测[J].浙江中医药大学学报,2020,44(2):111-118. 被引量：9
9周武,杨又兵,王阳阳,王丽,徐硕辉,邢沛,和俊豪,卞军平,庞有志.豫西黑猪线粒体COXI基因的扩增和系统发生分析[J].现代农业科技,2020,0(7):211-212. 被引量：3
10赵亮,狄佳春,陈旭升.棉花基因组中赤霉素氧化酶基因的鉴定与分析[J].江苏农业学报,2020,36(3):553-560. 被引量：1

同被引文献11

1杨飞,姚振兴.基于手机传感器数据的出行特征提取方法[J].城市交通,2016,14(1):9-14. 被引量：8
2周云,舒占军,李华琼,周洪宇,于雪莲.基于双向滑动平均的目标长度特征提取方法[J].现代雷达,2016,38(4):25-29. 被引量：4
3李中林,童莉,王林元,卜海兵,闫镔.fMRI数据的有监督特征提取方法综述[J].信息工程大学学报,2016,17(3):285-291. 被引量：1
4齐永锋,杨乐,火元莲.基于稀疏非负最小二乘编码的高光谱遥感数据分类方法[J].农业机械学报,2016,47(7):332-337. 被引量：6
5孔宪光,章雄,马洪波,常建涛,牛萌.面向复杂工业大数据的实时特征提取方法[J].西安电子科技大学学报,2016,43(5):70-74. 被引量：28
6方敏,王君,王红艳,李天涯.应用监督近邻重构分析的高光谱遥感数据特征提取[J].红外与激光工程,2016,45(10):271-278. 被引量：9
7林佳,阮晓钢,于乃功,Ouattara Sie,朱晓庆.基于RGB-D数据的自适应局部时空特征提取方法[J].北京工业大学学报,2016,42(11):1643-1651. 被引量：3
8谷玉海,韩秋实,徐小力,高鹏.t分布随机近邻嵌入机械故障特征提取方法研究[J].机械科学与技术,2016,35(12):1900-1905. 被引量：15
9郝伟,刘忠宝.基于Fisher准则的半监督特征提取方法[J].计算机工程与设计,2017,38(1):238-241. 被引量：4
10赵越,陈之纯,纠博,张磊,刘宏伟,李真芳.一种基于时频分析的窄带雷达飞机目标分类特征提取方法[J].电子与信息学报,2017,39(9):2225-2231. 被引量：13

引证文献1

1王成满.集成网络异构模态数据特征提取数学建模仿真[J].计算机仿真,2020,37(9):424-427. 被引量：1

二级引证文献1

1韩霄.网络安全大数据下的靶标系统的构建[J].微型电脑应用,2023,39(3):153-155. 被引量：1

1李文娟,赵一雷.白腐菌漆酶耐盐性的生物信息学研究及氯离子、氧气和水分子输运通道分析[J].高等学校化学学报,2018,39(2):255-262.
2周斯涵,刘月兰.基于Python的自动获取生物信息数据的软件设计[J].哈尔滨师范大学自然科学学报,2017,33(4):40-44.
3陶秀逸.生物大数据：出卖与背叛[J].大科技（天才少年图说百科）（B）,2018,0(1):28-29.
4黄志亮,张施怡,周水红.信道转移概率变化下的极化码设计方案[J].计算机时代,2018(3):9-12.
5彭彬,张雪,曹帆帆,王莹,孙家兰,江梅,李龙宣.缺血性脑卒中患者恢复稳定期外周血单个核细胞中差异表达基因的生物信息学研究[J].中国神经免疫学和神经病学杂志,2017,24(5):318-323. 被引量：1
6蔡依娴.刍议生物信息学研究的现状及发展趋势[J].数码世界,2017,0(12):163-163.
7孙华,张海剑,马红霞,石洁,郭宁,陈丹,李坡.春玉米区穗腐病病原菌组成、分布及禾谷镰孢复合种的鉴定[J].植物病理学报,2018,48(1):8-15. 被引量：22
8欧阳志宏,郭强.改进蚁群算法的无人机突防航路规划[J].现代防御技术,2018,46(1):74-78. 被引量：8
9杜明宇,张晓龙.基于多序列特征提取的蛋白质相互作用预测[J].计算机工程与设计,2018,39(1):86-89. 被引量：4
10吴寿川,赵海涛,孙韶媛.基于双向递归卷积神经网络的单目红外视频深度估计[J].光学学报,2017,37(12):246-254. 被引量：11

燕山大学学报

2018年第1期

浏览历史

内容加载中请稍等...

基于碱基组成和分布的DNA序列特征提取方法及应用被引量：1

参考文献2

二级参考文献78

共引文献19

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于碱基组成和分布的DNA序列特征提取方法及应用 被引量：1

参考文献2

二级参考文献78

共引文献19

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于碱基组成和分布的DNA序列特征提取方法及应用被引量：1