一种基于随机森林的长非编码RNA预测方法被引量：2

A long non-coding RNA prediction method based on random forest

导出

摘要为了提高长非编码RNA(long non-coding RNA,lncRNA)预测的准确性,提出一种基于随机森林算法的lncRNA预测方法.在国际通用的基因注释和基因组序列训练数据集中,首先进行特征选取,然后采用随机森林算法对包含特征信息的数据集进行模型训练.选取的特征包含14种三聚核酸序列(ACG、CCG、CGA、CGC、CGG、CGT、CTA、GCG、GGG、GTA、TAA、TAC、TAG、TCG)的占比、终止密码子在3种阅读框中的数量标准差、GC含量、蛋白质编码能力、转录本长度、外显子个数、平均外显子长度和保守性分值.10折交叉验证结果表明,该预测方法在真阳性率、精确率、召回率、F值和AUC值等性能指标方面均优于其他算法. To improve the accuracy of long non-coding RNA （lncRNA） prediction, a method based on random forest is proposed. Dataset for model training is derived from worldwide generally used gene annotation and genome sequence. Features selected include ratios of 14 triple-nucleotide sequences （ACG, CCG, CGA, CGC, CGG, CGT, CTA, GCG, GGG, GTA, TAA, TAC, TAG, TCG） to the transcript length respectively, standard deviations of stop codon counts of three read- ing frames, GC content, protein-coding potential （CDS, CDS length and ratio of CDS to tran- script）, transcript length, exon count, average exon length, conservation score （average PhastCons score of transcript）. Then the random forest algorithm is applied to the dataset for model training, and the over-fitting problem is solved during the realization of other algorithms. Results of 10-fold cross-validation manifest that the lncRNA prediction method based on random forest performs better than other methods including K-nearest neighbors （K-NN）, Naive Bayes and Bayesian net- work in terms of true positive rate, precision, recall, F score and AUC （area under curve）.

作者孙磊许驰胡学龙

机构地区扬州大学信息工程学院

出处《扬州大学学报（自然科学版）》 CAS 北大核心 2016年第4期50-53,共4页 Journal of Yangzhou University：Natural Science Edition

基金国家自然科学基金资助项目(61301220) 江苏省"六大人才高峰"第七批高层次人才项目(2010-DZXX-149)

关键词长非编码RNA 随机森林基因预测 long non-coding RNA random forest gene prediction

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献25

1薛建江,邱景富.病原菌感染宿主的转录组学研究进展[J].河北北方学院学报（医学版）,2007,24(5):63-66. 被引量：9
2岳峰,孙亮,王宽全,王永吉,左旺孟.基因表达数据的聚类分析研究进展[J].自动化学报,2008,34(2):113-120. 被引量：25
3张国印,程慧杰,刘咏梅,姚爱红.一种新算法在基因表达谱聚类中的应用[J].计算机工程与应用,2009,45(36):216-218. 被引量：4
4秦楠,栗东芳,杨瑞馥.高通量测序技术及其在微生物学研究中的应用[J].微生物学报,2011,51(4):445-457. 被引量：168
5祁云霞,刘永斌,荣威恒.转录组研究新技术:RNA-Seq及其应用[J].遗传,2011,33(11):1191-1202. 被引量：205
6周华,张新,刘腾云,余发新.高通量转录组测序的数据分析与基因发掘[J].江西科学,2012,30(5):607-611. 被引量：50
7李小白,向林,罗洁,胡标林,田胜平,谢鸣,孙崇波.转录组测序(RNA-seq)策略及其数据在分子标记开发上的应用[J].中国细胞生物学学报,2013,35(5):720-726. 被引量：89
8姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：250
9刘帅,林克正,孙旭东,程卫月,李静天.基于聚类的SIFT人脸检测算法[J].哈尔滨理工大学学报,2014,19(1):31-35. 被引量：7
10高敬阳,齐飞,管瑞.基于高通量测序技术的基因组结构变异检测算法[J].生物信息学,2014,12(1):5-9. 被引量：1

引证文献2

1姚登举,詹晓娟,张晓晶.一种加权K-均值基因聚类算法[J].哈尔滨理工大学学报,2017,22(2):112-116. 被引量：12
2侯佩莉,王洪梅,赵贵民,何洪彬.RNA-Seq技术在动物病毒传染病学研究中的应用[J].中国兽医学报,2018,38(6):1244-1249. 被引量：4

二级引证文献16

1成雨风,贺松,刘燕,黄诗懿.基于数据挖掘的CRC肠道菌群营养干预可行性分析[J].智能计算机与应用,2020(4):81-85.
2李玲果,洪艳云.基于高通量测序的RNA-seq技术在褐飞虱研究中的应用[J].激光生物学报,2018,27(5):393-398.
3黄英来,任田丽,赵鹏.VMD与PSO的乐器声音识别[J].哈尔滨理工大学学报,2018,23(2):6-11. 被引量：4
4张瀚超,匡洪海,王建辉,朱国平.偏差修正算法的风电短期功率预测[J].新型工业化,2019,9(2):1-9. 被引量：4
5何云斌,孙暖,万静,李松.角度度量的动态增量聚类算法[J].哈尔滨理工大学学报,2019,24(6):109-116. 被引量：3
6贾瑞玉,宋飞豹,汤深伟.双精英遗传策略的基因聚类算法[J].小型微型计算机系统,2020,41(7):1375-1380. 被引量：7
7王超英.基于文化基因算法和犹豫模糊集的聚类算法及其分布并行实现[J].计算机应用与软件,2021,38(4):295-304. 被引量：2
8何云斌,董恒,万静.移动型数据与静态型数据的混合聚类算法[J].哈尔滨理工大学学报,2021,26(2):26-34. 被引量：2
9晁筱雯,周京生,李育平,刘雨婷,李疏影,陈麒,卢光玉.基于文本挖掘的我国传染病研究主题与方法演进分析[J].预防医学情报杂志,2021,37(6):865-871. 被引量：1
10高明星,张金花,刘泽霖,周静静,胡薛英,张万坡,程国富,谷长勤.感染乙脑病毒小鼠脑组织的转录组变化分析[J].中国兽医学报,2021,41(6):1086-1093.

1孙磊,马宏辉,王诗佳,张晓斌,李云,胡学龙.基于Linux的长非编码RNA信息系统[J].信息化研究,2016,42(6):58-63.
22010年度中国网络广告公司创意类单项铜奖——三星鹏泰[J].互联网周刊,2010(24):74-74.
3刘瑞挺.从巨型机、WWW到GGG 网格计算,扑面而来[J].新电脑,2002,26(8):172-173.
4曾琼,孙国萌.网格（Grid）技术[J].现代军事通信,2002,10(4):57-60.
5张新宝.新一代计算机网络正在到来WWW要变GGG[J].西安石油学院学报（自然科学版）,2002,17(6):53-53.
6陈平,周坤,董长青,程旭.基于云计算的软件测试技术研究[J].电脑知识与技术,2015,0(10):65-67. 被引量：1
7林润松.钢结构设计与绘图软件STAAD／CHINA知识选讲（六）——STAAD／CHINA结构建模向导建模[J].建筑结构,2006,36(B11):15-16.
8三一.三一集团总裁唐修国:“互联网+工业化”铸就“新三一”[J].工程机械,2016,47(7).
9GTA简体中文计划无名汉化组专访[J].商业故事（数字通讯）,2014(5):82-83.
10CPU or GPU？视频编码速度大比拼[J].微型计算机,2011(6):76-82.

扬州大学学报（自然科学版）

2016年第4期

浏览历史

内容加载中请稍等...

一种基于随机森林的长非编码RNA预测方法被引量：2

同被引文献25

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种基于随机森林的长非编码RNA预测方法 被引量：2

同被引文献25

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种基于随机森林的长非编码RNA预测方法被引量：2