用于转录因子结合位点识别的定位投影求精算法被引量：2

A Novel Fixed-Position Projection Refinement Algorithm for TFBS Identification

下载PDF

导出

摘要定位转录因子结合位点,也称模体发现问题,对于理解基因调控关系非常重要.文中提出了一种新的定位投影求精算法(Fixed-Position Projection Refinement algorithm,FPPR)用于DNA序列中的转录因子结合位点识别.通过一个基于数据集对应位置频率矩阵的投影过程,将DNA数据聚类为不同的子集,过滤选出其中具有一定信息量和复杂度的子集,作为初始状态,进而使用期望最大化算法进行求精.FPPR通过对定位投影过程中阈值的设定,实现了对OOPS、ZOOPS、TCM这3种模型中不同模体实例分布的处理.同时,结合高阶马尔可夫背景设计目标函数,使得算法的概率模型更加符合真实生物数据.此外,通过相似函数WIC评估,FPPR可拓展为解决多模体识别问题.真实数据测试表明,FPPR可以在合理的时间内准确找寻模体,与MEME、GAME、Motif Sampler和GALP-F等算法相比有更好的性能,并且可以有效地解决多模体识别问题. Locating the transcription factor bin for understanding the gene regulatory relations ding sites （TFBS）, motif discovery, are crucial hip. This paper proposes a novel fixed-position projection refinement algorithm （FPPR） to identify the TFBS of DNA sequences. FPPR clusters DNA data into different subsets through a projection based on the corresponding probabilistic fre- quency matrix, and filters the subsets with certain information score and complexity which are used as the initial condition for expectation maximum refinement. FPPR achieves the different motif instances distribution in the model OOPS, ZOOPS and TCM by setting the threshold in the fixed-position projection. Meanwhile, FPPR can be extended to a multiple motifs discovery ver- sion by using the similarity function WIC. Experiments on the real datasets demonstrate our algo- rithm finds real motifs accurately in a proper time. Comparing with MEME, GAME, Motif Sampler and GALP-F, FPPR has the better performance, and it can solve the multiple motifs discovery effectively.

作者张懿璞霍红卫于强郭鸿志

机构地区西安电子科技大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2013年第12期2545-2559,共15页 Chinese Journal of Computers

基金国家自然科学基金(61173025 61373044) 高等学校博士学科点专项科研基金(20100203110010) 中央高校基本科研业务费(K5051303032 K50513100011)资助~~

关键词转录因子结合位点模体定位投影求精 transcription factor binding sites motif fixed-position projection refinement

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1霍红卫,郭丹丹,于强,张懿璞,牛伟.(l,d)-模体识别问题的遗传优化算法[J].计算机学报,2012,35(7):1429-1439. 被引量：6
2W.M. Shaw,Robert Burgin,Patrick Howell.Performance standards and evaluations in IR test collections: Cluster-based retrieval models[J].Information Processing and Management.1997(1)

二级参考文献28

1Tompa M et al. Assessing computational tools for the discov- ery of transcription factor binding sites. Nature Biotechnology, 2005, 23(1): 137-144.
2Das Modan K, Dai Ho-Kwok. A survey of DNA motif find- ing algorithms. BMC Bioinformaties, 2007, 8(Suppl 7)~ $21.
3GuhaThakurta D. Computational identification of transcrip- tional regulatory elements in DNA sequence. Nucleic Acids Research, 2006, 34(12): 3585-3598.
4Sinha S, Tompa M. YMF: A program for discovery of novel transcription factor binding sites by statistical overrepresent- ation. Nucleic Acids Research, 2003, 31(13): 3586-3588.
5Pesole G, Prunella N, Liuni S, Attimonelli M, Saccone C.WORDUP: An efficient algorithm for discovering statistically significant patterns in DNA sequences. Nucleic Acids Research, 1992, 20(11): 2871-2875.
6Pavesi G, Mauri G, Pesole G. An algorithm for finding sig- nals of unknown length in DNA sequences. Bioinformatics, 2001, 17(1): S207-S214.
7Marsan L, Sagot M-F. Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification. Journal of Computa- tional Biology, 2000, 7(3-4): 345-362.
8Eskin E, Fevzner F A. l'inding composite regulatory pat- terns in DNA sequences. Bioinformatics, 2002, 18(1): 354-363.
9Pevzner P A, Sze S H. Combinatorial approaches to finding subtle signals in DNA sequenees//Proeeedings of the Inter- national Conference on Intelligent Systems for Molecular Bi- ology (ISMB). Price Center, UC San Diego, La Jolla,California, 2000, 8:269-278.
10GuhaThakurta D, Stormo G D. Identifying target sites for cooperatively binding factors. Bioinformatics, 2001, 17 (7) : 608-621.

共引文献5

1王洪波,荣岩,罗贺,王晓佳.基于流形学习的DNA序列数据挖掘方法研究[J].合肥工业大学学报（自然科学版）,2014,37(8):933-937. 被引量：2
2李丹程,曹斌,钟华刚,王威.改进GA-PSO算法在多跑道航班着陆调度中的应用[J].小型微型计算机系统,2014,35(9):2110-2115. 被引量：4
3张懿璞.一种新的DNA模体发现聚类求精算法[J].西安电子科技大学学报,2014,41(6):95-99. 被引量：1
4张斐.预测Motifs算法的改进评价策略[J].计算机与数字工程,2018,46(5):879-884.
5张斐.基于贪心EM的模体预测算法[J].计算机与数字工程,2018,46(6):1074-1077.

同被引文献4

1曲文龙,张克君,杨炳儒,游福成.基于奇异事件特征聚类的时间序列符号化方法[J].系统工程与电子技术,2006,28(8):1131-1134. 被引量：4
2邹力鹍,张其善.基于多最小支持度的加权关联规则挖掘算法[J].北京航空航天大学学报,2007,33(5):590-593. 被引量：17
3朱跃龙,彭力,李士进,冯钧.水文时间序列模体挖掘[J].水利学报,2012,43(12):1422-1430. 被引量：15
4李明,张维明,刘青宝.不确定数据流多维建模方法[J].国防科技大学学报,2014,36(5):174-179. 被引量：1

引证文献2

1王菊,刘付显,靳春杰,李祯东.一种面向不确定数据流的模体发现算法[J].电子科技大学学报,2017,46(1):81-87. 被引量：3
2王菊,刘付显.一种面向多属性不确定数据流的模体发现算法[J].电子与信息学报,2017,39(1):159-166. 被引量：1

二级引证文献4

1王菊,刘付显,靳春杰.基于PSO的不确定时间序列模体发现算法[J].系统工程与电子技术,2018,40(7):1639-1645.
2刘俊杰,张昕,杨乐,韩东红.基于DELM的不确定数据流分类算法[J].计算机技术与发展,2019,29(3):101-105. 被引量：1
3薛岩.克苏鲁式数据结构模型理论[J].科技创新与应用,2021,11(15):23-25.
4文明瑶,廖伟国.基于机器学习的不确定数据增量式挖掘算法[J].计算机仿真,2021,38(11):290-294. 被引量：4

1谢勇,李连,黎曼斯.无线传感器网络自身定位算法研究[J].现代电子技术,2007,30(8):36-38.
2姚英彪,姜男澜.无线传感器网络定位的分布式求精算法[J].通信学报,2015,36(1):179-188. 被引量：17
3金海东.《天马》的学习和求精算法[J].计算机研究与发展,1991,28(10):26-31. 被引量：1
4文万志,陈善利.一种基于依赖分析的程序错误定位算法[J].电脑知识与技术（过刊）,2015,21(7X):202-203.
5孙莹莹.计算机网络防御策略求精方法研究[J].电脑知识与技术,2015,11(1X):59-60 63. 被引量：2
6崔学新.谈meme及其汉译名“模因”[J].中国科技术语,2008,10(4):33-35. 被引量：5
7Meme潮[J].海外英语,2012(2):27-27.
8吴敏之.第六讲 Chameleon Sampler的安装和使用(上)[J].电子技术（上海）,1996,23(9):35-37.
9刘悦,李桂丽.数据库中关系规则的数据挖掘[J].鞍山钢铁学院学报,2002,25(5):369-371.
10高仕龙.基于特征融合的图像检索算法研究[J].情报杂志,2010,29(4):126-129.

计算机学报

2013年第12期

浏览历史

内容加载中请稍等...

用于转录因子结合位点识别的定位投影求精算法被引量：2

参考文献2

二级参考文献28

共引文献5

同被引文献4

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

用于转录因子结合位点识别的定位投影求精算法 被引量：2

参考文献2

二级参考文献28

共引文献5

同被引文献4

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

用于转录因子结合位点识别的定位投影求精算法被引量：2