摘要
远同源蛋白间的序列相似性很低,处于随机涨落区域边缘,很难区分通过比对获得的序列特征是进化过程中功能约束还是随机突变导致的结果。为了从具有高度噪音的比对分数中提取关于同源性的微弱信号,本文将基于模块度优化的图聚类算法应用于蛋白质相似性网络来探测远同源性,并与已有的性能表现较好的方法进行比较,实验结果表明,该方法能较好地探测到蛋白质远同源性,输出的集团在很大程度上对应着蛋白质超家族,输出的集团数目接近数据集中超家族的个数,得到的结果明显优于其他方法。
Remote homologues are hidden in the twilight zone, where their sequence similarity is too low to distinguish them from pairs of sequences with equal or even higher sequence similarity due to chance. To extract weak signals about homology from sequence similarity with high noises, we apply modularity-based graph clustering algorithm to a protein similarity network to detect remote homology. Performance is compared with existing algorithms. Numerical experiments show that the modularity-based algorithm manages to detect protein remote homology, for the communities it outputs are largely corresponding to protein supeffamilies and the number of communities is close to the number of superfamilies in the given dataset. Also, the performance is superior other algorithms.
出处
《计算机与应用化学》
CAS
2015年第8期945-950,共6页
Computers and Applied Chemistry
基金
国家自然科学基金资助项目(61300149)
江苏省博士后科研资助计划(1101123C)
江苏省"333高层次人才培养工程"资助
2012年江苏省高校"青蓝工程"资助
无锡城市职业技术学院科研启动基金项目
江苏省数据工程与知识服务重点实验室开放课题资助(DEKS2014KT001)
关键词
远同源性
蛋白质相似性网络
模块度
图聚类
序列相似性
remote homology
protein similarity network
modularity
graph clustering
sequence similarity