蛋白质互作用网络是一种典型的复杂网络,呈现了明显的社区结构。网络中的社区对应于功能模块,通常被看作蛋白质复合物。蛋白质复合物识别对预测蛋白质功能,解释特定生物进程具有重要作用。基于种子节点扩展的图聚类方法在蛋白质复合物...蛋白质互作用网络是一种典型的复杂网络,呈现了明显的社区结构。网络中的社区对应于功能模块,通常被看作蛋白质复合物。蛋白质复合物识别对预测蛋白质功能,解释特定生物进程具有重要作用。基于种子节点扩展的图聚类方法在蛋白质复合物识别中应用广泛。针对此类算法最终结果受种子节点的影响较大,并且在簇的形成过程中搜索空间有限等问题,提出了一种基于遗传算法的蛋白质复合物识别算法GAGC(genetic algorithm based graph clustering),其中个体表示聚类结果(类别之间可能存在重叠节点),以F-measure值作为种群进化的目标函数。算法采用IPCA(improvement development clustering algorithm)算法产生初始种群;针对初始种群,设计了染色体对齐方式以进行交叉操作产生下一代种群。通过与DPClus、MCODE、IPCA、Cluster One、HC-PIN、CFinder等经典算法的对比实验表明,GAGC算法能够扩大图聚类算法的搜索空间,提高解的多样性,进而提高蛋白质复合物检测的性能。展开更多
针对蚁群融合FCM聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC(algorithm for identifying weighted protein compl...针对蚁群融合FCM聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC(algorithm for identifying weighted protein complexes based on fuzzy ant colony clustering)。首先,融合边聚集系数与基因共表达的皮尔森相关系数构建加权网络;其次提出EPS(essential protein selection)度量公式来选取关键蛋白质,遍历关键蛋白质的邻居节点,设计蛋白质适应度PFC(protein fitness calculation)来获取关键组蛋白质,利用关键组蛋白质替换种子节点进行蚁群聚类,克服蚁群算法中因大量拾起放下和重复合并过滤操作而导致准确率较低和收敛速度过慢的缺陷;接着设计SI(similarity improvement)度量优化拾起放下概率来对节点进行蚁群聚类进而获得聚类数目;最后将关键蛋白质和通过蚁群聚类得到的聚类数目初始化FCM算法,设计隶属度更新策略来优化隶属度的更新,同时提出兼顾类内距和类间距的FCM迭代目标函数,最终利用改进的FCM完成复合物的识别。将FAC-PC算法应用在DIP数据上进行复合物的识别,实验结果表明FAC-PC算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。展开更多
蛋白质复合物是许多生物过程得以实现的基石。蛋白质相互作用数据中的假阳性和假阴性对各种识别蛋白质复合物的计算方法有不良影响。为了解决这一问题,1种新的蛋白质复合物识别算法(ICMDS,Identifying Complexes based on Multiple Data...蛋白质复合物是许多生物过程得以实现的基石。蛋白质相互作用数据中的假阳性和假阴性对各种识别蛋白质复合物的计算方法有不良影响。为了解决这一问题,1种新的蛋白质复合物识别算法(ICMDS,Identifying Complexes based on Multiple Data Sources)被提出。该方法整合基因表达谱、关键蛋白质信息和蛋白质相互作用3种生物数据进行蛋白质复合物的挖掘。首先,ICMDS重新定义了2个相互作用的蛋白质之间的功能相似性(FS,Functional Similarity)。然后,ICMDS选择已知的关键蛋白质作为种子构建蛋白质复合物。为了消除冗余的复合物,ICMDS算法也设计了冗余过滤子程序。另外,ICMDS也使用非关键蛋白质作为种子并将之扩展为蛋白质复合物。实验结果表明ICMDS识别蛋白质复合物的能力明显优于其他计算方法。展开更多
文摘蛋白质互作用网络是一种典型的复杂网络,呈现了明显的社区结构。网络中的社区对应于功能模块,通常被看作蛋白质复合物。蛋白质复合物识别对预测蛋白质功能,解释特定生物进程具有重要作用。基于种子节点扩展的图聚类方法在蛋白质复合物识别中应用广泛。针对此类算法最终结果受种子节点的影响较大,并且在簇的形成过程中搜索空间有限等问题,提出了一种基于遗传算法的蛋白质复合物识别算法GAGC(genetic algorithm based graph clustering),其中个体表示聚类结果(类别之间可能存在重叠节点),以F-measure值作为种群进化的目标函数。算法采用IPCA(improvement development clustering algorithm)算法产生初始种群;针对初始种群,设计了染色体对齐方式以进行交叉操作产生下一代种群。通过与DPClus、MCODE、IPCA、Cluster One、HC-PIN、CFinder等经典算法的对比实验表明,GAGC算法能够扩大图聚类算法的搜索空间,提高解的多样性,进而提高蛋白质复合物检测的性能。
文摘针对蚁群融合FCM聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC(algorithm for identifying weighted protein complexes based on fuzzy ant colony clustering)。首先,融合边聚集系数与基因共表达的皮尔森相关系数构建加权网络;其次提出EPS(essential protein selection)度量公式来选取关键蛋白质,遍历关键蛋白质的邻居节点,设计蛋白质适应度PFC(protein fitness calculation)来获取关键组蛋白质,利用关键组蛋白质替换种子节点进行蚁群聚类,克服蚁群算法中因大量拾起放下和重复合并过滤操作而导致准确率较低和收敛速度过慢的缺陷;接着设计SI(similarity improvement)度量优化拾起放下概率来对节点进行蚁群聚类进而获得聚类数目;最后将关键蛋白质和通过蚁群聚类得到的聚类数目初始化FCM算法,设计隶属度更新策略来优化隶属度的更新,同时提出兼顾类内距和类间距的FCM迭代目标函数,最终利用改进的FCM完成复合物的识别。将FAC-PC算法应用在DIP数据上进行复合物的识别,实验结果表明FAC-PC算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。
文摘蛋白质复合物是许多生物过程得以实现的基石。蛋白质相互作用数据中的假阳性和假阴性对各种识别蛋白质复合物的计算方法有不良影响。为了解决这一问题,1种新的蛋白质复合物识别算法(ICMDS,Identifying Complexes based on Multiple Data Sources)被提出。该方法整合基因表达谱、关键蛋白质信息和蛋白质相互作用3种生物数据进行蛋白质复合物的挖掘。首先,ICMDS重新定义了2个相互作用的蛋白质之间的功能相似性(FS,Functional Similarity)。然后,ICMDS选择已知的关键蛋白质作为种子构建蛋白质复合物。为了消除冗余的复合物,ICMDS算法也设计了冗余过滤子程序。另外,ICMDS也使用非关键蛋白质作为种子并将之扩展为蛋白质复合物。实验结果表明ICMDS识别蛋白质复合物的能力明显优于其他计算方法。
文摘蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based discrete level firefly algorithm for detecting protein complexes,RLDLFA-DPC)。引入强化学习思想提出一种自适应层级划分策略,动态调整层级结构,能有效解决迭代后期种群多样性下降的问题。在层级学习策略中个体向两个优秀层级学习,避免算法陷入局部最优。为了提高蛋白质复合物检测的精度,结合个体环境信息提出自适应搜索半径的局部搜索策略。最后,在酵母蛋白质的4个数据集上,与8种经典的蛋白质复合物检测方法进行对比,验证了该方法的有效性。