尽管已有利用lncRNA和蛋白质的信息来预测lncRPI的方法,但仅利用蛋白质和RNA的序列特征来进行预测相互作用仍然是一个挑战,并且模型预测的准确性有待提高。因此,本文提出了一种融合卷积神经网路和自注意力机制的预测模型LPI-Attention(L...尽管已有利用lncRNA和蛋白质的信息来预测lncRPI的方法,但仅利用蛋白质和RNA的序列特征来进行预测相互作用仍然是一个挑战,并且模型预测的准确性有待提高。因此,本文提出了一种融合卷积神经网路和自注意力机制的预测模型LPI-Attention(Long non-coding RNA based on self-attention mechanism),该模型采用了k-mer方法来编码RNA和蛋白质序列特征作为模型的输入,这种方法可以同时考虑两种序列的信息,从而提高了预测的准确性。此外,在密集型卷积模块中,使用两种尺度的特征提取,更好地捕捉局部和全局的信息。最后,将得到的特征输入自注意力循环网络层中,更好地处理序列数据的长期依赖关系,将得到的RNA、蛋白质二者特征信息融合成新的特征放入全连接层进行预测。实验结果表明,该模型不仅扩展了生物特征预测领域,而且可以学习RNA序列与蛋白质序列之间更多的相互作用关系,在预测RPIs方面表现优于大多数同类方法,在数据集RPIs1446、RPIs1807、RPIs488上的准确率分别达到91.7%、96.6%、91.6%。展开更多
文摘尽管已有利用lncRNA和蛋白质的信息来预测lncRPI的方法,但仅利用蛋白质和RNA的序列特征来进行预测相互作用仍然是一个挑战,并且模型预测的准确性有待提高。因此,本文提出了一种融合卷积神经网路和自注意力机制的预测模型LPI-Attention(Long non-coding RNA based on self-attention mechanism),该模型采用了k-mer方法来编码RNA和蛋白质序列特征作为模型的输入,这种方法可以同时考虑两种序列的信息,从而提高了预测的准确性。此外,在密集型卷积模块中,使用两种尺度的特征提取,更好地捕捉局部和全局的信息。最后,将得到的特征输入自注意力循环网络层中,更好地处理序列数据的长期依赖关系,将得到的RNA、蛋白质二者特征信息融合成新的特征放入全连接层进行预测。实验结果表明,该模型不仅扩展了生物特征预测领域,而且可以学习RNA序列与蛋白质序列之间更多的相互作用关系,在预测RPIs方面表现优于大多数同类方法,在数据集RPIs1446、RPIs1807、RPIs488上的准确率分别达到91.7%、96.6%、91.6%。
文摘目的通过生物信息学方法分析结肠癌(colorectal cancer,CRC)相关的基因,构建其蛋白质相互作用网络,并预测结肠癌的microRNA、转录因子和相关药物。方法首先通过倍数关系值分析255个结肠癌相关的微阵列芯片样本中的表达基因,然后使用蛋白质网络数据库String构建其蛋白质相互作用网络,最后应用MSig DB 3.0分析法并结合Web Gestalt在线软件,对3组数据中的表达基因进行microRNA、转录因子和药物预测。结果本研究识别了4763个与结肠癌有关的基因,并采用表达最显著的前200个基因构建了蛋白质相互作用网络。此外,本文又采用前200个基因,通过生物信息学方法预测得到了与结肠癌有关的22条microRNA、58个转录因子和9种药物。结论本研究识别了结肠癌的表达基因,构建了其蛋白质相互作用网络,并预测了其microRNA、转录因子和结肠癌有关药物,为结肠癌的诊断和治疗提供了潜在的生物标记。