DNA N4-胞嘧啶甲基化(N4-methylcytosine,4mC)是一种重要的表观遗传修饰,能在基因表达、细胞修复、DNA复制及保护等方面发挥作用.机器学习算法在预测4mC位点时,一个重要的环节是特征提取,为更充分地提取数据特征,进一步提高4mC位点的预...DNA N4-胞嘧啶甲基化(N4-methylcytosine,4mC)是一种重要的表观遗传修饰,能在基因表达、细胞修复、DNA复制及保护等方面发挥作用.机器学习算法在预测4mC位点时,一个重要的环节是特征提取,为更充分地提取数据特征,进一步提高4mC位点的预测准确率,提出了一种基于双层卷积神经网络的4mC位点预测模型.首先,将序列数据进行特征编码,搭建具有双卷积层和双池化层的卷积神经网络模型,采用L2范式正则化避免模型过拟合,并采用10折交叉验证保证模型预测的稳定性;其次,对模型参数进行调试,选取预测能力较高的参数组合进行模型训练;最后,将模型的4mC位点预测能力与几种已有算法进行比较.结果表明,双层卷积神经网络模型具有较好的预测性能和鲁棒性,优于基于一般机器学习和单层卷积神经网络的4mC位点预测算法,有效提高了4mC位点的预测能力.展开更多
DNA N4-甲基胞嘧啶(N4-methylcytosine,4mC)是生物体中一种非常重要的表观遗传修饰,在生物过程中起着非常重要的作用。因此,本文提出了一种基于集成学习的方法来预测DNA N4-甲基胞嘧啶(N4-methylcytosine,4mC)位点,简称为4mC-DeepM。该...DNA N4-甲基胞嘧啶(N4-methylcytosine,4mC)是生物体中一种非常重要的表观遗传修饰,在生物过程中起着非常重要的作用。因此,本文提出了一种基于集成学习的方法来预测DNA N4-甲基胞嘧啶(N4-methylcytosine,4mC)位点,简称为4mC-DeepM。该方法同时使用了DNA序列组成信息和one-hot编码后的位置信息,将DNA序列组成信息、one-hot编码后的序列位置信息分别放入全连接网络和卷积神经网络,然后将它们的输出通过全连接网络进行集成,得到最终预测结果。展开更多