DNA-N6甲基腺嘌呤(6-mA)甲基化修饰是重要的表观遗传修饰标记之一。异常的6-mA位点会影响基因表达,进而引发多种重大疾病,因此预测6-mA位点对理解治病机理和治疗疾病具有重要意义。提出一种基于K-mer方法和One-hot方法复合特征编码的长...DNA-N6甲基腺嘌呤(6-mA)甲基化修饰是重要的表观遗传修饰标记之一。异常的6-mA位点会影响基因表达,进而引发多种重大疾病,因此预测6-mA位点对理解治病机理和治疗疾病具有重要意义。提出一种基于K-mer方法和One-hot方法复合特征编码的长短期记忆(Long Short-Term Memory,LSTM)神经网络用于基因甲基化位点预测,通过K-mer编码方法增加基因序列字符信息量,再使用One-hot编码方法对编码后的字符序列进行扩展,形成复合编码矩阵。改进后的序列编码矩阵可增加LSTM模型从基因序列数据中可提取的特征维度和种类,以提高LSTM模型对基因序列的处理性能。通过交叉验证实验表明本方法在公共数据集上的准确率可达93.7%,敏感度、特异性和马氏相关系数分别为93.0%、94.5%、0.875,均优于现有方法。进一步,在其他6个不同物种的基因数据集上,受试者工作特征曲线线下面积(Area Under the Curve,AUC)值介于0.9055~0.9262,表明本方法可适用于动物、植物和微生物的甲基化位点预测。本方法对水稻NC_029258.1基因序列进行全碱基位点的预测,经4种不同的在线工具校验,本方法预测出的86%~96%的潜在甲基化位点在其他工具中也获得相似结论,预测结论可靠,可应用于基因序列甲基化位点的预测分析工作。展开更多
文摘DNA-N6甲基腺嘌呤(6-mA)甲基化修饰是重要的表观遗传修饰标记之一。异常的6-mA位点会影响基因表达,进而引发多种重大疾病,因此预测6-mA位点对理解治病机理和治疗疾病具有重要意义。提出一种基于K-mer方法和One-hot方法复合特征编码的长短期记忆(Long Short-Term Memory,LSTM)神经网络用于基因甲基化位点预测,通过K-mer编码方法增加基因序列字符信息量,再使用One-hot编码方法对编码后的字符序列进行扩展,形成复合编码矩阵。改进后的序列编码矩阵可增加LSTM模型从基因序列数据中可提取的特征维度和种类,以提高LSTM模型对基因序列的处理性能。通过交叉验证实验表明本方法在公共数据集上的准确率可达93.7%,敏感度、特异性和马氏相关系数分别为93.0%、94.5%、0.875,均优于现有方法。进一步,在其他6个不同物种的基因数据集上,受试者工作特征曲线线下面积(Area Under the Curve,AUC)值介于0.9055~0.9262,表明本方法可适用于动物、植物和微生物的甲基化位点预测。本方法对水稻NC_029258.1基因序列进行全碱基位点的预测,经4种不同的在线工具校验,本方法预测出的86%~96%的潜在甲基化位点在其他工具中也获得相似结论,预测结论可靠,可应用于基因序列甲基化位点的预测分析工作。