O^(6)-甲基鸟嘌呤(O^(6)-CMG)是DNA中的一种高致突变烷基化产物,它会导致生命体罹患胃肠道肿瘤。现有的研究主要是利用耻垢分枝杆菌膜蛋白(MspA)纳米孔技术,借助枯草芽孢杆菌噬菌体Phi29 DNA多聚酶(Phi29 DNA polymerase)对突变进行精...O^(6)-甲基鸟嘌呤(O^(6)-CMG)是DNA中的一种高致突变烷基化产物,它会导致生命体罹患胃肠道肿瘤。现有的研究主要是利用耻垢分枝杆菌膜蛋白(MspA)纳米孔技术,借助枯草芽孢杆菌噬菌体Phi29 DNA多聚酶(Phi29 DNA polymerase)对突变进行精确定位。近年来,机器学习技术被广泛应用于纳米孔测序数据的分析,但是机器学习往往需要大量的数据标记,这给研究者们带来了额外的工作负担,大大影响了其实用性。因此,本文提出了一种纳米无监督深度学习(nano-UDL)方法,该方法能自动识别含有突变段的纳米孔数据。nanoUDL方法利用深度自动编码器从纳米孔数据中提取特征,然后通过均值漂移(MeanShift)聚类算法对特征数据进行分类。此外,该方法还联合优化了聚类损失和重构损失,从而提取最优的特征用于聚类。实验结果表明,nanoUDL方法在O^(6)-CMG数据集上具有较高的识别精度,能准确识别出所有包含O^(6)-CMG的序列段。为了进一步验证nano-UDL方法的鲁棒性,本文进行了超参数敏感性验证和消融实验。利用nano-UDL方法分析纳米孔数据不但可以有效降低人工分析数据带来的额外成本,而且对包括基因组测序在内的诸多生物研究具有重要意义。展开更多
文摘O^(6)-甲基鸟嘌呤(O^(6)-CMG)是DNA中的一种高致突变烷基化产物,它会导致生命体罹患胃肠道肿瘤。现有的研究主要是利用耻垢分枝杆菌膜蛋白(MspA)纳米孔技术,借助枯草芽孢杆菌噬菌体Phi29 DNA多聚酶(Phi29 DNA polymerase)对突变进行精确定位。近年来,机器学习技术被广泛应用于纳米孔测序数据的分析,但是机器学习往往需要大量的数据标记,这给研究者们带来了额外的工作负担,大大影响了其实用性。因此,本文提出了一种纳米无监督深度学习(nano-UDL)方法,该方法能自动识别含有突变段的纳米孔数据。nanoUDL方法利用深度自动编码器从纳米孔数据中提取特征,然后通过均值漂移(MeanShift)聚类算法对特征数据进行分类。此外,该方法还联合优化了聚类损失和重构损失,从而提取最优的特征用于聚类。实验结果表明,nanoUDL方法在O^(6)-CMG数据集上具有较高的识别精度,能准确识别出所有包含O^(6)-CMG的序列段。为了进一步验证nano-UDL方法的鲁棒性,本文进行了超参数敏感性验证和消融实验。利用nano-UDL方法分析纳米孔数据不但可以有效降低人工分析数据带来的额外成本,而且对包括基因组测序在内的诸多生物研究具有重要意义。