针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM)。该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的...针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM)。该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的文本动态字向量表示。然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT预训练语言模型在医学领域的文本语义增强。在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到Bi-LSTM-CNN集成学习模块,进一步提取医学文本内容的重要信息特征。最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类。实验结果表明,通过迁移学习和集成学习的TLCM文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体F1值达到了91.8%。展开更多
DNA N4-胞嘧啶甲基化(N4-methylcytosine,4mC)是一种重要的表观遗传修饰,能在基因表达、细胞修复、DNA复制及保护等方面发挥作用.机器学习算法在预测4mC位点时,一个重要的环节是特征提取,为更充分地提取数据特征,进一步提高4mC位点的预...DNA N4-胞嘧啶甲基化(N4-methylcytosine,4mC)是一种重要的表观遗传修饰,能在基因表达、细胞修复、DNA复制及保护等方面发挥作用.机器学习算法在预测4mC位点时,一个重要的环节是特征提取,为更充分地提取数据特征,进一步提高4mC位点的预测准确率,提出了一种基于双层卷积神经网络的4mC位点预测模型.首先,将序列数据进行特征编码,搭建具有双卷积层和双池化层的卷积神经网络模型,采用L2范式正则化避免模型过拟合,并采用10折交叉验证保证模型预测的稳定性;其次,对模型参数进行调试,选取预测能力较高的参数组合进行模型训练;最后,将模型的4mC位点预测能力与几种已有算法进行比较.结果表明,双层卷积神经网络模型具有较好的预测性能和鲁棒性,优于基于一般机器学习和单层卷积神经网络的4mC位点预测算法,有效提高了4mC位点的预测能力.展开更多
文摘针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM)。该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的文本动态字向量表示。然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT预训练语言模型在医学领域的文本语义增强。在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到Bi-LSTM-CNN集成学习模块,进一步提取医学文本内容的重要信息特征。最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类。实验结果表明,通过迁移学习和集成学习的TLCM文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体F1值达到了91.8%。