将中医临床病历分为五大类问题,利用Transformers的双向编码器,在训练文本分类器之前,用未标注的临床语料库来微调ERNIE(Traditional Chinese Medicine-ERNIE)模型,精炼出一个针对中医知识领域的TCM-ERNIE模型,该语料库只使用临床记录...将中医临床病历分为五大类问题,利用Transformers的双向编码器,在训练文本分类器之前,用未标注的临床语料库来微调ERNIE(Traditional Chinese Medicine-ERNIE)模型,精炼出一个针对中医知识领域的TCM-ERNIE模型,该语料库只使用临床记录文本中的汉字作为输入,无须再进行预处理或特征提取.最后采用基准数据集来评估TCM-ERNIE模型和传统文本分类器,取得了89.39%±0.35%的分类精度,Macro F1为88.64%±0.40%,Micro F1为89.39%±0.35%,还采用可视化的方法来显示注意力权重,进一步揭示临床病历文本中的指标性症状.展开更多
针对农业新闻目前面临的针对性差、分类不清和数据集缺乏等问题,提出一种基于ERNIE(Enhanced Representation through kNowledge IntEgration)、深度金字塔卷积神经网络(DPCNN)和双向门控循环单元(BiGRU)的农业新闻分类模型——EGC。首...针对农业新闻目前面临的针对性差、分类不清和数据集缺乏等问题,提出一种基于ERNIE(Enhanced Representation through kNowledge IntEgration)、深度金字塔卷积神经网络(DPCNN)和双向门控循环单元(BiGRU)的农业新闻分类模型——EGC。首先利用ERNIE对数据集进行编码,然后利用改进后的DPCNN和BiGRU同时提取新闻文本的特征,再将两者提取的特征进行拼合并经过Softmax得到最终结果。为了使EGC模型适用于农业新闻分类领域,对DPCNN进行改进,减少它的卷积层以保留更多特征。实验结果表明,与ERNIE相比,EGC模型的精确率、召回率和F1分数别提升了1.47、1.29和1.42个百分点,优于传统分类模型。展开更多
【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integ...【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration,ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network,BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network,IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field,CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia,MSRA)数据集上的F_(1)值达到了95.18%,相比基准模型BiLSTM-CRF F_(1)值提高了8.86百分点,相比ERNIE-BiLSTM-CRF模型F_(1)值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后F_(1)值仅提升了0.07百分点,可见引入注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。展开更多
针对静态词向量存在无法表示多义词,以及传统深度学习模型特征提取能力不足等问题,提出了结合ERNIE2.0(Enhanced language Representation with Informative Entities 2.0)的医疗中文命名实体识别模型。ERNIE2.0模型通过结合词的上下文...针对静态词向量存在无法表示多义词,以及传统深度学习模型特征提取能力不足等问题,提出了结合ERNIE2.0(Enhanced language Representation with Informative Entities 2.0)的医疗中文命名实体识别模型。ERNIE2.0模型通过结合词的上下文具体语境进行动态学习,得到词的动态语义表征,解决了一词多义问题。使用BiSRU模型提取医疗文本高维全局序列特征,软注意力机制用于计算每个词的权重大小,由条件随机场输出命名实体的序列标记结果。在标准化数据集上的实验表明,ERNIE2.0-BiSRU-AT-CRF模型的F1值达到了86.74%,优于实验对比的其他模型,证明了模型的有效性。展开更多
文摘将中医临床病历分为五大类问题,利用Transformers的双向编码器,在训练文本分类器之前,用未标注的临床语料库来微调ERNIE(Traditional Chinese Medicine-ERNIE)模型,精炼出一个针对中医知识领域的TCM-ERNIE模型,该语料库只使用临床记录文本中的汉字作为输入,无须再进行预处理或特征提取.最后采用基准数据集来评估TCM-ERNIE模型和传统文本分类器,取得了89.39%±0.35%的分类精度,Macro F1为88.64%±0.40%,Micro F1为89.39%±0.35%,还采用可视化的方法来显示注意力权重,进一步揭示临床病历文本中的指标性症状.
文摘针对农业新闻目前面临的针对性差、分类不清和数据集缺乏等问题,提出一种基于ERNIE(Enhanced Representation through kNowledge IntEgration)、深度金字塔卷积神经网络(DPCNN)和双向门控循环单元(BiGRU)的农业新闻分类模型——EGC。首先利用ERNIE对数据集进行编码,然后利用改进后的DPCNN和BiGRU同时提取新闻文本的特征,再将两者提取的特征进行拼合并经过Softmax得到最终结果。为了使EGC模型适用于农业新闻分类领域,对DPCNN进行改进,减少它的卷积层以保留更多特征。实验结果表明,与ERNIE相比,EGC模型的精确率、召回率和F1分数别提升了1.47、1.29和1.42个百分点,优于传统分类模型。
文摘【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration,ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network,BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network,IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field,CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia,MSRA)数据集上的F_(1)值达到了95.18%,相比基准模型BiLSTM-CRF F_(1)值提高了8.86百分点,相比ERNIE-BiLSTM-CRF模型F_(1)值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后F_(1)值仅提升了0.07百分点,可见引入注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。
文摘针对静态词向量存在无法表示多义词,以及传统深度学习模型特征提取能力不足等问题,提出了结合ERNIE2.0(Enhanced language Representation with Informative Entities 2.0)的医疗中文命名实体识别模型。ERNIE2.0模型通过结合词的上下文具体语境进行动态学习,得到词的动态语义表征,解决了一词多义问题。使用BiSRU模型提取医疗文本高维全局序列特征,软注意力机制用于计算每个词的权重大小,由条件随机场输出命名实体的序列标记结果。在标准化数据集上的实验表明,ERNIE2.0-BiSRU-AT-CRF模型的F1值达到了86.74%,优于实验对比的其他模型,证明了模型的有效性。