针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from...针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。展开更多
针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition,CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和...针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition,CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和双向短时记忆条件随机场(DCNN-BiLSTM-CRF)的临床文本命名实体识别方法。改进的单词嵌入模型融合词根、拼音和字符本身意义,使用了来自Transformers的双向编码器表示,使单词嵌入向量具有汉字和临床文本的特点,该方法通过在临床命名实体识别任务中引入深度卷积神经网络(Deep Convolutional Neural Networks,DCNN),解决了CNN预测时丢失部分信息无法找回的问题。通过使用DCNN,本文模型能够更有效地捕获全局信息、获取字符之间的权重关系和多层次语义特征信息,从而提高了临床命名实体识别的准确性。在数据集CCKS2017和CCKS2018上分别进行实验,实验结果表明,与基准模型相比,该模型F1值分别改善了0.48%,0.68%,0.6%,0.58%,0.04%和1.43%,2.36%,3.31%,1.11%,0.17%。为了进一步验证本文的模型,进行了两种消融实验。结果表明,在两个数据集CCKS2017和CCKS2018上本文模型对比变体模型M1,F1值分别改善了0.79%和0.84%;对比变体模型M2,F1值分别改善了0.53%和0.64%。这些实验结果证明了本文所提算法的可行性。展开更多
文摘针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。