针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历...针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历文本序列转化为动态向量,BiGRU对词向量的双向时序特征信息进行提取以结合上下文语义,最后通过全局指针网络(Efficient Global Pointer,EGP)判断并输出最为可靠的序列作为命名实体的类别。实验结果表明,文章提出的RBBEGP模型在CCKS2019中文电子病历数据集上的精确率、召回率、F1值分别达到了83.36%、83.25%和83.30%,相较于BERT-BiLSTM-CRF等主流模型有所提高。展开更多
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展.本文首先讨论了电...电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展.本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法.本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源.最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.展开更多
文摘针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历文本序列转化为动态向量,BiGRU对词向量的双向时序特征信息进行提取以结合上下文语义,最后通过全局指针网络(Efficient Global Pointer,EGP)判断并输出最为可靠的序列作为命名实体的类别。实验结果表明,文章提出的RBBEGP模型在CCKS2019中文电子病历数据集上的精确率、召回率、F1值分别达到了83.36%、83.25%和83.30%,相较于BERT-BiLSTM-CRF等主流模型有所提高。
文摘电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展.本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法.本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源.最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.