摘要
中文电子病历的命名实体识别是临床医疗领域中文本信息挖掘的重要任务之一,而中文电子病历有着较为独特的文本结构以及词语分布,但通用领域的预训练模型不能很好地将医疗相关实体注入词的表示中,这对电子病历命名实体识别的效果有着负面的影响。为了更好地表示电子病历文本,且能进一步提升预训练模型对电子病历命名实体识别的效果,提出了基于医疗MC-BERT命名实体识别模型,即MC-BERT-BiLSTM-CRF(MBC)模型。首先MC-BERT作为文本的预训练输入形成词向量,然后利用BiLSTM获取文本前后两个方向的特征信息后得到对应的特征向量,最后用CRF将特征解码并预测标签序列。实验表明,文章所提出的基于医疗MC-BERT的命名实体识别模型在CCKS-2017数据集上的精确率、召回率和F1值分别92.25%、94.28%和93.60%。
出处
《信息技术与信息化》
2023年第2期122-125,共4页
Information Technology and Informatization