-
题名引入词汇信息的中文医学命名识别模型研究
- 1
-
-
作者
陈晶
孙亚轩
邢珂萱
-
机构
广东海洋大学数学与计算机学院
燕山大学信息科学与工程学院
河北省虚拟技术与系统集成重点实验室
-
出处
《高技术通讯》
CAS
北大核心
2024年第10期1058-1069,共12页
-
基金
国家自然科学基金(62172352,61871465,42306218)
中央政府引导地方科技发展基金(226Z0102G,226Z0305G)
+1 种基金
河北省自然科学基金(2022203028)
广东海洋大学科研启动基金(060302102304)资助项目。
-
文摘
医学领域文本存在大量的专业词汇,相比于通用领域更容易出现分词错误和未登录词的问题,其结果会导致上下文语义缺失,并影响命名实体识别(NER)的准确率。为了解决上述问题,本文提出了引入词汇信息的基于门控循环单元的中文医学命名实体识别模型WI-NER。首先,基于中文医学数据集的特点,描述了中文医学领域的命名实体识别的任务定义、实体位置和实体类别标签,并将模型在嵌入层对匹配专业词的字符进行特征嵌入与向量融合;其次,在上下文编码层添加词汇门控单元,利用循环神经网络的记忆与遗忘机制,自动提取实体识别所需的特征,并通过引入词汇信息和先验知识,实现了中文医学命名实体识别效果的提升;最后,对本模型在3个数据集上进行了实验验证,结果表明,本文提出的中文医学命名实体识别模型在准确率方面优于基线模型,达到了预期的医学领域特性。
-
关键词
中文医学命名识别
先验知识
嵌入层
门控单元
词汇信息
-
Keywords
Chinese medical naming recognition
prior knowledge
embedding layer
gated unit
vocabulary information
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名融合标签知识的中文医学命名实体识别
- 2
-
-
作者
尹宝生
周澎
-
机构
沈阳航空航天大学人机智能研究中心
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期128-134,共7页
-
基金
辽宁省教育厅项目(LJKMZ20220536)。
-
文摘
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。
-
关键词
中文医学命名实体识别
标签知识
先验知识
自适应融合机制
小样本
-
Keywords
Chinese medical named entity recognition
Label knowledge
Prior knowledge
Adaptive fusion mechanism
Few shot
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-