-
题名基于概率分布差异的医学命名实体识别方法
- 1
-
-
作者
刘聪
吕雪峰
王宏林
王晓伟
陆瑾
孙顺
胡松奇
-
机构
中国共产党中央军事委员会后勤保障部信息中心
长沙军民先进技术研究有限公司
-
出处
《大数据》
2023年第4期159-171,共13页
-
基金
军队后勤科研重点项目(No.BS220R007)。
-
文摘
医学命名实体识别是从医学文本中抽取出指代特定概念的医学实体,是医学信息抽取的基础性任务。当前主流的医学命名实体识别算法普遍基于深度学习技术,需要大量高质量的标注样本进行模型训练。然而医学领域的样本标注成本很高,严重限制了模型性能的提升。为了降低模型对标注样本的需求,一种重要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高价值样本优先标注,从而使模型提前收敛。现有算法普遍基于样本长度、样本识别的概率等特征来设计采样策略,忽视了样本类别分布这一深层次特征,导致命名实体识别召回率较低。提出了一种基于概率分布差异的主动学习算法,通过计算样本间的概率分布差异来评估样本的标注价值,并在标注样本更新时动态优化模型。在真实的医学检查文本上的实验表明,相比已有算法,达到同等的模型性能,该算法所需要的标注数据可缩减10%以上;在相同标注样本量的情况下,本算法F1值提高5%以上。
-
关键词
医学命名实体识别
深度学习
主动学习
概率分布
-
Keywords
digital transformation
emerging technologies
data asset
digital economy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-