-
题名基于伪实体数据增强的高精准率医学领域实体关系抽取
- 1
-
-
作者
郭安迪
贾真
李天瑞
-
机构
西南交通大学计算机与人工智能学院
综合交通大数据应用技术国家工程实验室(西南交通大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第2期393-402,共10页
-
基金
国家自然科学基金资助项目(62276218,62272398,62176221)。
-
文摘
针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题,提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先,在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息,以在密集的实体中准确识别医学长实体;其次,在流水线抽取框架的基础上插入关系负例生成模块,通过基于欠采样的伪实体生成模型生成混淆关系分类模型的伪实体,并通过三种数据增强生成策略提升模型鉴别主语宾语颠倒、主语宾语边界错误和关系分类错误的能力;最后,通过基于悬浮标记的关系分类模型缓解数据增强带来的训练时间剧增的问题。在CMeIE数据集中,对比了目前主流的4个模型。实体抽取部分相较于次优模型PL-Marker(Packed Levitated Marker),F1值提升了2.26%;实体关系抽取相较于次优模型CBLUE(Chinese Biomedical Language Understanding Evaluation)提出的流水线抽取模型,F1值提升了5.45%,精准率提升了15.62%。实验结果表明使用特征读取单元和伪实体数据增强模块可有效提高抽取的精准率。
-
关键词
实体关系抽取
数据增强
高精准率
医学领域
关系负例生成
-
Keywords
entity and relation extraction
data augmentation
high-precision
medical domain
relation negative example generation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-