-
题名基于注意力增强与特征融合的中文医学实体识别
- 1
-
-
作者
王晋涛
秦昂
张元
陈一飞
王廷凤
谢承霖
邹刚
-
机构
中北大学计算机科学与技术学院
湖南省肿瘤医院
湖南省中医药研究院附属医院
湖南中科助英智能科技研究院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第7期324-332,共9页
-
基金
湖南省自然科学基金(2022JJ70022)。
-
文摘
针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时也会引入一些低相关性的词汇和噪声,导致基于注意力机制的Bret模型出现注意力分散的情况。此外仅依靠字、词粒度难以充分挖掘中文字符深层次的语义信息。对此,提出基于注意力增强与特征融合的中文医学实体识别模型,对字词注意力分数矩阵进行稀疏处理,使模型的注意力集中在相关度高的词汇,能够有效减少上下文中的噪声词汇干扰。同时,对汉字发音和笔画通过卷积神经网络(CNN)提取特征,经过迭代注意力特征融合模块进行融合,然后与Bret模型的输出特征进行拼接输入给Bi LSTM模型,进一步挖掘字符所包含的深层次语义信息。通过爬虫等方式搜集大量相关医学语料,训练医学领域词向量库,并在CCKS2017和CCKS2019数据集上进行验证,实验结果表明,该模型F1值分别达到94.90%、89.37%,效果优于当前主流的实体识别模型,具有更好的识别效果。
-
关键词
实体识别
中文分词
注意力稀疏
特征融合
医学词向量库
-
Keywords
entity recognition
Chinese word segmentation
sparse attention
feature fusion
medical word vector library
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-