-
题名基于字符级特征自适应的生物医学命名实体识别
被引量:2
- 1
-
-
作者
于祥钦
王香
李智强
徐贤
-
机构
华东理工大学信息科学与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2023年第9期1876-1883,共8页
-
基金
国家自然科学基金项目(61872142,62072299,61772336,61702334,6172200,61173048,61557218)资助
上海市经济和信息委员会信息发展专项基金项目(201602008)资助
+2 种基金
上海市浦江计划项目(17PJ1401900)资助
上海市自然科学基金项目(17ZR1406900,17ZR1429700)资助
ECUST教育研究基金项目(ZH1726108)资助.
-
文摘
生物医学领域新增实体数量和类型迅速增加,在预训练词表容量有限的情况下,字符嵌入可以在一定程度上解决未登录词问题,单一的字符级特征提取器所提取字符嵌入的潜在表征有一定局限性.针对此问题,提出一种字符级特征自适应融合的生物医学命名实体模型.首先利用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)提取文本的字符向量,训练过程中动态计算文本单词两种字符向量的权重并进行拼接,使得模型在字符粒度上更加充分的利用信息,并加入词性信息和组块分析作为额外特征;将词向量、字符级特征和额外特征拼接后输入到BiLSTM-CRF神经网络模型进行训练.结果表明,所提模型在NCBI-disease和BiocreativeⅡGM语料库上平均F1值达到87.14%和81.04%,有效的提升了生物医学命名实体识别的效果.
-
关键词
生物医学命名实体识别
双向长短期记忆网络
卷积神经网络
字符级特征
自适应
-
Keywords
biomedical named entity recognition
Bidirectional Long Short-Term Memory Network(BiLSTM)
Convolutional Neural Network(CNN)
character level features
self-adaption
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-