-
题名基于LSTM的生物医学核心实体提取模型研究
被引量:1
- 1
-
-
作者
唐颖
曹春萍
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《软件导刊》
2018年第5期132-137,共6页
-
基金
国家自然科学基金项目(61402288)
-
文摘
识别一篇生物医学文献中的核心实体是准确提取该文献信息的前提。针对目前生物医学文献实体识别和筛选方法的局限性,提出了基于LSTM的生物医学核心实体提取模型。该模型以LSTM为核心,通过更为优秀的词向量和输入生成规则改良模型输入,使用双向LSTM模型改进处理过程,将结果保存为树形结构并对该树进行合理剪枝获取标注链,实现输出结果处理,最终使实体识别的F1值达到了89.35%。此外,在核心实体筛选过程中,基于TF/IDF算法规则,充分考虑了词频、位置、逆文档频率等因素,使核心实体筛选的F1值达到了76.85%。
-
关键词
实体识别
改进词向量
双向LSTM
剪枝策略
核心实体筛选
-
Keywords
entity recognition
improved word vector
bidirectional LSTM
pruning strategy
core entity screening
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-