基于LSTM的生物医学核心实体提取模型研究被引量：1

Research of Core Biomedical Entities Extraction Model Based on LSTM

下载PDF

导出

摘要识别一篇生物医学文献中的核心实体是准确提取该文献信息的前提。针对目前生物医学文献实体识别和筛选方法的局限性,提出了基于LSTM的生物医学核心实体提取模型。该模型以LSTM为核心,通过更为优秀的词向量和输入生成规则改良模型输入,使用双向LSTM模型改进处理过程,将结果保存为树形结构并对该树进行合理剪枝获取标注链,实现输出结果处理,最终使实体识别的F1值达到了89.35%。此外,在核心实体筛选过程中,基于TF/IDF算法规则,充分考虑了词频、位置、逆文档频率等因素,使核心实体筛选的F1值达到了76.85%。 Identifying the core entities in a biomedical document is a prerequisite for accurate extraction of important information of the document.In view of the difficulties of entity and the limitations of existing methods of entity recognition and core entity screening in biomedical literature,a model of biomedical core entity extraction based on LSTM is proposed in this paper.The model takes LSTM as the core,applies the more excellent word vector and input generation rules to improve the model input,and employs the two-dimensional LSTM model to improve model of the process,The results are saved into the tree structure and reasonable pruning of the tree to achieve the output chain annotation way to obtain.Entity recognition F1 value reached 89.35%.In addition,in the process of core entity screening,the factors such as word frequency,location and inverse document frequency are fully taken into account on the premise of TF/IDF algorithm rules,and the F1 value of core entity screening is up to76.85%.

作者唐颖曹春萍 TANG Ying;CAO Chun-ping(University of Shanghai for Science and Technology School of Optical-Electrical and Computer Engineering,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《软件导刊》 2018年第5期132-137,共6页 Software Guide

基金国家自然科学基金项目(61402288)

关键词实体识别改进词向量双向LSTM 剪枝策略核心实体筛选 entity recognition improved word vector bidirectional LSTM pruning strategy core entity screening

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1孙风梅.医学文献主题分析方法研究[J].预防医学情报杂志,2008,24(2):129-131. 被引量：3
2胡双,陆涛,胡建华.文本挖掘技术在药物研究中的应用[J].医学信息学杂志,2013,34(8):49-53. 被引量：9
3肖忠华,曹雁.中外作者科技论文英文摘要多维度语步对比研究[J].外语教学与研究,2014,46(2):260-272. 被引量：80
4黄河清,韩健,张鲸惊,韩凤,蒋奎,单爱莲.中外科技期刊英文摘要文体格式的变化及建议[J].中国科技期刊研究,2015,26(2):143-151. 被引量：29

二级参考文献61

1李晓萍,李欣欣,王丽,李耀芳,吴正治.医学论文中主题词的正确标引[J].深圳中西医结合杂志,2005,15(5):318-320. 被引量：7
2秦东.CBMdisc主题标引一致性的探讨[J].现代情报,2006,26(1):95-96. 被引量：5
3刘雪立.生物医学论文的结构式摘要及其写作.眼科新进展,2001,21(2):141-143.
4PubMed[EB/OL].[2013-04-16] http://www.nlm.nih.gov/bsd/medline_ lang_ distr.html.
5Bai Y,Qi D,Pu Q,et al.A Data Mining Algorithm based on Genetic Algorithm[M].The World Scientific and Engineering Academic Society (WSEAS),2004.
6Jensen LJ,Saric J,Bork P.Literature Mining for the Biologist:from information retrieval to biological discovery[J].Nature Reviews Genetics,2006,7 (2):119-129.
7Atkinson J,Bull V.A Multi-strategy Approach to Biological Named Entity Recognition[J].Expert Systems with Applications,2012,39 (17):12968-12974.
8Rindflesch TC,Tanabe L,Weinstein JN,et al.EDGAR:extraction of drugs,genes and relations from the biomedical literature[C].Proceedings of the Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing,2000.
9Segura-Bedmar I,Martínez P,Segura-Bedmar M.Drug Name Recognition and Classification in Biomedical Texts:a case study outlining approaches underpinning automated systems[J].Drug Discovery Today,2008,13 (17-18):816-823.
10Talukdar PP,Brants T,Liberman M,et al.Identification of New Drug Classification Terms in Textual Resources[J].Bioinformatics,2007,23 (13):264-272.

共引文献117

1卢萍,杨玉珊,袁芳,李书仓.化工本科生论文与国际期刊论文英语摘要体裁对比分析[J].中国ESP研究,2021(3):60-69. 被引量：2
2翁馨,廖巧云.英汉科技类公司人物简介语步模式对比研究[J].中国ESP研究,2020(3):45-54.
3刘丽宁.语域研究中的多维度分析法[J].语言与翻译,2021(1):60-66. 被引量：3
4杨玉婷,李志君.发表环境对中国学者论文英语摘要的语类特征影响研究[J].外国语言文学,2020(2):185-198.
5闫鹏飞.基于语料库和语类分析的博士生学术英语教学模式[J].外语教学理论与实践,2022(1):102-110. 被引量：2
6翁维义,赵进春,胡成志,郝红梅,米文广.提高农学论文关键词的编辑加工质量[J].编辑学报,2009,21(5):410-411. 被引量：3
7黎育松.医学院校马克思主义理论课教学改革探讨[J].医学与社会,2000,13(2):64-64.
8王玉萍,朱大复.国产差别化化纤纺丝设备的开发[J].合成纤维,2000,29(4):41-43.
9山院飞,彭一帆.2001-2011年我国乳腺癌药物治疗的文献计量分析[J].预防医学情报杂志,2013,29(7):598-600. 被引量：2
10刘俊丽,张秀梅,蒋勇青.基于文本挖掘的乙型肝炎相关文献知识图谱分析[J].医学信息学杂志,2014,35(1):48-53. 被引量：11

同被引文献1

1赵理金.一种基于BiLSTM-CRF的命名实体识别方法研究[J].电脑与信息技术,2021,29(2):8-11. 被引量：5

引证文献1

1龚艳,汪玉,梁昌明,黄林钰,乐汉,徐圣婴,王本强.基于多模型融合的警情要素提取[J].软件导刊,2022,21(4):98-102.

1张帆.电商评论中细粒度主题情感混合模型建构[J].商业经济研究,2017(24):55-57. 被引量：1
2周兴铭,吴泉源.一个高速简易除法方案[J].计算机工程与科学,1980,10(1):118-132.
3崔馨月,孙静宇.改进的Eclat算法研究与应用[J].计算机工程与设计,2018,39(4):1059-1063. 被引量：8
4吴晨光.一点资讯:制订算法规则赋予正向价值[J].网络传播,2018,0(6):69-69.
5赵哲焕,杨志豪,孙聪,林鸿飞.生物医学文献中的蛋白质关系抽取研究[J].中文信息学报,2018,32(7):82-90. 被引量：5
6谷重阳,徐浩煜,周晗,张俊杰.基于词汇语义信息的文本相似度计算[J].计算机应用研究,2018,35(2):391-395. 被引量：27
7康准,王德军.基于知识图谱的生物学科知识问答系统[J].软件,2018,39(2):7-11. 被引量：7
8殷亦超,何萍,高炬,刘珉.基于临床大数据的慢性心力衰竭疗效评价研究[J].科学技术创新,2018(18):28-29. 被引量：1
9伊艳杰,王康,周广舟,陆恒,张嘉隽.芽孢杆菌合成环脂肽的研究进展[J].河南工业大学学报（自然科学版）,2018,39(3):127-134. 被引量：4
10王江玲,戴新娟,施琪,许珊珊,郭璐.我国脑卒中误吸研究的文献计量学分析[J].护理研究,2018,32(9):1475-1477. 被引量：12

软件导刊

2018年第5期

浏览历史

内容加载中请稍等...

基于LSTM的生物医学核心实体提取模型研究被引量：1

参考文献4

二级参考文献61

共引文献117

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LSTM的生物医学核心实体提取模型研究 被引量：1

参考文献4

二级参考文献61

共引文献117

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LSTM的生物医学核心实体提取模型研究被引量：1