利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试被引量：1

Improving PubMedBERT for CID-Entity-Relation Classification Using Text-CNN

导出

摘要【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系。【结果】在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了3.1%、1.5%和3.3%。【局限】仅考虑了化学诱导性疾病文本语料,在临床等其他语料上的效果有待检验。【结论】该方法能够捕捉化学诱导性疾病文本特征,提升实体关系分类的效果。 [Objective] This paper tries to improve the performance of PubMedBERT for CID entity relation classification. [Methods] We proposed a classification model based on PubMedBERT, which was also fine-tuned by Text-CNN. Then, we input entity pairs and sentence pairs to the model. Third, we used PubMedBERT to encode CID texts and obtained their global features. Finally, we captured important local information from the global features with Text-CNN to decide whether entity pairs have CID relation. [Results] The precision, recall and F1 value of this method on the BioCreative V CDR dataset reached 78.3%, 73.5% and 75.8% respectively,which were at least 3.1%, 1.5% and 3.3% higher than other methods. [Limitations] This model only examines CID texts, and more research is needed to evaluate its performance on clinical data or corpus of other domains.[Conclusions] This method can capture the features of CID texts and improve their entity relation classification.

作者董淼苏中琪周晓北兰雪崔志刚崔雷 Dong Miao;Su Zhongqi;Zhou Xiaobei;Lan Xue;Cui Zhigang;Cui Lei(Financial Section,China Medical University,Shenyang 110122,China;China Medical University Library,Shenyang 110122,China;Institute of Health Sciences,China Medical University,Shenyang 110122,China;School of Health Management,China Medical University,Shenyang 110122,China;Nursing School,China Medical University,Shenyang 110122,China)

机构地区中国医科大学财务处中国医科大学图书馆中国医科大学健康科学研究院中国医科大学健康管理学院中国医科大学护理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第11期145-152,共8页 Data Analysis and Knowledge Discovery

关键词 CID实体关系分类 PubMedBERT Text-CNN 句子对 CID Entity Relation Classification PubMedBERT Text-CNN Sentence Pair

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1廖开际,黄琼影,席运江.在线医疗社区问答文本的知识图谱构建研究[J].情报科学,2021,39(3):51-59. 被引量：17
2黄梦醒,李梦龙,韩惠蕊.基于电子病历的实体识别和知识图谱构建的研究[J].计算机应用研究,2019,36(12):3735-3739. 被引量：30
3李东奇,李明鑫,张潇.基于知识库的开放域问答研究[J].电脑知识与技术,2020,16(36):179-181. 被引量：3
4高曼,崔雷.利用文本挖掘进行药物重新定位的步骤与工具[J].中华医学图书情报杂志,2017,26(3):6-9. 被引量：1
5隋明爽,崔雷.用文本挖掘方法发现药物的副作用[J].中华医学图书情报杂志,2015,24(11):67-72. 被引量：4
6王秀艳,崔雷.采用混合方法抽取生物医学实体间语义关系[J].现代图书情报技术,2013(3):77-82. 被引量：3
7王可鉴,石乐明,贺林,张永祥,杨仑.中国药物研发的新机遇:基于医药大数据的系统性药物重定位[J].科学通报,2014,59(18):1790-1796. 被引量：16

二级参考文献110

1崔建梅,尹大力.药物重新定位策略在新药发现中的应用与进展[J].中国药学杂志,2005,40(20):1524-1526. 被引量：7
2Cohen K B, Hunter L. Getting Started in Text Mining [ J ]. PLoS Computational Biology, 2008,4 (1) :e20.
3Barbosa - Silva A, Soldatos T G, Magalhaes I L F, et al. LAITOR - Literature Assistant for Identification of Terms co - Occurrences and Relationships [ J ]. BMC Bioinformatics, 2010,11 ( 1 ) : 70 - 79.
4Lee S, Lee K H, Song M, et al. Building the Process - drug - side Effect Network to Discover the Relationship Between Biological Processes and Side Effects [ J ]. BMC Bioinformatics,2011,12 : $2. doi : 10.1156/1471 - 2105 - 12 - $2 - $2.
5Saetre R, Yoshida K, Miwa M, et al. Extracting Protein Interactions from Text with the Unified AkaneRE Event Extraction System[ J]. IEEE- ACM Transaction on Computational Biology and Bioinfor- matics, 2010,7(3) : 442 -453.
6Garten Y, Ahman R B. Pharmspresso : A Text Mining Tool for Ex- traction of Pharmacogenomic Concepts and Relationships from Full Text [ J ]. BMC B ioinformatics, 2009,10 : $6. doi : 10. 1186/1471 - 2105 - 10 - $2 - $6.
7Li J, Zhu X, Chen J Y. Building Disease - specific Drug - pro- tein Connectivity Maps from Molecular Interaction Networks and Pubmed Abstracts [ J] . PLoS Computational Biology,2009,5 (7) :e1000450.
8Fundel K, Kuffner R, Zimmer R. RelEx--Relation Extraction Using Dependency Parse Trees[ J]. Bioinformatics, 2007,23 ( 3 ) : 365 - 371.
9Friedman C, Kra P, Yu H, et al. GENIES : A Natural - language Processing System for the Extraction of Molecular Pathways from Journal Articles [ J ]. Bioinformatics, 2001,17 ( S1 ) : $74 - $82.
10McDonald D M, Chen H, Su H, et al. Extracting Gene Pathway Relations Using a Hybrid Grammar: The Arizona Relation Parser [ J ]. Bioinformatics, 2004,20 ( 18 ) :3370 - 3378.

共引文献65

1王大阜,王静,邓志文,贾志勇,张浴日.深度学习赋能网络安全知识图谱实体关系联合抽取研究[J].中国电子科学研究院学报,2023,18(5):420-428. 被引量：1
2王知津,郑悦萍.信息组织中的语义关系概念及类型[J].图书馆工作与研究,2013(11):13-19. 被引量：14
3杜一平,童佩瑾,张飞宇.基于正交基光谱的大数据新型快速比对算法的构建[J].科学通报,2015,60(8):714-719.
4郭德君.中国健康产业国际化的思考--以中华养生文化及中医药产业国际化为分析视角[J].社会科学,2016(8):43-50. 被引量：13
5陈少军,陈宏降.CRFR1拮抗剂CP-154526的脱靶作用[J].中国医院药学杂志,2016,36(15):1245-1248. 被引量：1
6蒋先仲.药物发现及其新策略[J].中国药房,2016,27(23):3169-3171. 被引量：1
7隋明爽,崔雷.结合多种特征的CRF模型用于化学物质–疾病命名实体识别[J].现代图书情报技术,2016(10):91-97. 被引量：10
8王忠,陈伟.我国健康大数据发展的障碍及对策[J].卫生经济研究,2017,34(11):54-57. 被引量：13
9范馨月,崔雷.基于文本挖掘的药物副作用知识发现研究[J].数据分析与知识发现,2018,2(3):79-86. 被引量：8
10杨光,郝逸凡.基于互信息算法的抗前列腺癌药物重定位分析[J].沈阳师范大学学报（自然科学版）,2019,37(1):34-37. 被引量：2

同被引文献6

1赵云松,杨鹏,张林,谭志军,梁英,张海悦,徐勇勇.血脂四项检验项目及结果临床描述与国际规范术语集映射[J].中国卫生信息管理杂志,2017,14(6):862-867. 被引量：1
2李楠,陶宏才.一种新的融合BM25与文本特征的新闻摘要算法[J].成都信息工程大学学报,2018,33(2):113-118. 被引量：9
3尹帅龙,夏晨曦.口语化疾病名称向国际规范疾病术语集的映射研究[J].中华医学图书情报杂志,2020,29(1):22-27. 被引量：3
4任慧玲,李晓瑛,邓盼盼,冀玉静,刘懿,黄裕翔.国际医学术语体系进展及特色优势分析[J].中国科技术语,2021,23(3):18-25. 被引量：11
5厐絪,郑建立.基于文本相似度的康复量表ICF映射研究[J].软件导刊,2022,21(4):181-185. 被引量：2
6郝秀慧,方贤进,杨高明.基于TFIDF+LSA算法的新闻文本聚类与可视化[J].计算机技术与发展,2022,32(7):34-38. 被引量：9

引证文献1

1王怡茹,郑建立,周浩然.基于PubMedBERT预训练模型的医学术语对齐方法研究[J].软件工程,2023,26(11):39-42. 被引量：1

二级引证文献1

1张颖,任慧玲,侯海晶,张腊,卢富华,李晓瑛.基于SPO语义结构和文献内容特征的免疫性肾病中西医疾病名称关联映射研究[J].医学与社会,2024,37(11):113-121.

1程盼,徐弼军.基于word2vec和logistic回归的中文专利文本分类研究[J].浙江科技学院学报,2021,33(6):454-460. 被引量：5
2刘思远,郭鸿杰.翻译的显化与隐性——财经文本人称代词汉译管窥[J].外语与翻译,2021,28(4):38-45. 被引量：3
3李立华,雷若然,杜杰,王浩.生态文明视角的九寨沟景观资源美学认识[J].山地学报,2021,39(5):745-755. 被引量：2

数据分析与知识发现

2021年第11期

浏览历史

内容加载中请稍等...

利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试被引量：1

参考文献7

二级参考文献110

共引文献65

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试 被引量：1

参考文献7

二级参考文献110

共引文献65

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试被引量：1