基于ALBERT的中文医疗病历命名实体识别被引量：6

ALBERT-Based Named Entity Recognition of Chinese Medical Records

下载PDF

导出

摘要医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑.提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型.首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调;其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征;最后,基于条件随机场模型(CRF)命名实体的序列标记.在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销. The main task of named entity recognition on medical record is to convert unstructured text into structured data,and then provide an important fundamental support for data mining for medical field tasks.This paper proposes a named entity recognition method for Chinese medical records based on ALBERT and fusion model.Firstly,we use manual labeling to expand the sample dataset,and fine-tune the dataset in conjunction with the ALBERT.Secondly,the Bi-directional Long Short-Term Memory(BiLSTM)is used to extract the global features of the text.Finally,on the basis of the conditional random field model(CRF),sequence tags for named entities are made.The experimental results on the standard dataset show that the proposed method further improves the accuracy of name entity recognition on medical text and greatly reduces the time overhead.

作者陈杰奚雪峰皮洲盛胜利崔志明 Chen Jie;Xi Xuefeng;Pi Zhou;Victor S Sheng;Cui Zhiming(School of Electronic and Computer Engineering,Suzhou University of Science and Technology,Suzhou 215009,China;Suzhou Smart City Research Institute,Suzhou 215009,China;Computer Science Department,Texas Tech University,Texas 79431,USA)

机构地区苏州科技大学电子与信息工程学院苏州智慧城市研究院 Computer Science Department

出处《南京师范大学学报（工程技术版）》 CAS 2021年第1期36-43,共8页 Journal of Nanjing Normal University(Engineering and Technology Edition)

基金国家自然科学基金项目(61673290、61876217) 江苏省“六大人才高峰”高层次人才项目(XYDXX-086) 苏州市科技发展计划产业前瞻性项目(SYG201817)、2020年江苏省研究生科研创新计划项目(KYCX20_2762).

关键词 ALBERT 命名实体识别电子医疗病历双向长短记忆网络条件随机场 ALBERT named entity recognition clinical electronic medical records BiLSTM CRF

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011,34(9):1688-1696. 被引量：16
2张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：75
3杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：104

二级参考文献21

1Huang Fei, Vogel S, Waibel A. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization//Proceedings of the 2003 Annual Confer- ence of the ACL, Workshop on Multilingual and Mixed-lan- guage Named Entity Recognition. Sapporo, Japan, 2003: 184-192.
2Al-Onaizan Y, Knight K. Translating named entities using monolingual and bilingual resources//Proceedings of the 40th Annual Meeting of the Association for Computational Lin- guistics (ACL). Philadelphia, PA, USA, 2002:400 -408.
3Feng Donghui, Lv Yajuan, Zhou Ming. A new approach for English Chinese named entity alignment//Proceedings of the Conference on Empirical Methods in Natural Language Pro cessing (EMNLP 2004). Barcelona, 2004 : 372-379.
4Lee Chun-Jen, Chang Jason S, Jang Jyh-Shing R. Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources. ACM Transactions on Asian Language Information Processing (TAMP), 2006, 5(2) : 121-145.
5Moore R C. Learning translations of named-entity phrases from parallel corpora//Proceedings of lOth Conference of the European Chapter of ACL. Budapest, Hungary, 2003: 456- 464.
6Krishman Vijay, Manning Christopher D. An effective two- stage model for exploiting non-local dependencies in named entity recognition//Proceedings of the 44th Annual Meeting of ACL. Sydney, 2006:1121-1128.
7Ji Heng, Grishman Ralph. Collaborative entity extraction and translation//Proceedings of the International Conference on Recent Advances in Natural Language Processing. Borovets, Bulgaria, 2007:281-238.
8Chen Hsin-His, Yang Changhua, Lin Ying. Learning formu- lation and transformation rules for multilingual named enti- ties//Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition. Sapporo, Japan, 2003:1-8.
9Berger Adam L, Della Pietra Stephen A, Della Pietra Vin- cent J. A maximum entropy approach to natural language processing. Computational Linguistics, 1996, 22(1) : 39- 72.
10Och Franz loser, Ney Hermann. Discriminative training and maximum entropy models for statistical machine transla- tion//Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, PA, USA, 2002: 295-302.

共引文献187

1周永称,范少萍,晏归来,安新颖.精准医学文本语料库构建研究[J].医学信息学杂志,2019,40(12):41-47. 被引量：4
2赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
3步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
4昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：17
5成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
6吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
7曹若麟,杜渂.面向实体标注的公安警情领域语料库的构建[J].电信快报,2021(3):20-24. 被引量：2
8王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
9刘重来.论卢作孚“乡村现代化”思想[J].西南师范大学学报（人文社会科学版）,2000,26(2):134-139. 被引量：6
10高巍,万廷彬.甜菜碱对商品产蛋鸡生产性能的影响[J].中国禽业导刊,2000,17(6):16-17. 被引量：1

同被引文献54

1任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
2韩丹,洪汝攀,钟焱军.LSTM深度神经网络在消防力量调度算法中的应用[J].电信快报,2021(5):25-27. 被引量：3
3马爽,裴丽坚,黄宇光.麻醉专业医疗质量管理与控制现状报告[J].麻醉安全与质控,2017,1(1):1-3. 被引量：4
4程波,闵苏.加强麻醉医疗质量控制构筑围术期安全平台——重庆市麻醉医疗质量控制中心简介[J].麻醉安全与质控,2017,1(3):160-162. 被引量：3
5李娟,虞金中.基于新词的新闻命名实体识别研究[J].电脑知识与技术,2018,14(8):153-154. 被引量：3
6禤镇宇,蒋盛益,张礼明,包睿.基于多特征Bi-LSTM-CRF的影评人名识别研究[J].中文信息学报,2019,33(3):94-101. 被引量：12
7刘峰,高赛,于碧辉,郭放达.基于Multi-head Attention和Bi-LSTM的实体关系分类[J].计算机系统应用,2019,28(6):118-124. 被引量：12
8张晓孪,王西锋.基于语义的Web招聘信息抽取关键技术的研究[J].微型电脑应用,2019,35(6):69-70. 被引量：2
9石春丹,秦岭.基于BGRU-CRF的中文命名实体识别方法[J].计算机科学,2019,46(9):237-242. 被引量：28
10车金立,唐力伟,邓士杰,苏续军.基于BI-GRU-CRF模型的中文分词法[J].火力与指挥控制,2019,44(9):66-71. 被引量：8

引证文献6

1范钰程,梁凤梅,邬志勇.基于ALBERT-CAW模型的时政新闻命名实体识别方法[J].电子设计工程,2022,30(15):49-54.
2姚蕾,蒋明峰,方贤,魏波,李杨.结合部首特征和BERT-Transformer-CRF的中文电子病历实体识别方法研究[J].软件工程,2022,25(12):30-36. 被引量：1
3雷兴豪,董雷.NLP在智能消防接处警系统中的应用研究[J].电子设计工程,2023,31(3):43-48. 被引量：1
4陈翯,常霞,赵东宸.电子病历的命名实体识别方法综述[J].科技创新导报,2022,19(20):109-114.
5张付领.结合ERNIE2.0的医疗中文命名实体识别模型[J].电子设计工程,2023,31(4):38-42. 被引量：2
6庞秋奔,李银.ALBERT预训练模型在医疗文书命名实体识别中的应用研究[J].信息与电脑,2024,36(6):152-156.

二级引证文献4

1刘安栋,彭琳,叶青,杜建强,程春雷,查青林.电子病历命名实体识别研究进展[J].计算机工程与应用,2023,59(21):39-51. 被引量：3
2郑建波.警情信息识别学习模型应用研究[J].消防界（电子版）,2023,9(9):51-53.
3赵珍珍,董彦如,刘静,张俊忠,曹慧.融合词信息和图注意力的医学命名实体识别[J].计算机工程与应用,2024,60(11):147-155. 被引量：1
4王正芳,张军亮,李小倩,于月,陈慧媜.基于ERNIE-BiGRU-Attention-CRF的电子病历命名实体识别方法[J].医学信息学杂志,2024,45(5):76-82.

1李玮祎,徐中阳,陈燕.基于AHP-TOPSIS的医疗健康App用户体验评价[J].医学信息,2021,34(1):7-11. 被引量：1
2叶桦,冯全生,严小英,赵亮.基于人工神经网络的糖尿病合并冠心病舌脉象证型预测研究[J].中华中医药杂志,2020,35(10):5184-5187. 被引量：11
3张扬睿,王卓燃,崔子琦,傅于窈,程世强,王伟,白晨阳.基于条件随机场的图像标注方法研究[J].现代计算机,2021,27(4):74-77.
4徐建国,刘泳慧,刘梦凡.基于BILSTM-CRF的高校政策语义角色标注研究[J].计算机工程与应用,2021,57(6):207-211. 被引量：4
5朱晓峰,张涛,鲁振环.浆肌层吻合法在结肠吻合中的应用[J].中国现代医生,2021,59(3):60-63. 被引量：1
6张秋林,陈荟旭,潘姣姣,孙世浩,张伟信,李莲瑞.一株猪源奇异变形杆菌的分离鉴定[J].现代畜牧兽医,2021(1):51-54. 被引量：3
7刘彦戎,杨云.一种矩阵和排序索引关联规则数据挖掘算法[J].计算机技术与发展,2021,31(2):54-59. 被引量：8
8杨俊斌,曹敏.大数据在公安领域的应用研究[J].网络安全技术与应用,2021(2):64-65.
9徐映梅,陈尧.季节ARIMA模型与LSTM神经网络预测的比较[J].统计与决策,2021,37(2):46-50. 被引量：24

南京师范大学学报（工程技术版）

2021年第1期

浏览历史

内容加载中请稍等...

基于ALBERT的中文医疗病历命名实体识别被引量：6

参考文献3

二级参考文献21

共引文献187

同被引文献54

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于ALBERT的中文医疗病历命名实体识别 被引量：6

参考文献3

二级参考文献21

共引文献187

同被引文献54

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于ALBERT的中文医疗病历命名实体识别被引量：6