基于结构功能和实体识别的文本语义表示——以病历领域为例被引量：5

Text Semantic Representation with Structure-Function and Entity Recognition:Case Study of Medical Records

导出

摘要【目的】融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。【方法】依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引入实体及结构信息,经由TextCNN模型进一步提取局部上下文特征,得到文本语义内涵更为丰富的向量表示形式。【结果】在命名实体识别实验中,基于结构的医疗实体识别精确率、召回率和F值分别达93.20%、95.19%和94.19%;在文本表示的分类验证实验中,所提病历文本表示方法的分类准确率达到92.12%。【局限】需进一步加强对更多类型文本的验证,细化结构识别过程,使所提方法更好地应用于文本挖掘工作。【结论】本文将病历结构功能信息引入病历文本表示工作,实验证明了其既能有效提高命名实体识别准确度,又能进一步丰富文本语义内涵和提升文本表示效果。 [Objective]This paper tries to improve the accuracy of text representation and mining,with the help of structural and functional information from Chinese medical records.[Methods]First,we proposed a new semantic representation strategy for the texts of Chinese medical records based on their structure-function features.Then,we used the BiLSTM-CRF model to recognize named entities,which introduced structure information at the word vector level.Finally,we utilized the TextCNN model to extract local context features,which helped us obtain a vector representation with richer text semantic connotations.[Results]The precision,recall and F values of the new model reached 93.20%,95.19%and 94.19%respectively,while the classification accuracy rate reached 92.12%.[Limitations]Future research is needed to evaluate our model with more texts and refine the structure recognition process.[Conclusions]The proposed method could effectively improve the accuracy of named entity recognition,and enrich the semantic connotation and representation of the texts.

作者胡吉明钱玮文鹏吕晓光 Hu Jiming;Qian Wei;Wen Peng;Lv Xiaoguang(School of Information Management,Wuhan University,Wuhan 430072,China;Information Retrieval and Knowledge Mining Laboratory,Wuhan University,Wuhan 430072,China;School of Marxism,Wuhan University,Wuhan 430072,China;Renmin Hospital of Wuhan University,Wuhan 430060,China)

机构地区武汉大学信息管理学院武汉大学信息检索与知识挖掘研究所武汉大学马克思主义学院武汉大学人民医院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第8期110-121,共12页 Data Analysis and Knowledge Discovery

基金国家自然科学基金面上项目(项目编号:71874125) 湖北省青年拔尖人才培养计划项目的研究成果之一。

关键词中文病历文本结构功能命名实体识别文本语义表示 BiLSTM-CRF模型 Chinese Medical Records Text Structure and Function Named Entity Recognition Text Semantic Representation BiLSTM-CRF Model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1杜琳,曹东,林树元,瞿溢谦,叶辉.基于BERT与Bi-LSTM融合注意力机制的中医病历文本的提取与自动分类[J].计算机科学,2020,47(S02):416-420. 被引量：28
2周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
3王倩,曾金,刘家伟,戚越.基于深度学习的学术文本段落结构功能识别研究[J].情报科学,2020,38(3):64-69. 被引量：13
4吴汉瑜,严江,黄少滨,李熔盛,姜梦奇.用于文本分类的CNN_BiLSTM_Attention混合模型[J].计算机科学,2020,47(S02):23-27. 被引量：24
5聂维民,陈永洲,马静.融合多粒度信息的文本向量表示模型[J].数据分析与知识发现,2019,3(9):45-52. 被引量：13
6俞琰,陈磊,姜金德,赵乃瑄.结合词向量和统计特征的专利相似度测量方法[J].数据分析与知识发现,2019,3(9):53-59. 被引量：11
7杨春霞,吴佳君,李欣栩.融合实体信息的循环神经网络文本分类模型[J].小型微型计算机系统,2020,41(12):2516-2521. 被引量：6
8黄露,周恩国,李岱峰.融合特定任务信息注意力机制的文本表示学习模型[J].数据分析与知识发现,2020,4(9):111-122. 被引量：3
9秦成磊,章成志.基于层次注意力网络模型的学术文本结构功能识别[J].数据分析与知识发现,2020,4(11):26-42. 被引量：17
10陆伟,黄永,程齐凯.学术文本的结构功能识别——功能框架及基于章节标题的识别[J].情报学报,2014,33(9):979-985. 被引量：52

二级参考文献185

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
5李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
6Chinchor N. MUC - 7 Named Entity Task Definition[C]. In :Proceedings of the 7th Message Understanding Conference, Virginia. 1998.
7Sproat R, Emerson T. The First International Chinese Word Segmentation Bakeoff[ C ]. In : Proceedings of the 2rid SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan. 2003 : 133 - 143.
8Rau L F. Extracting Company Names from Text [ C ]. In : Proceedings of the 7th IEEE Conference on Artificial Intelligence Applicatiorts. 1991:29 -32.
9Grishman R, Sundheim B. Message Understanding Conference- 6 : A Brief History [ C ]. In : Proceedings of the 16th International Conference on Computational Linguistics. 1996.
10Chinchor N A. Overview of MUC - 7/MET - 2 [C]. In : Proceedings of the 7th Message Understanding Conference. 1998.

共引文献351

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
3屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
4冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
5李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
6李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
7汤世平,樊孝忠,朱建勇.基于潜在语义分析的本体空间表示模型研究[J].计算机应用与软件,2008,25(1):53-55.
8史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
9史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
10史旗凯,郭菊娥.基于SMA信息抽取的主题诊断研究[J].管理工程学报,2010,24(1):90-94.

同被引文献118

1石康乐,孟庆刚.基于贝叶斯推理的中医诊疗小数据构建设想[J].中华中医药学刊,2022,40(5):104-107. 被引量：3
2邓佳豪,王丽珍.基于中医切脉的远程脉诊仪设备研究与开发[J].医用生物力学,2021,36(S01):463-463. 被引量：5
3黄霖,颜建军,蔡诗雨,吴晓娅,周炜,郭睿,燕海霞,王忆勤.基于机器视觉的三部脉象仪智能定位的研究[J].世界科学技术-中医药现代化,2023,25(2):806-812. 被引量：2
4姜斌,宋蜇存,于鹏.脉象传感器的发展概况[J].科技资讯,2007,5(5):22-22. 被引量：6
5奚唐敏,陈典红,史红斐.指感压力可控的脉象信号采集装置[J].中国计量学院学报,2012,23(3):299-303. 被引量：2
6蒋寅.语象·物象·意象·意境[J].文学评论,2002(3):69-75. 被引量：163
7蔡轶珩,刘长江,沈兰荪.新型舌象分析仪的设计方案[J].测控技术,2005,24(5):34-36. 被引量：18
8王美艳,赵伟.基于唐诗语料库“词”的提取及深入研究[J].长春工业大学学报,2005,26(3):217-220. 被引量：2
9杨杰,牛欣,司银楚,牛淑冬,朱庆文,沙洪.压力与B超整合的中医取脉装置的研究与应用[J].世界科学技术-中医药现代化,2005,7(6):44-46. 被引量：23
10杨杰,牛欣,徐元景,牛淑冬.中医诊断信息数字化发展[J].中医药学刊,2006,24(5):810-812. 被引量：9

引证文献5

1王明达,张榜,吴志生,李云飞.基于强化学习的城镇燃气事故信息抽取方法[J].中国安全生产科学技术,2023,19(3):39-45. 被引量：6
2段宇锋,贺国秀.面向中文医学文本命名实体识别的神经网络模块分解分析[J].数据分析与知识发现,2023,7(2):26-37. 被引量：3
3刘懋霖,赵萌,王昊.面向古诗词的物象库构建方法及其分布规律研究[J].图书馆杂志,2024,43(1):96-108. 被引量：1
4王舒怡,杨杰,田雨.基于数据科学的中医临床信息采集关键技术研究进展[J].中华中医药学刊,2024,42(3):10-18. 被引量：1
5单涛,吴杰,景慎旗,叶继元,刘云,郭永安.面向中文病历处理的多图命名实体识别方法研究[J].情报科学,2024,42(3):100-109.

二级引证文献10

1陈靖铠,顾家豪,高敏,纪昌权,苑豪杰.基于BERT的风雹灾害实体识别与特征分析[J].中国新技术新产品,2023(14):126-129.
2王明达,吴志生,朱光辉,李云飞,张榜.燃气轮机故障知识图谱构建方法与应用研究[J].中国安全生产科学技术,2023,19(11):121-128. 被引量：3
3胡玉玲,万雨瑞,李紫旋,齐子琛.融合知识图谱和案例推理的燃气应急辅助决策研究[J].消防科学与技术,2024,43(2):143-148. 被引量：1
4刘陶,李锦,邱望仁.基于标题相似度聚类新中国陶瓷知识[J].景德镇陶瓷,2024,52(1):9-12.
5成全,张双宝.基于深度学习的特征增强式安全事故文本实体识别模型研究[J].中国安全生产科学技术,2024,20(6):58-66.
6衣凯,郭沈,徐樱,马云静,刘恒,郑冰元,周枰汐,许斌,李京.基于“制器尚象”理论探讨中医人工智能装备的研发构想[J].中华中医药学刊,2024,42(7):23-26.
7黄劲伟,苗文權.基于CiteSpace的多学科地名研究可视化分析[J].绵阳师范学院学报,2024,43(7):86-102.
8柳晓昱,庄育锋,赵兴昊.燃气管线风险评估与应急响应方法研究[J].安全,2024,45(7):50-54.
9韩普,陈文祺,顾亮,叶东宇,景慎旗.融合多模态数据的中文医学实体识别研究[J].情报理论与实践,2024,47(9):174-182.
10陈娇娜,张静,靳引利,王鹏.基于RoBERTa-BiGRU-CRF的交通事故处置流程文本信息抽取[J].交通运输研究,2024,10(3):20-28.

1刘学燕.大学书院制改革的困境反思与路径优化——基于结构功能主义理论框架的分析[J].大学教育科学,2022(4):119-127. 被引量：27
2谢沂林,蔡培强,姜伟,李科,李功利.基于图数据库的电子病历存储方法[J].信息技术与信息化,2021(8):134-137. 被引量：1
3杨国,黄文静,朱洪前,丁键,任会,李丹,肖恒玉,胡涛.自然环境下黄绿柑橘检测通用模型的构建[J].林业工程学报,2022,7(5):134-141. 被引量：2
4马海宁,何鑫,陈竞竞,汪卉.卷积神经网络在滚动轴承故障诊断中的应用[J].计算机应用文摘,2022,38(17):40-42.
5刘高军,李亚欣,段建勇.基于混合注意力机制的中文机器阅读理解[J].计算机工程,2022,48(10):67-72. 被引量：5
6李彦胜,张永军.耦合知识图谱和深度学习的新一代遥感影像解译范式[J].武汉大学学报（信息科学版）,2022,47(8):1176-1190. 被引量：18
7邓慧,崔亚飞.基于Faster R-CNN的铝型材表面缺陷识别研究[J].济源职业技术学院学报,2022,21(3):59-62.
8任胜兰,郭慧娟,黄文豪,汤志宏,亓慧.基于注意力机制交互卷积神经网络的推荐方法[J].计算机科学,2022,49(10):126-131. 被引量：4
9刘皓,洪宇,朱巧明.无监督的领域自适应机器阅读理解方法[J].计算机学报,2022,45(10):2133-2150. 被引量：1
10徐双,张莉.中医护理病历书写管理中持续质量改进方法的应用[J].中医药管理杂志,2022,30(13):76-78. 被引量：4

数据分析与知识发现

2022年第8期

浏览历史

内容加载中请稍等...

基于结构功能和实体识别的文本语义表示——以病历领域为例被引量：5

参考文献21

二级参考文献185

共引文献351

同被引文献118

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于结构功能和实体识别的文本语义表示——以病历领域为例 被引量：5

参考文献21

二级参考文献185

共引文献351

同被引文献118

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于结构功能和实体识别的文本语义表示——以病历领域为例被引量：5