在线医疗社区问答文本的知识图谱构建研究被引量：18

Knowledge Graph Construction of Online Medical Community Q&A Texts

导出

摘要【目的/意义】针对医疗问答社区数据量大、规范性差、数据稀疏等特性,综合利用双向长短记忆神经网络(BiLSTM)、条件随机场(CRF)、双向门控循环单元(BiGRU)等深度学习模型,对社区文本的实体识别及关系抽取方法进行研究。【方法/过程】首先,对实体作了进一步细分,利用BiLSTM-CRF模型对BIO标注的数据集进行实体识别,实验发现细分实体比未细分实体在结果上表现更好;接着利用BiGRU-Attention模型抽取各实体间的关系,实验结果显示,该模型无论是在准确率、召回率还是F值上都比BiLSTM-Attention抽取模型有较大的提升;最后利用Neo4j图数据库构建了一个可视化的知识图谱。【结果/结论】本研究将非结构化的社区文本转化为结构化数据,在医疗社区的智能知识服务、知识表示、个性化知识推荐等方面具有推动作用。【创新/局限】在医疗实体识别过程中将实体进行细分,成功构建了基于在线医疗社区问答文本的乳腺癌知识图谱。但由于某些关系样本量较少,对整体关系抽取的评价指标存在一定的影响。【Purpose/significance】This paper studies the Knowledge Graph construction method of the medical question and answer community. Aiming at the large amount of data, poor standardization and sparse data of the question-and-answer community, this paper comprehensively uses the bidirectional long-term memory neural network, conditional random field, bidirectional gated recurrent unit and other models to study the Entity Recognition and Relation Extraction methods of community text.【Method/process】Firstly,the entity is further subdivided. The bidirectional long-term memory neural network and the conditional random field model(BiLSTM-CRF) are used to identify the data set of the BIO. The experiment finds that the segmented entity performs better than the un-subdivided entity. Then the relationship between the entities is extracted by the bidirectional gated recurrent unit and the attention mechanism model(BiGRU-Attention).【Result/conclusion】The experimental results show that the model has a greater improvement than the BiLSTM-Attention extraction model in terms of accuracy, recall rate and F value. Finally, a visual Knowledge Graph was constructed using the Neo4 j graph database. This research transforms unstructured community texts into structured data, which promotes intelligent knowledge services, knowledge representation, and personalized knowledge recommendation in the medical community.【Innovation/limitation】In the process of medical entity recognition, entities are subdivided, and a breast cancer Knowledge Graph based on the text of online medical community question and answer is successfully constructed. However, due to the small sample size of some relationships, there is a certain impact on the evaluation indicators of the overall relationship extraction.

作者廖开际黄琼影席运江 LIAO Kai—ji;HUANG Qiong-ying;XI Yun—jiang(School of Business Administration,South China University of Technology,Guangzhou 510641,China)

机构地区华南理工大学工商管理学院

出处《情报科学》 CSSCI 北大核心 2021年第3期51-59,75,共10页 Information Science

基金国家自然科学基金项目“基于超网络的企业微博知识挖掘及整合方法研究”(71371077)。

关键词医疗问答社区知识图谱双向长短记忆神经网络双向门控循环单元深度学习 online medical community Knowledge Graph BiLSTM BiGRU deep learning

分类号 G250.2 [文化科学—图书馆学]

引文网络
相关文献

参考文献8

1苏娅,刘杰,黄亚楼.在线医疗文本中的实体识别研究[J].北京大学学报（自然科学版）,2016,52(1):1-9. 被引量：17
2黄梦醒,李梦龙,韩惠蕊.基于电子病历的实体识别和知识图谱构建的研究[J].计算机应用研究,2019,36(12):3735-3739. 被引量：30
3叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
4杨文明,褚伟杰.在线医疗问答文本的命名实体识别[J].计算机系统应用,2019,28(2):8-14. 被引量：23
5李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学,2019,37(1):156-164. 被引量：20
6张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135. 被引量：22
7杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：127
8孙明敏.基于GRU-Attention的中文文本分类[J].现代信息科技,2019,3(3):10-12. 被引量：11

二级参考文献195

1黄昌宁,张小凤.自然语言处理技术的三个里程碑[J].外语教学与研究,2002,34(3):180-187. 被引量：20
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：117
3林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
4黄丹.网络医疗对医疗服务理念的挑战[J].中药研究与信息,2005,7(9):31-32. 被引量：4
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
6Doan A,Naughton JF,Ramakrishnan R,et al.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14-20.
7Vlachos A,Gasperin C.Bootstrapping and evaluating named entity recognition in the biomedical domain[C]//Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology.New York:Association for Computational Linguistics Morristown,2006:138-145.
8Bundschus M,Dejori M,Stetter M,et al.Extraction of semantic biomedical relations from text using conditional random fields[J].BMC Bioinformatics,2008,9:207.
9Leaman R,Gonzalez GR.BANNER:An executable survey of advances in biomedical named entity recognition[C]//Proceedings of Pacific Symposium on Biocomputing.Hawaii:World Scientific Publishing Co.Pte.Ltd,2008:652-663.
10Leaman R,Miller C,Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:Corpus and benchmark[C]//Proceedingsof the 3rdInternational Symposium on Lagauges in Biology and Medicine.Seogwipo-si.LBM,2009:82-89.

共引文献268

1席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：7
2姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
3贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
4孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：6
5邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：7
6昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
7王大阜,王静,邓志文,贾志勇,张浴日.深度学习赋能网络安全知识图谱实体关系联合抽取研究[J].中国电子科学研究院学报,2023,18(5):420-428. 被引量：1
8吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：10
9德吉措,安见才让.基于双向GRU神经网络的藏文人物关系抽取方法[J].信息化研究,2023,49(4):43-47.
10刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.

同被引文献291

1陈瑶,吴红,葛卫红,张海霞,廖俊.基于深度学习模型的我国药品不良反应报告实体关系抽取研究[J].中国药科大学学报,2019,50(6):753-759. 被引量：10
2马建霞,袁慧,蒋翔.基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J].数据分析与知识发现,2020,4(2):78-88. 被引量：8
3苏新宁,杨国立.我国情报学学科建设研究进展[J].情报学进展,2020(1):1-38. 被引量：15
4陈明,刘蓉,熊回香.基于医疗知识图谱的智能问答系统研究[J].情报科学,2023,41(12):118-126. 被引量：2
5周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：9
6陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
7刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：27
8袁毓林,曹宏.“语义网—本体知识—知识图谱”和语言研究[J].汉语学报,2021(1):8-19. 被引量：7
9任中方,张华,闫明松,陈世福.MVC模式研究的综述[J].计算机应用研究,2004,21(10):1-4. 被引量：194
10董富强,韩伟红,贾焰.CORBA构件模型研究与实现[J].计算机工程与设计,2004,25(10):1644-1647. 被引量：4

引证文献18

1董淼,苏中琪,周晓北,兰雪,崔志刚,崔雷.利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J].数据分析与知识发现,2021,5(11):145-152. 被引量：1
2钱玲飞,崔晓蕾.基于数据增强的领域知识图谱构建方法研究[J].现代情报,2022,42(3):31-39. 被引量：16
3刘勘,徐勤亚,於陆.面向营商环境的知识图谱构建研究[J].数据分析与知识发现,2022,6(4):82-96. 被引量：5
4王萍,牟冬梅,杨鑫禹,李桦,彭浩,李茵.基于数据特征的在线健康社区信息融合模式研究[J].现代情报,2022,42(8):28-36. 被引量：4
5王得强,吴军,关立文.结合知识图谱的行业知识库构建方法研究[J].制造技术与机床,2022(8):74-80. 被引量：6
6张军,孔杉杉,李新旺,冯立超,李鹏.在线健康社区用户知识分享行为研究[J].系统科学与数学,2022,42(6):1389-1401. 被引量：2
7刘华玲,孙毅.基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例[J].计算机技术与发展,2022,32(9):107-113. 被引量：1
8范昊,李珊珊,热孜亚·艾海提.机器学习算法在我国情报学研究中的应用与影响——基于CSSCI期刊论文的视角[J].图书情报知识,2022,39(5):96-108. 被引量：8
9王成文,熊励.基于知识图谱的突发公共卫生事件辅助诊疗研究[J].情报科学,2023,41(4):164-174. 被引量：7
10邱小平,陈炯.基于知识情境的仓储领域知识图谱构建[J].计算机工程与应用,2023,59(14):94-106. 被引量：3

二级引证文献64

1杨丽萍,黄丽芸,梁秀豪,刘晓蔚,韦维,梁星星,阳文林.基于人工智能构建以科技期刊为中心的学术生态体系[J].编辑学报,2023,35(S01):121-126.
2王得强,吴军,关立文.结合知识图谱的行业知识库构建方法研究[J].制造技术与机床,2022(8):74-80. 被引量：6
3包琳.基于视觉信息融合技术的水面船只检测技术开发[J].舰船科学技术,2022,44(19):134-137.
4胡勉宁,李欣,李明锋,孙海春.面向诈骗短信息识别的融合多策略数据增强技术研究[J].信息网络安全,2022(10):121-128. 被引量：4
5琚沅红,牟冬梅,王书童,李桦,徐静雯,吕淑贞.少样本高质量医学知识的命名实体识别研究——以肺癌诊疗规范为例[J].现代情报,2023,43(2):9-19. 被引量：6
6华斌,康月,范林昊.政策文本的知识建模与关联问答研究[J].数据分析与知识发现,2022,6(11):79-92. 被引量：5
7崔硕,张春燕,贾家乐,张成东,张胜文,陈凯.基于深度学习的机械领域知识图谱构建及应用[J].制造技术与机床,2023(2):83-89. 被引量：3
8王佳莹,裴尧.东北抗联历史人物事件知识图谱的构建及应用——以陈翰章烈士生平事迹为例[J].产业与科技论坛,2023,22(1):65-67.
9曹树金,曹茹烨.从ChatGPT看生成式AI对情报学研究与实践的影响[J].现代情报,2023,43(4):3-10. 被引量：65
10张贞港,余传明.基于实体与关系融合的知识图谱补全模型研究[J].数据分析与知识发现,2023,7(2):15-25. 被引量：2

1陈志兴.知识传播视角下的健康信息普及慕课建设模式研究[J].图书情报导刊,2021,6(3):40-45.
2蔡之玲,陆阳.基于DKN算法的档案知识推荐系统模型构建[J].档案学通讯,2021(2):63-71. 被引量：9

情报科学

2021年第3期

浏览历史

内容加载中请稍等...

在线医疗社区问答文本的知识图谱构建研究被引量：18

参考文献8

二级参考文献195

共引文献268

同被引文献291

引证文献18

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

在线医疗社区问答文本的知识图谱构建研究 被引量：18

参考文献8

二级参考文献195

共引文献268

同被引文献291

引证文献18

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

在线医疗社区问答文本的知识图谱构建研究被引量：18