基于深度学习表示的医学主题语义相似度计算及知识发现研究被引量：11

Research on Topics Semantic Similarity Calculation and Knowledge Discovery of Medical Based on Deep Learning Representation

下载PDF

导出

摘要 [目的/意义]针对目前医学文本中疾病-基因等实体关联关系在知识发现中结合主题的研究较少,不足以揭示医学领域知识在主题层面的深层语义关联关系,提出了一套结合全文文本和领域知识主题的语义相似度计算方法。[方法/过程]以肿瘤期刊全文本为研究对象,用TWE模型进行词向量和主题向量的词嵌入表示,基于Siamese Network框架结合文本和领域知识主题进行相似度计算。[结果/结论]实验表明,该研究所提出的相似度计算方法在验证集中的预测F值达94%,最后通过对测试集数据进行聚类分析,从高、中、低频以及未进行临床注册实验的角度对疾病和关联基因进行分析,发现当前的热门研究以及未来可能成为研究热点的靶点基因。 [Purpose/significance]The research of studies on the combination of subjects with disease-gene and other entity associations in knowledge discovery in medical texts is less,not enough to reveal the deep semantic relationship of medical knowledge in the topic level.Aiming at that,we proposed a set of semantic similarity calculation methods,considering the text of full text and domain knowledge topics.[Method/process]Taking the full text of the oncology journal as the research object.The TWE model is applied to represent the word vector and the topic vector.Based on the Siamese Network framework,we conducted the similarity calculation,considering the text and domain knowledge topics.[Result/conclusion]Experiments showed that the predicted F value of verification set is 94%by means of proposed similarity calculation method.Finally,through the cluster analysis of the test set data,the disease and related genes were analyzed from the perspectives of high,medium,low frequency and no clinical registration experiments,we found the current hot research and potential target genes that may become research hotspots in the future.

作者沈思孙豪王东波 Shen Si

机构地区南京理工大学南京农业大学

出处《情报理论与实践》 CSSCI 北大核心 2020年第5期183-190,共8页 Information Studies:Theory & Application

基金江苏省自然科学基金青年项目“基于深度学习的学术全文本时态语义知识标识及检索模型构建研究”(项目编号:BK20190450) 国家自然科学基金面上项目“基于深度学习的学术全文本知识图谱构建及检索研究”(项目编号:71974094) 国家社会科学基金后期资助项目“面向科学研究主题的文本时态特征检索研究”(项目编号:19FTQB015)的成果之一。

关键词深度学习语义相似度孪生神经网络知识发现 deep learning semantic similarity siamese network knowledge discovery

分类号 R-05 [医药卫生] TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1李依敏,苏思贞,朱静,金梅.乳腺癌靶向药物治疗研究进展[J].山东医药,2017,57(9):107-109. 被引量：12
2白仲虎,李璐,戴晓峰.转录因子FOXA1在乳腺癌分子分型中的功能研究[J].生物学杂志,2017,34(1):5-10. 被引量：10
3张璐.肿瘤分子靶向治疗药物概述[J].中国实用乡村医生杂志,2017,24(4):12-14. 被引量：3
4范馨月,崔雷.基于网络属性的抗肿瘤药物靶点预测方法及其应用[J].数据分析与知识发现,2018,2(12):98-108. 被引量：3
5宫小翠,安新颖.基于LDA模型的医学领域主题分裂融合探测[J].图书情报工作,2017,61(18):76-83. 被引量：9
6牟冬梅,金姗,琚沅红.基于文献数据的疾病与基因关联关系研究[J].数据分析与知识发现,2018,2(8):98-106. 被引量：3
7李甜,周钱梅,张卫红.PI3K/Akt/mTOR信号通路在三阴性乳腺癌治疗中的研究进展[J].中国肿瘤,2018,27(1):40-45. 被引量：31
8范馨月,崔雷.基于文本挖掘的药物副作用知识发现研究[J].数据分析与知识发现,2018,2(3):79-86. 被引量：8
9范少萍,安新颖,逯万辉.医学文献主题语义相似度计算方法研究[J].图书情报工作,2017,61(8):96-105. 被引量：3
10李艳娇,张本斯,李庄,卞思源,杨桂,黄煜.EphA2在乳腺癌中的表达及其与上皮间质转化的关系[J].中国临床解剖学杂志,2018,36(3):294-298. 被引量：4

二级参考文献71

1丁玉峰,周文丽.药物不良反应与药物不良反应事件[J].医药导报,2004,23(8):610-610. 被引量：7
2张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
3刘海山.正确区分药物不良反应杜绝药物不良反应事件发生[J].实用医技杂志,2005,12(08B):2309-2309. 被引量：1
4马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171. 被引量：512
5张思维,陈万青,孔灵芝,李连弟,鲁凤珠,李光琳,孟佳,赵平.中国部分市县1998～2002年恶性肿瘤的发病与死亡[J].中国肿瘤,2006,15(7):430-448. 被引量：171
6任翠玉,任红梅.头孢唑林钠引起腹痛1例[J].中国误诊学杂志,2006,6(19):3889-3889. 被引量：1
7冯晓辉,钟启宝,李云秋.EphA2、E-cadherin在喉鳞状细胞癌中的表达及其相关研究[J].医学临床研究,2008,25(10):1739-1743. 被引量：5
8张星联,唐晓纯.我国食品安全预警数据库系统的建设与实现[J].食品科技,2008,33(12):250-254. 被引量：5
9吴云红,朱亮,初炜,孔祥金.食品监管改革的关键——基于互联网的动态第三方数据库[J].食品工业科技,2009,30(9):272-274. 被引量：8
10赵东彦,王海虹,王桂梅,李吉鸿.浅谈药品不良反应发生的原因及预防措施[J].山西医药杂志（上半月）,2010,39(5):442-443. 被引量：4

共引文献79

1余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
2薛智升,朴龙镇.肿瘤内科治疗的现状与发展[J].世界最新医学信息文摘,2020(31):28-29.
3杜玲.接受内分泌治疗的乳腺癌患者服药依从性的影响因素探讨[J].中外医学研究,2017,15(32):41-42. 被引量：7
4姚磊,刘泰荣,陈华.FoxA家族与恶性肿瘤的发生发展关系研究进展[J].转化医学电子杂志,2018,5(2):45-48. 被引量：10
5李婷,李璐,王姝越,戴晓峰,白仲虎.RNA-Seq探索基底型乳腺癌干细胞差异表达基因[J].生物学杂志,2018,35(2):1-6. 被引量：1
6李盛建,王莹,王强利,王慧,曹青青,吕磊,赵亮.月腺大戟素A抗乳腺癌活性[J].第二军医大学学报,2018,39(7):765-769. 被引量：7
7侯定坤,王丽丽,李鑫,汪浩,徐子寒,董世强,王海涛.转录因子FOXA1在前列腺癌中的研究进展[J].肿瘤,2018,38(8):806-810. 被引量：4
8范少萍,安新颖,晏归来,李勇.医学领域前沿主题识别方法研究[J].情报学报,2018,37(7):686-694. 被引量：13
9李芳,徐萍,高婷婷,陈伟.肝癌组织中自噬相关蛋白Beclin1、LC3、mTOR的表达及意义[J].中国老年学杂志,2018,38(16):3890-3892. 被引量：5
10袁建良,蒋晓波,曹方,丁厚中,胡永伟.DR-NM23在浸润性乳腺癌中的表达及与临床病理参数的关系[J].现代肿瘤医学,2018,26(23):3760-3763. 被引量：3

同被引文献149

1赵悦淑,王军,王蕊,昝红英,张坤丽,穗志方.中文医学知识图谱研究进展[J].中国数字医学,2021,16(6):86-91. 被引量：5
2倪维健,郭浩宇,刘彤,曾庆田.基于多头自注意力神经网络的购物篮推荐方法[J].数据分析与知识发现,2020,4(2):68-77. 被引量：7
3刘润奇,贺兴时,南夷非,王博.网络多媒体数据中舆情关联主题的挖掘方法[J].深圳大学学报（理工版）,2020,37(1):72-78. 被引量：5
4李健康,张春辉.本体研究及其应用进展[J].图书馆论坛,2004,24(6):80-86. 被引量：55
5沈亚诚,舒忠梅.基于案例推理的病历表示与系统架构研究[J].南方医科大学学报,2007,27(7):1114-1116. 被引量：3
6刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：58
7张霄军.翻译质量量化评价研究综述[J].外语研究,2007(4):80-84. 被引量：18
8李丹亚,胡铁军,李军莲,钱庆,诸文雁.中文一体化医学语言系统的构建与应用[J].情报杂志,2011,30(2):147-151. 被引量：33
9罗季美.机器翻译中的术语错译分析[J].中国科技术语,2013,15(1):41-45. 被引量：7
10王昊奋,张金康,程小军.中文开放链接医疗数据的构建[J].中国数字医学,2013,8(4):5-8. 被引量：8

引证文献11

1黄微,赵江元,闫璐.网络热点事件话题漂移指数构建与实证研究[J].数据分析与知识发现,2020,4(11):92-101. 被引量：6
2余传明,薛浩东,江一帆.基于深度交互的文本匹配模型研究[J].情报学报,2021,40(10):1015-1026. 被引量：2
3陈柯,柴启栋.基于词向量空间模型的机器翻译质量评价分析——以石油术语有道翻译为例[J].中国科技术语,2022,24(2):21-25. 被引量：2
4黄承宁,李双梅,景波.基于深度学习表示的医学主题语义相似度计算研究[J].计算机与数字工程,2022,50(6):1149-1152. 被引量：5
5韩普,顾亮.基于混合深度学习的中文医学实体抽取研究[J].图书情报工作,2022,66(14):119-127.
6周瑛,刘仁芬,李娜.模块化网络主题语义分类算法的设计与仿真[J].计算机仿真,2022,39(7):502-506.
7梁亚敏,李亚峰.基于语义关联度的英语段落机器翻译方法[J].自动化与仪器仪表,2022(8):208-212. 被引量：3
8范媛媛,李忠民.中文医学知识图谱研究及应用进展[J].计算机科学与探索,2022,16(10):2219-2233. 被引量：20
9王力,曾文,张运良,金辉.科技前沿识别体系中的机器学习应用问题[J].科技管理研究,2023,43(6):27-35.
10杜洁,李芹,潘媛,梁国迪.基于堆栈集成学习的文档隐含语义相似度判断算法[J].电子设计工程,2024,32(3):74-77.

二级引证文献38

1池毛毛,潘美钰,王伟军.共享住宿与酒店用户评论文本的跨平台比较研究:基于LDA的主题社会网络和情感分析[J].图书情报工作,2021,65(2):107-116. 被引量：31
2袁红,李佳.行动者网络理论视域下社会热点事件网络舆情治理策略研究[J].情报资料工作,2021,42(6):31-44. 被引量：9
3张柳,王晰巍,李玥琪,黄博.信息生态视角下微博舆情生态性评价指标及实证研究[J].情报理论与实践,2022,45(3):35-41. 被引量：12
4黄微,卢国强,赵旭.基于知识图谱的微博主题演变路径研究[J].情报理论与实践,2022,45(3):173-181. 被引量：11
5朱恒民,钱莉,杨欣谊,魏静.网络舆情话题漂移路径研究[J].情报杂志,2022,41(6):108-113. 被引量：3
6孙水发,李小龙,李伟生,雷大江,李思慧,杨柳,吴义熔.图神经网络应用于知识图谱推理的研究综述[J].计算机科学与探索,2023,17(1):27-52. 被引量：11
7卓奕炜,田泽佳,门豪.基于局部语义增强的中文拼写纠错方法[J].电子设计工程,2023,31(3):54-57.
8薛俊杰.基于神经网络的智能翻译机器人翻译质量评估方法[J].自动化与仪器仪表,2022(12):122-125. 被引量：3
9卢美情,申妍燕.一种基于孪生网络预训练语言模型的文本匹配方法研究[J].集成技术,2023,12(2):53-63. 被引量：1
10张少宇.基于Transformer技术的机器翻译设计与开发[J].信息与电脑,2023,35(2):173-176. 被引量：1

1谷春英,姚青山.物联网物理空间实体的关联关系建模研究[J].电子元器件与信息技术,2019,3(12):16-17. 被引量：4
2陈雪松,付伟伟,刘江涛.中性粒细胞淋巴细胞比值和血小板淋巴细胞比值对调强放疗鼻咽癌患者的预后价值[J].山东大学耳鼻喉眼学报,2020,34(1):50-53. 被引量：3
3王蓉,李小青,刘军兰,严晓梅,陈瑜.个性化学习空间优化及路径推荐研究[J].电子设计工程,2020,28(12):6-11.
4李汉敏.基于word2vec的推荐系统设计[J].数码设计,2019,8(22):26-27.
5束云峰,王中卿.基于专利结构的中文专利摘要研究[J].计算机科学,2020,47(S01):45-48. 被引量：3
6陈念华,袁细国.基于分层矩阵能量谱的个体拷贝数变异检测算法[J].聊城大学学报（自然科学版）,2020,33(5):16-26. 被引量：1
7黄志卓,王昭,张蕊,师晓东,刘英,孙婉玲,张乐萍.北京地区儿童肿瘤相关噬血细胞综合征临床特征分析[J].中华实用儿科临床杂志,2019,34(23):1812-1815. 被引量：1
8熊回香,李晓敏,李跃艳.基于图书评论属性挖掘的群组推荐研究[J].数据分析与知识发现,2020,4(2):214-222. 被引量：7
9张清泉.皮肤T细胞淋巴瘤20例病理组织学的观察[J].中国保健,2008,16(17):795-796.
10杨凤云.资产监管视域下的财务快报系统设计[J].微型电脑应用,2020,36(6):154-156.

情报理论与实践

2020年第5期

浏览历史

内容加载中请稍等...

基于深度学习表示的医学主题语义相似度计算及知识发现研究被引量：11

参考文献11

二级参考文献71

共引文献79

同被引文献149

引证文献11

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于深度学习表示的医学主题语义相似度计算及知识发现研究 被引量：11

参考文献11

二级参考文献71

共引文献79

同被引文献149

引证文献11

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于深度学习表示的医学主题语义相似度计算及知识发现研究被引量：11