融合LDA和GloVe模型的病症文本聚类算法被引量：1

Disease Text Clustering Algorithm Based on LDA and GloVe Model

下载PDF

导出

摘要针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide。首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献度,对词向量权重进行标注,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,将两种相似度进行结合,改进距离公式,实现K-Medoide聚类。实验结果表明,LG&K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度。 Aiming at solving the problem of ignoring semantic information in LDA model feature extraction,a disease text clustering algorithm LG&K-Medoide based on LDA and GloVe model was proposed.First,LDA was used to model the disease text data,and the JS distance was used to calculate the text similarity;second,GloVe was used to model the disease text data to obtain the word vector,the weight of the word vector was labeled according to the contribution to part of speech from disease text,and the cosine distance was used to calculate weighted text similarity based on GloVe modeling;finally,the two similarities are combined to improve the distance formula to realize K-Medoide clustering.The experimental results show that the LG&K-Medoide algorithm has higher accuracy than the clustering algorithm based on LDA,LDA+TF-IDF and LDA+Word2 Vec models.

作者吴迪赵玉凤 WU Di;ZHAO Yufeng(School of Information and Electrical Engineering,Hebei University of Engineering,Handan,Hebei 056038,China)

机构地区河北工程大学信息与电气工程学院

出处《河北工程大学学报（自然科学版）》 CAS 2022年第1期92-98,共7页 Journal of Hebei University of Engineering:Natural Science Edition

基金河北省自然科学基金资助项目(F2020402003,F2019402428)。

关键词病症文本 LDA GLOVE 相似度结合聚类 disease text LDA GloVe similarity combined finite clustering

分类号 TG391 [金属学及工艺—金属压力加工]

引文网络
相关文献

参考文献8

1谭章禄,彭胜男,王兆刚.基于聚类分析的国内文本挖掘热点与趋势研究[J].情报学报,2019,38(6):578-585. 被引量：33
2吴宗友,白昆龙,杨林蕊,王仪琦,田英杰.电子病历文本挖掘研究综述[J].计算机研究与发展,2021,58(3):513-527. 被引量：42
3闫俊伢,马尚才.基于文本聚类的网络微博舆情话题识别与追踪技术研究[J].重庆理工大学学报（自然科学）,2019,33(9):176-181. 被引量：7
4王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报（理学版）,2014,49(9):129-134. 被引量：28
5马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学,2019,37(11):38-42. 被引量：23
6郑恒毅,廖城霖,李天柱.一种面向网络长文本的话题检测方法[J].工程科学学报,2019,41(9):1208-1214. 被引量：7
7王欣研,张向先,张莉曼.学术APP用户在线评论主题语义关联研究[J].情报科学,2020,38(6):25-31. 被引量：10
8李少华,李卫疆,余正涛.基于GV-LDA的微博话题检测研究[J].软件导刊,2018,17(2):131-135. 被引量：3

二级参考文献94

1张敏.基于文本挖掘的电商评论情感分析[J].产业与科技论坛,2020,0(2):63-64. 被引量：6
2毛利锋,瞿海斌.一种基于决策树的乳腺癌计算机辅助诊断新方法[J].江南大学学报（自然科学版）,2004,3(3):227-229. 被引量：8
3刘春艳.基于信息可视化的文本挖掘研究领域前沿与演化分析[J].图书情报工作,2011,55(S2):270-272. 被引量：5
4曾铮.互联网环境下的知识挖掘研究[J].情报理论与实践,2005,28(2):135-138. 被引量：12
5谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
6王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
7郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报（人文社会科学版）,2005,25(4):127-130. 被引量：24
8薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
9袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：58
10杨丽华,戴齐,杨占华.文本分类技术研究[J].微计算机信息,2006(05X):209-211. 被引量：13

共引文献145

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：11
3孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
4张季,康乐乐,李博.移动应用评论挖掘研究综述[J].知识管理论坛,2021(6):339-350. 被引量：2
5赵根良.基于文本分析的传统零售研究热点探讨[J].山东电力高等专科学校学报,2021,24(3):33-35.
6吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
7李四海,李燕.基于案例驱动的医学数据挖掘课程教学研究与实践[J].科教导刊,2023(14):108-111.
8赵根良.我国人力资源服务业研究热点及展望[J].内江科技,2022,43(9):126-127.
9袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1
10蓝海英,何昊林,李玉翠,李千颖,李伊苧.基于文本聚类的煤矿安全事故类型分析[J].长江技术经济,2021(S01):199-202. 被引量：1

同被引文献24

1王世昆,李绍滋,陈彤生.基于条件随机场的中医命名实体识别[J].厦门大学学报（自然科学版）,2009,48(3):359-364. 被引量：36
2叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
3陈衡,黄刊迪.结构化电子病历概述[J].中国数字医学,2011,6(5):36-39. 被引量：13
4杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
5曲春燕,关毅,杨锦锋,赵永杰,刘雅欣.中文电子病历命名实体标注语料库构建[J].高技术通讯,2015,25(2):143-150. 被引量：19
6杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：105
7张坤丽,马鸿超,赵悦淑,昝红英,庄雷.基于自然语言处理的中文产科电子病历研究[J].郑州大学学报（理学版）,2017,49(4):40-45. 被引量：9
8李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：123
9杨红梅,李琳,杨日东,周毅.基于双向LSTM神经网络电子病历命名实体的识别模型[J].中国组织工程研究,2018,22(20):3237-3242. 被引量：39
10陈德鑫,占袁圆,杨兵,谢亚霓.基于CNN-BiLSTM模型的在线医疗实体抽取研究[J].图书情报工作,2019,63(12):105-113. 被引量：15

引证文献1

1吴智妍,金卫,岳路,生慧.电子病历命名实体识别技术研究综述[J].计算机工程与应用,2022,58(21):13-29. 被引量：8

二级引证文献8

1刘哲,张文学.基于乱序语言模型字嵌入的医疗命名实体识别方法分析[J].电子技术（上海）,2022,51(11):32-36. 被引量：1
2易钧汇,查青林.中医症状信息抽取研究综述[J].计算机工程与应用,2023,59(17):35-47. 被引量：2
3刘安栋,彭琳,叶青,杜建强,程春雷,查青林.电子病历命名实体识别研究进展[J].计算机工程与应用,2023,59(21):39-51. 被引量：3
4何晨,苑迎春,王克俭,陶佳.高校学业文本命名实体识别及数据集构建研究[J].计算机工程与应用,2023,59(22):322-328.
5郑立瑞,肖晓霞,邹北骥,刘彬,周展.基于BERT的电子病历命名实体识别[J].计算机与现代化,2024(1):87-91. 被引量：2
6吴晓萍,郑涛,陈朝飞,陈珊黎,邵维君,丁粉华.基于申康医联平台的急性胰腺炎专病数据库设计与应用[J].计算机应用与软件,2024,41(5):9-14.
7王海鹏,杜方,宋丽娟,李婷.融合单词级段信息的中文医疗命名实体识别[J].计算机技术与发展,2024,34(6):110-117.
8张亚男,董亮,何萍.基于NLP构建病历后结构化专病数据库探索与实践[J].医学信息学杂志,2024,45(9):82-86.

1李多娇,何成万,雷力.基于BG-CN联合网络的文本情感分析[J].计算机工程与设计,2022,43(2):540-545. 被引量：2
2胡琼,李奇,王树军.文本情绪分析中词嵌入模型对比研究[J].电脑知识与技术,2021,17(36):109-111.
3蒋延杰,李云红,苏雪平,张蕾涛,贾凯莉,陈锦妮.基于特征权重的词向量文本表示模型[J].西安工程大学学报,2022,36(1):108-114. 被引量：7
4潘俊辉,王辉,张强,王浩畅.基于Hadoop平台的一种改进K-means文本聚类算法[J].微型电脑应用,2022,38(1):5-7. 被引量：4
5班玛宝,才让加,张瑞,色差甲,卓玛扎西.融合双通道音节特征的藏文La格例句自动分类模型[J].北京大学学报（自然科学版）,2022,58(1):91-98. 被引量：4
6郭小磊.医药商品评论的情感分析[J].智能计算机与应用,2021,11(11):128-130. 被引量：1
7赵宏,傅兆阳,赵凡.基于BERT和层次化Attention的微博情感分析研究[J].计算机工程与应用,2022,58(5):156-162. 被引量：20
8邱宁佳,杨长庚,王鹏,任涛.改进卷积神经网络的文本主题识别算法研究[J].计算机工程与应用,2022,58(2):161-168. 被引量：7
9王郝日钦,王晓敏,缪祎晟,许童羽,刘志超,吴华瑞.基于BERT-Attention-DenseBiGRU的农业问答社区问句相似度匹配[J].农业机械学报,2022,53(1):244-252. 被引量：7
10陈滔,张庆国,何金波,周文竹.基于多算法融合的文本抄袭检测的特征提取算法研究[J].湖北民族大学学报（自然科学版）,2022,40(1):67-72.

河北工程大学学报（自然科学版）

2022年第1期

浏览历史

内容加载中请稍等...

融合LDA和GloVe模型的病症文本聚类算法被引量：1

参考文献8

二级参考文献94

共引文献145

同被引文献24

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

融合LDA和GloVe模型的病症文本聚类算法 被引量：1

参考文献8

二级参考文献94

共引文献145

同被引文献24

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

融合LDA和GloVe模型的病症文本聚类算法被引量：1