改进LDA模型的短文本聚类方法被引量：4

Improved Short Text Clustering Method of LDA Model

下载PDF

导出

摘要在短文本聚类模型中,传统LDA模型没有考虑文本与主题之间的联系。提出一种具有判别学习能力的LDA模型,在LDA-λ模型中将二项分布引入LDA基础模型,增加词项的判别能力。对模型进行理论分析与对比试验,结果表明,基于改进的LDA模型精确度(ACC)、归一化互信息(NMI)和成对F测度值(PWF)比较高,分别达到0.7384、0.8191、0.6941,比传统的LDA模型分别提高1.62%、2.51%、1.2%,比VSM模型分别提高2.83%、10.99%、1.89%,基于改进的LDA模型在聚类问题处理上要优于LDA模型和VSM。 In the short text clustering model,the traditional LDA(Latent Dirichletalloc Allocation)model does not consider the connection between the text and the topic.In order to consider the connection between the text and the topic,we propose an LDA model with discriminative learning ability.In the LDA-λmodel,we introduce the binomial distribution into the LDA basic model to increase the learning of the discriminative ability of terms,And then conduct theoretical analysis and comparative experiments.The comparative experiment results show that the accuracy(ACC),normalized mutual information(NMI)and paired F measurement(PWF)of the improved LDA model are relatively high,reaching 0.7384,0.8191,and 0.6941 respectively.Compared with the traditional LDA model,the improvement is 1.62%,2.51%and 1.2%;compared with VSM model,the improvement is 2.83%,10.99%and 1.89%respectively.Therefore,it can be obtained from experiments that the improved LDA model is superior to the LDA model and VSM in processing clustering problems.

作者孙红俞卫国 SUN Hong;YU Wei-guo(School of Optical-electrical and Computer Engineering,University of Shanghai for Science and Technology;Shanghai Key Laboratory of Modern Optical System,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院上海现代光学系统重点实验室

出处《软件导刊》 2021年第9期1-6,共6页 Software Guide

基金国家自然科学基金项目(61472256,61170277,61703277) 沪江基金项目(C14002)。

关键词主题模型改进LDA模型文本聚类概率生成模型短文本主题挖掘 topic model improved LDA model text clustering probability generation model short text topic mining

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：77
2刘瑞祯,谭铁牛.基于奇异值分解的数字图像水印方法[J].电子学报,2001,29(2):168-171. 被引量：217
3谢昊,江红.一种面向微博主题挖掘的改进LDA模型[J].华东师范大学学报（自然科学版）,2013(6):93-101. 被引量：27
4刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：32
5王婷婷,韩满,王宇.LDA模型的优化及其主题数量选择研究——以科技文献为例[J].数据分析与知识发现,2018,2(1):29-40. 被引量：37
6孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：619
7曾谁飞,张笑燕,杜晓峰,陆天波.基于神经网络的文本表示模型新方法[J].通信学报,2017,38(4):86-98. 被引量：18

二级参考文献80

1Hsuand J C T，IEEE Trans Image Processing，1999年，8卷，1期，58页
2Swanson M D，IEEE J Select Areas Commun，1998年，16卷，4期，540页
3Hsu C T，IEEE Trans Circuit Syst II Analog Digital Signal Processing，1998年，45卷，8期，1097页
4Swanson M D，Proc of ICIP'96，1996年，3卷，211页
5Koch E，Proc Int Conference on Digital Media and Electronic Publishing，1994年，6页
6BENGIO Y, DELALLEAU O. On the expressive power of deep archi- tectures[ C ]//Proc of the 14th International Conference on Discovery Science. Berlin : Springer-Verlag, 2011 : 18 - 36.
7BENGIO Y. Leaming deep architectures for AI[ J]. Foundations and Trends in Machine Learning ,2009,2 ( 1 ) : 1-127.
8HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets [ J ]. Neural Computation ,2006,18 (7) : 1527-1554.
9BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks [ C ]//Proc of the 12th Annual Conference on Neural Information Processing System. 2006:153-160.
10LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning ap- plied to document recognition[ J]. Proceedings of the iEEE, 1998, 86( 11 ) :2278-2324.

共引文献1016

1吴秀平,赵咏梅,凌静思.幼儿游戏深度学习行为的支持体系建构[J].教育科学论坛,2024(2):63-66.
2高嵩.深度学习在机场能见度预测中的应用[J].计算机产品与流通,2020,0(4):260-260. 被引量：2
3张永玲.以深度学习为核心的小学数学有效教学策略研究[J].理科爱好者（教育教学版）,2019,0(5):248-249. 被引量：2
4邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
5周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3
6李灿强,夏志方,丁邡.基于人工智能技术的“数字政府”研究[J].中国经贸导刊,2019(5Z):138-139. 被引量：6
7彭婉,田良臣.信息技术支持下促进深度学习的教学研究——基于语文课程的研究[J].汉字文化,2022(15):159-161. 被引量：1
8杨灿.高职《深度学习》课程教学的实施[J].办公自动化,2021,26(16):37-38. 被引量：1
9苑方.基于深度学习的典型神经网络对比分析[J].中国科技纵横,2018,0(19):9-10.
10赵丹琪.人工智能生成物的著作权认定问题研究[J].楚天法治,2018(30):124-127.

同被引文献32

1李春晓,李辉,刘艳筝,梁赛.多彩华夏:大数据视角的入境游客体验感知差异深描[J].南开管理评论,2020,0(1):28-39. 被引量：31
2蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293-296. 被引量：25
3平亮,宗利永.基于社会网络中心性分析的微博信息传播研究——以Sina微博为例[J].图书情报知识,2010,27(6):92-97. 被引量：209
4吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166
5强韶华,吴鹏.突发事件网络舆情演变过程中网民群体行为仿真研究[J].现代图书情报技术,2014(6):71-78. 被引量：36
6秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].图书情报工作,2014,58(22):130-137. 被引量：31
7王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(4):495-511. 被引量：71
8王庆福,王兴国.基于LDA的网络评论主题发现研究[J].无线互联科技,2016,13(11):103-104. 被引量：2
9关鹏,王曰芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术,2016(9):42-50. 被引量：124
10李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：10

引证文献4

1李书彬,周安民.一种基于多维度图神经网络的短文本分类方法[J].现代计算机,2022,28(1):55-59. 被引量：1
2王武魁,牛紫琳,李艳,闫雨萌,孔硕.基于云南大象北移热点事件的生态舆情研究[J].北京林业大学学报（社会科学版）,2023,22(3):96-102.
3冷泳林,郭颖,孙晓红,曲珮漪.基于增量聚类的电子政务短文本信息挖掘算法研究[J].渤海大学学报（自然科学版）,2023,44(3):262-269.
4窦欣怡.基于LDA主题模型的商品在线评论文本挖掘分析[J].电子商务评论,2024,13(3):8710-8718.

二级引证文献1

1于海涛,刘竞泽,刘乐.深度学习在情感分析领域的应用综述[J].现代信息科技,2023,7(17):50-54. 被引量：2

1何少杰.理清概念关键点让错误不再重演--辨析二项分布与超几何分布[J].中学数学研究（华南师范大学）（上半月）,2021,25(8):18-21. 被引量：3
2李荣华,唐智超,朴俊峰,李宏亮.偏振参数最优重构的水下降质图像清晰化方法[J].红外与激光工程,2021,50(6):297-305. 被引量：3
3姜春茂,赵书宝.基于阴影集的多粒度三支聚类集成[J].电子学报,2021,49(8):1524-1532. 被引量：5
4马旭,常森,王涛,陆佳春,姜楠.修正等时试井资料解释改进方法对比[J].钻采工艺,2021,44(3):67-71. 被引量：2
5李薛莎,付英姿,薛茜,夏思琴.基于社交媒体数据的贝叶斯A/B检验[J].软件导刊,2021,20(9):113-118.
6雷鸣,张艳.基于多阶段试验信息融合的防空导弹飞行可靠性综合评估方法[J].兵工自动化,2021,40(9):31-34. 被引量：1
7邓振进,刘向荣,黄海萍,曹俐,吴碧涛,周宇,徐勤鹏,刘炜.高流量湿化氧疗装备的有效使用期限评价方法研究[J].中国医疗设备,2021,36(9):31-33. 被引量：3

软件导刊

2021年第9期

浏览历史

内容加载中请稍等...

改进LDA模型的短文本聚类方法被引量：4

参考文献7

二级参考文献80

共引文献1016

同被引文献32

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

改进LDA模型的短文本聚类方法 被引量：4

参考文献7

二级参考文献80

共引文献1016

同被引文献32

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

改进LDA模型的短文本聚类方法被引量：4