改进的概率潜在语义分析下的文本聚类算法被引量：14

Improved text clustering algorithm of probabilistic latent with semantic analysis

下载PDF

导出

摘要概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NM I)和准确度都有明显提高。 Trained by the Expectation Maximization （EM） algorithm, whose model parameters are randomly initialized, the performance of Probabilistic Latent Semantic Analysis （PLSA） model is quite dependent on the initialization of the model, and the result of iteration is not a global maximum, but a local one. The authors derived probabilities from Latent Semantic Analysis （LSA）, and then used it to initialize the parameters of PLSA model in documents clustering. The improved PLSA could effectively solve the puzzle of random initializing of EM. It is shown that the improved algorithm has a distinct improvement in Normalized Mutual Information （NMI） and accuracy.

作者张玉芳朱俊熊忠阳

机构地区重庆大学计算机学院

出处《计算机应用》 CSCD 北大核心 2011年第3期674-676,693,共4页 journal of Computer Applications

基金中国博士后科学基金资助项目(20070420711) 重庆市科委基金资助项目(2008BB2191)

关键词文本聚类概率潜在语义分析参数初始化潜在语义分析 document clustering Probabilistic Latent Semantic Analysis （PLSA） parameter initialization Latent Semantic Analysis （LSA）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1WANG ZAN, TSIM Y C, YEUNG W S, et al. Probabilistic Latent Semantic Analysis (PLSA) in bibliometric analysis for technology forecasting [ J]. Journal of Technology Management and Innovation, 2007, 41(6): 11-24.
2HOFMANN T. Unsupervised learning by probabilistic latent seman- tic analysis [ J]. Machine Learning, 2001, 42(1/2) : 177 - 196.
3PETERSEN B, WINTER O, HANSEN L K. On the slow conver- gence of EM and VBEM in low-noise linear models [ J]. Neural Computation, 2005, 17(9): 1921-1926.
4AZADI T El, ALMASGANJ F. Using backward elimination with a new model order reduction algorithm to select best double mixture model for document [ J]. Expert Systems with Applications, 2009, 36(7) : 10485 - 10493.
5TIPPING M, BISHOP C M. Probabilistic principal component anal- ysis [J]. Journal of the Royal Statistical Society, Series B, 1999, 61(3): 611-622.
6DING C H Q. A similarity-based probability model for latent seman- tic indexing [ C]// Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Informa- tion Retrieval. Berkeley: ACM Press, 1999:194-198.
7CHEN WENYEN, SONG YANGQIU, BAI HONGJIE, et al. Paral- lel spectral clustering in distributed systems [ EB/OL]. [ 2010 - 02 - 26]. http://www, csie. ntu. edu. tw/~ cjlin/papers/psc08, pdf.

同被引文献174

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
3徐雅斌,李艳平,郑芬.基于MapReduce架构的网络热点话题发现[J].华中科技大学学报（自然科学版）,2012,40(S1):236-239. 被引量：3
4张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
5刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
6朱征宇,张小林,熊茜,谢祈鸿.基于用户兴趣子类的协作推荐算法[J].计算机科学,2005,32(10):176-180. 被引量：5
7由丽萍,范开泰,刘开瑛.汉语语义分析模型研究述评[J].中文信息学报,2005,19(6):57-63. 被引量：22
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
10赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23

引证文献14

1张伟,黄炜,夏利民.基于广义内容概率潜在语义分析模型的推荐[J].计算机应用,2013,33(5):1330-1333. 被引量：3
2王功辉,黄奇,秦超,杨呈中.本体构建中的语义分析方法研究[J].图书情报工作,2013,57(7):106-111. 被引量：13
3钱雪忠,吴志媛.基于网页概率潜在语义信息的用户兴趣聚类[J].计算机工程与科学,2014,36(4):765-771. 被引量：2
4李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14
5尹莉.概念图在文献集合研究中的一个新模型[J].现代情报,2015,35(1):91-95.
6李宁,罗文娟,庄福振,何清,史忠植.基于MapReduce的并行PLSA算法及在文本挖掘中的应用[J].中文信息学报,2015,29(2):79-86. 被引量：7
7贾会玲,吴晟,李英娜,李萌萌,杨玺,李川.基于PLSA模型的观点句聚类算法研究[J].价值工程,2015,34(31):167-169. 被引量：1
8符保龙,张爱科.中心聚类和语义特征融合的网页信息文本挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2016,35(1):85-88. 被引量：2
9潘炯光,韦余永.一种基于领域语义相关性挖掘的迁移学习方法[J].西南师范大学学报（自然科学版）,2016,41(5):184-189. 被引量：1
10张少磊,王忠.基于闭频繁项集短文本聚类[J].计算机应用,2016,36(A02):227-229. 被引量：1

二级引证文献60

1周海赟,张舒.“蓝海”模式下的公安舆情引导对策研究[J].新闻研究导刊,2021,12(4):30-31. 被引量：1
2李玉强,刘金铁.疫情防控下高校后勤保障舆情引导[J].辽宁工程技术大学学报（社会科学版）,2022,24(1):53-56. 被引量：2
3李宏伟,徐建勤,朱卫未.基于本体的ERP沙盘模拟知识模型构建研究[J].计算机技术与发展,2014,24(5):211-214. 被引量：1
4朱宝华.基于HowNet的用户兴趣挖掘研究及应用[J].计算机与数字工程,2014,42(10):1949-1951. 被引量：1
5李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
6郑建国,黄奇.产品分类本体构建的语义分析[J].情报理论与实践,2015,38(9):104-109. 被引量：2
7马慧,赵捧未,王洪俊,孙辛博.民航不安全事件语义词典构建及应用研究[J].数字图书馆论坛,2015(9):27-34. 被引量：2
8韩开旭,任伟建.基于改进Fisher核函数的支持向量机在推特数据库情感分析中的应用[J].自动化技术与应用,2015,34(11):30-36. 被引量：4
9黄微,张耀之,李瑞.网络舆情信息语义识别关键技术分析[J].图书情报工作,2015,59(21):33-37. 被引量：6
10郭鑫,陈千,向阳.基于特征本体的文本流主题检测研究[J].计算机应用研究,2016,33(2):396-399.

1党小超,毛鹏鑫,郝占军.基于快速求解高斯混合模型的流量聚类算法[J].计算机工程与应用,2015,51(8):96-101. 被引量：7
2操敏,王士同,赵献兵.基于改进的SVR算法上的混沌时间序列预测[J].统计与决策,2008,24(6):30-32.
3周桂珍,罗毅平.基于改进的小波神经网络异步电动机故障诊断[J].机械工业标准化与质量,2015(3):37-42.
4施海滨,周勇.混合聚类彩色图像分割方法研究[J].计算机工程与应用,2011,47(9):181-184. 被引量：8
5赵学智,邹春华,陈统坚,叶邦彦,彭永红.小波神经网络的参数初始化研究[J].华南理工大学学报（自然科学版）,2003,31(2):77-79. 被引量：56
6李旭健,张丛静.一种基于改进的混合高斯模型的运动目标检测算法[J].软件导刊,2016,15(8):10-12. 被引量：1
7胡波,朱谷昌,张远飞,冷超.基于高斯混合模型的遥感信息提取方法研究[J].国土资源遥感,2012,24(4):41-47.
8田甜,张振国.一种基于PLSA和词袋模型的图像分类新方法[J].咸阳师范学院学报,2010,25(4):50-55. 被引量：1
9张树伟,宋余庆,陈健美,谢从华.基于近似密度初始化的医学图像混合模型聚类[J].微电子学与计算机,2010,27(9):168-171.
10刘伶俐,王朝立,于震.CHMM语音识别初值选择方法的研究[J].上海理工大学学报,2012,34(4):323-326. 被引量：4

计算机应用

2011年第3期

浏览历史

内容加载中请稍等...

改进的概率潜在语义分析下的文本聚类算法被引量：14

参考文献7

同被引文献174

引证文献14

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

改进的概率潜在语义分析下的文本聚类算法 被引量：14

参考文献7

同被引文献174

引证文献14

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

改进的概率潜在语义分析下的文本聚类算法被引量：14