利用概率主题模型的微博热点话题发现方法被引量：7

Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model

下载PDF

导出

摘要微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模.提出了一种基于概率潜在语义分析(pLSA)和K均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现.实验表明,此方法能有效地进行话题聚类并检测出热点话题. Microblog has the characteristic of short length, complex structure and words deformation. Therefore, traditional vector space model （VSM） and latent semantic analysis （LSA） are not suitable for modeling them. In this paper, a two stage clustering algorithm based on probabilistic latent semantic analysis （pLSA） and Kmeans clustering （Kmeans） is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics. Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.

作者米文丽孙曰昕

机构地区陇东学院信息工程学院西北师范大学计算机科学与工程学院

出处《计算机系统应用》 2014年第8期163-167,共5页 Computer Systems & Applications

关键词概率潜在语义分析话题发现微博 Kmeans probabilistic latent semantic analysis topic detection microblog Kmeans

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：165
2郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
3马雯雯,魏文晗,邓一贵.基于隐含语义分析的微博话题发现方法[J].计算机工程与应用,2014,50(1):96-100. 被引量：36

二级参考文献47

1赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
2Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
3Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
4Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
5Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
6Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
7Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
8Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.
9Salton G, McGill M. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill, 1983.
10Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

共引文献260

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
3姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
4张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
5孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：11
6汪洋,帅建梅,陈志刚.基于海量信息过滤的微博热词抽取方法[J].计算机系统应用,2012,21(11):131-136. 被引量：4
7莫同,褚伟杰,李伟平,吴中海.采用超图的微博群落感知方法[J].西安交通大学学报,2012,46(11):120-126. 被引量：8
8赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：30
9唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119. 被引量：31
10张培晶,宋蕾.基于LDA的微博文本主题建模方法研究述评[J].图书情报工作,2012,56(24):120-126. 被引量：54

同被引文献104

1傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
2赵旭剑.中文新闻话题动态演化及其关键技术研究[D].合肥:中国科学技术大学,2012.
3洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
42015 年第一季度财务报告:微博 Q1 净营收达 9630 万美元[EB/0L].[2015-06-18].http://ww.chinabgao.Com/stat/stats/42373.html.
5Hofmann T, editor Probabilistic latent semantic indexing [C ]. Proceedings of the 22nd annual international ACM SIGIRconference on Research and development in information retrieval, 1999: 50-57.
6Griffiths T, Steyvers M. A probabilistic approach to semantic representation [C]. Proceedings of the 24th annualconference of the cognitive science society, 2002: 381-386.
7Blei DM, Ng AY, Jordan ML Latent dirichlet allocation[J]. the Journal of machine Learning research,2003(3):993-1022.
8Wang X, McCallum A, editors. Topics over time: a non-Markov continuous-time model of topical trends[C]. Proceedingsof the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, 2006: 424-433.
9Griffiths TL,Steyvers M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences.2004,101 (suppl1): 5228-5235.
10Hall D,Jurafsky D,Manning CD. Studying the history of ideas using topic models [C].Proceedings of the conference onempirical methods in natural language processing, 2008: 363-371.

引证文献7

1吴小兰,章成志.基于DTM-LPA的突发事件话题演化方法研究——以H7N9微博为例[J].图书与情报,2015(3):9-16. 被引量：11
2徐童童.微博主题发现方法综述[J].内蒙古科技与经济,2015(19):81-83.
3李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
4游丹丹,陈福集.我国网络舆情热点话题发现研究综述[J].现代情报,2017,37(3):165-171. 被引量：14
5崔金栋,杜文强,关杨,罗文达.微博用户信息个性化推荐主题模型LDA演化分析研究[J].情报科学,2017,35(8):3-10. 被引量：12
6贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：18
7祁荣苓,焦文彬,汪洋.基于句子向量表示和模糊C均值的电子政务文档自动摘要技术[J].数据与计算发展前沿,2021,3(2):103-111.

二级引证文献66

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：1
2张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
3屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：10
4邹青芸,高峰,安培浚.灾害信息学研究及其在中日美的发展[J].图书与情报,2016(4):46-52. 被引量：2
5徐虽.天津爆炸事件的网络舆情演变机制[J].新闻研究导刊,2017,8(10):34-34.
6罗泰晔.基于Logistic模型的微博舆情热点发展预测研究[J].统计与信息论坛,2017,32(10):91-95. 被引量：18
7李少华,李卫疆,余正涛.基于GV-LDA的微博话题检测研究[J].软件导刊,2018,17(2):131-135. 被引量：3
8安璐,杜廷尧,李纲,余传明.突发公共卫生事件利益相关者在社交媒体中的关注点及演化模式[J].情报学报,2018,37(4):394-405. 被引量：81
9赵乐,张兴旺.面向LDA主题模型的文本分类研究进展与趋势[J].计算机系统应用,2018,27(8):10-18. 被引量：8
10崔金栋,杜文强,关杨.基于大数据与LDA融合的微博信息推荐方法研究[J].情报科学,2018,36(9):27-31. 被引量：17

1黄华军,谭骏珊,秦姣华.基于主题模型的微博话题检测算法[J].网络与信息安全学报,2016,2(5):30-38.
2王国勇,徐建锁.TCBLSA:一种中文文本聚类新方法[J].计算机工程,2004,30(5):21-22. 被引量：15
3刘勇生.流媒体实时传播的瓶颈分析[J].图书馆论坛,2004,24(4):117-118. 被引量：2
4杨洋.基于多媒体的监控平台关键设计技术与实现[J].煤炭技术,2012,31(10):165-166. 被引量：1
5孙曰昕,马慧芳,姚伟,张志昌.结合互信息和主题模型的微博话题发现方法[J].计算机工程与应用,2016,52(6):61-66. 被引量：5
6王国勇,徐建锁.一种基于LSA和Kohonen网络的文本分类新方法[J].计算机应用,2004,24(2):53-55. 被引量：2
7饶磊,杨凡德,李新明,刘东.基于热度分析的动态副本创建算法[J].计算机应用,2014,34(A02):130-134. 被引量：5
8徐晨凯,高茂庭.使用LSA降维的改进ART2神经网络文本聚类[J].计算机工程与应用,2014,50(24):133-138. 被引量：4
9李琳娜,江雪琴.推荐系统中的隐语义模型研究[J].情报工程,2016,2(4):30-39. 被引量：6
10聂明.流媒体技术的发展与未来[J].国际广播影视,2003(1):57-58.

计算机系统应用

2014年第8期

浏览历史

内容加载中请稍等...

利用概率主题模型的微博热点话题发现方法被引量：7

参考文献3

二级参考文献47

共引文献260

同被引文献104

引证文献7

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

利用概率主题模型的微博热点话题发现方法 被引量：7

参考文献3

二级参考文献47

共引文献260

同被引文献104

引证文献7

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

利用概率主题模型的微博热点话题发现方法被引量：7