基于LDA模型的中文微博热点话题发现被引量：6

A Hot Topic Identification based on LDA for Chinese Microblog

下载PDF

导出

摘要针对微博文本数量增加速度快、信息量繁杂等问题,将LDA模型应用到热点话题的挖掘中,构建出微博热点话题的识别过程。首先应用LDA模型对微博语料库进行主题建模,采用困惑度方法确定最佳主题个数,通过Gibbs抽样算法实现参数推理,获得语料库的主题-词汇概率分布和文本-主题概率分布,在此基础上计算并识别出微博中的热点话题、热点词汇和热点话题微博。实验结果显示该模型与人工挑选的结果基本一致,表明该模型具有较好的热点识别效果。 In order to solve the problem that the number of microblog text is increasing quickly and the amount of microblog information is very complicated, LDA model is applied to mine the hot topic, and the identification process of mieroblog hot topic is constructed. Firstly, we use LDA to model microblog corpus, determine the best number of topics by the perplexity, and achieve parameters estimation with Gibbs sampling algorithm, then we obtain the probability distribution of the topic and the word and the probability distribution of the text and the topic, on the basis of this, we calculate and identify hot topics, hot words and hot topics microblog. Experimental results show that this model is consistent with the results of artificial selection, indicating that the model has better recognition performance on hotspots.

作者谈成访汪材印张亚康

机构地区宿州学院信息工程学院宿州学院智能信息处理实验室

出处《宿州学院学报》 2014年第4期71-73,77,共4页 Journal of Suzhou University

基金宿州学院校级科研平台开放课题项目"问答社区中基于LDA的问题推荐机制研究"(2013YKF14) 安徽省大学生创新创业训练计划项目"基于微博的网络舆情挖掘研究"(AH201310379082) 安徽省大学生创新创业训练计划项目"改进的BP神经网络在ERP实施风险评价中的应用"(AH201310379078) 安徽省高校省级自然科学研究项目"基于本体的直搜索研究及应用"(KJ2012Z395)

关键词 LDA 微博热点话题 latent dirichlet allocation microblog hot Topic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1吕楠,罗军勇,刘尧,杨慧洁.基于话题三层结构模型的话题演化分析算法[J].计算机工程,2009,35(23):71-72. 被引量：10
2李劲,张华,吴浩雄,向军.基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J].计算机应用,2012,32(8):2346-2349. 被引量：26
3余传明,张小青,陈雷.基于LDA模型的评论热点挖掘:原理与实现[J].情报理论与实践,2010,33(5):103-106. 被引量：21

二级参考文献33

1YE Hui-min,CHENG Wei,DAI Guan-zhong.Design and Implementation of On-Line Hot Topic Discovery Model[J].Wuhan University Journal of Natural Sciences,2006,11(1):21-26. 被引量：14
2Allan J. Topic Detection and Tracking: Event-based Information Organization[M]. [S.l.]: KluwerAcademic Publishers, 2002: 1-16.
3Ault T G, Yang Yiming. Information Filtering in TREC-9 and TDT-3: A Comparative Analysis[J]. Information Retrieval, 2002, 5(2/3): 159-187.
4Wei Chih-Ping, Chang Yu-Hsiu. Discovering Event Evolution Patterns from Document Sequences[J]. IEEE Transactions on Systems, Man, and Cybernetics Part A: Systems and Humans, 2007, 32(2): 12-13.
5ALLAN J, CARBONELL J, DODDINGTON G, et al. Topic detection and tracking pilot study : final report [ C ] // Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: Lansdowne, 1998: 194-218.
6LEEK T, SCHWARTZ R M, SISTA S. Probabilistic approaches to topic detection and tracking [ C ] //Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic : Massachusetts, 2002 : 67-83.
7CHEN K Y, LUESUKPRASERT L, CHOU S C T. Hot topic extraction based on timeline analysis and multidimensional sentence modeling [ J ]. IEEE Transactions on Knowledge Data Engineering, 2007 (19) : 1016-1025.
8罗亚平,王枞,周延泉.基于关注度的热点话题发现模型[M]//萧国政,何炎祥,孙茂松.中文计算技术与语言问题研究.北京:电子工业出版社,2007:402-408.
9OKA M, ABE H, KATO K. Extracting topics from Weblogs through frequency segments [ C ] // Proceedings of the WWW2006 Workshop on Web Intelligence, 2006: 22-26.
10BLEI D M, NG A Y, JORDAN M I. Latent difichlet allocation[J]. Journal of Machine Learning Research, 2003 (3).

共引文献53

1唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119. 被引量：31
2李忠俊.基于话题检测与聚类的内部舆情监测系统[J].计算机科学,2012,39(12):237-240. 被引量：8
3赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737. 被引量：18
4冯伟.基于云计算技术的新型网络信息监控体系设计[J].信息网络安全,2013(4):75-77. 被引量：1
5廖君华,孙克迎,钟丽霞.一种基于时序主题模型的网络热点话题演化分析系统[J].图书情报工作,2013,57(9):96-102. 被引量：23
6王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125-131. 被引量：36
7胡吉明,胡昌平.基于主题层次树和语义向量空间模型的用户建模[J].情报学报,2013,32(8):838-843. 被引量：7
8魏萌,杨文涛.基于关键词的微博热点话题实时检测方法[J].计算机与现代化,2013(10):184-187.
9赵永升.基于微格式的分布式网络舆情监测系统[J].计算机工程,2013,39(11):272-275. 被引量：5
10闫光辉,赵红运,任亚缙,陈勇.基于时间特性的微博热门话题检测算法研究[J].计算机应用研究,2014,31(1):43-46. 被引量：6

同被引文献40

1王娟琴.三种检索模型的比较分析研究——布尔、概率、向量空间模型[J].情报科学,1998,26(3):225-230. 被引量：18
2王巍,杨武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报,2009,33(4):422-426. 被引量：28
3税仪冬,瞿有利,黄厚宽.周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J].北京交通大学学报,2009,33(5):85-89. 被引量：28
4吕楠,罗军勇,刘尧,杨慧洁.基于话题三层结构模型的话题演化分析算法[J].计算机工程,2009,35(23):71-72. 被引量：10
5姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：56
6龙志祎,程葳.基于词聚类的热点话题检测算法[J].计算机工程与设计,2011,32(6):2214-2216. 被引量：27
7杨亮,林原,林鸿飞.基于情感分布的微博热点事件发现[J].中文信息学报,2012,26(1):84-90. 被引量：64
8路荣,项亮,刘明荣,杨青.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387. 被引量：67
9黄敏.网络舆情热点挖掘算法研究与实现[J].安徽大学学报（自然科学版）,2012,36(6):67-72. 被引量：11
10赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737. 被引量：18

引证文献6

1姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
2谈成访,汪材印.基于LDA模型的新闻话题分类研究[J].电脑知识与技术,2014(6):3795-3797. 被引量：1
3孙梅,王超.大容量内存系统的管理[J].电脑知识与技术,2014(6):3821-3823.
4游丹丹,陈福集.我国网络舆情热点话题发现研究综述[J].现代情报,2017,37(3):165-171. 被引量：14
5苏凯,程昌秀,Nikita Murzintcev,张婷.主题模型在基于社交媒体的灾害分类中的应用及比较[J].地球信息科学学报,2019,21(8):1152-1160. 被引量：14
6韩珂珂,邢子瑶,刘哲,刘峻明,张晓东.重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例[J].地球信息科学学报,2021,23(2):331-340. 被引量：18

二级引证文献47

1张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
2刘承宗,周志勇.我国轻钢建筑及其发展问题探讨[J].工业建筑,2000,30(4):18-23. 被引量：58
3姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
4童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
5屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：10
6徐虽.天津爆炸事件的网络舆情演变机制[J].新闻研究导刊,2017,8(10):34-34.
7罗泰晔.基于Logistic模型的微博舆情热点发展预测研究[J].统计与信息论坛,2017,32(10):91-95. 被引量：18
8唐锦源,吴越,任亮.网络舆情监测系统研究综述[J].产业与科技论坛,2019,0(16):126-127. 被引量：2
9张一涵,黄卫东.我国网络舆情研究的进展分析(2014—2018)——基于战略坐标图[J].南京邮电大学学报（社会科学版）,2019,21(3):31-43. 被引量：7
10肖倩,谢海涛,刘平平.一种融合LDA与CNN的社交媒体中热点舆情识别方法[J].情报科学,2019,37(11):27-33. 被引量：14

1祁金华.全面拥抱服务[J].软件世界,2006(11):52-53.
2曾惜.可穿戴技术的挑战和机遇[J].科技风,2014(4):233-233. 被引量：5
3社会热点词汇[J].英语沙龙（原版阅读）,2015(6):32-33.
4李劲,张华,吴浩雄,向军.基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J].计算机应用,2012,32(8):2346-2349. 被引量：26
5唐立,王同洋,尹文生,张新访.面向集成的装配建模[J].中国海洋平台,1998,13(2):27-30.
6黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
7唐立,王同洋,尹文生,张新访,周济.面向集成的装配建模[J].机械与电子,1998(2):36-38. 被引量：1
8郭蓝天,李扬,慕德俊,杨涛,李哲.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. 被引量：22
9赵知纬,钱龙华,周国栋.一个面向信息抽取的中文跨文本指代语料库[J].中文信息学报,2015,29(1):57-66. 被引量：3
10王健,魏衍君.木马检测免疫算法研究[J].科技信息,2013(20):291-292.

宿州学院学报

2014年第4期

浏览历史

内容加载中请稍等...

基于LDA模型的中文微博热点话题发现被引量：6

参考文献3

二级参考文献33

共引文献53

同被引文献40

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的中文微博热点话题发现 被引量：6

参考文献3

二级参考文献33

共引文献53

同被引文献40

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的中文微博热点话题发现被引量：6