基于动态LDA主题模型的内容主题挖掘与演化被引量：73

Mining and Evolution of Content Topics Based on Dynamic LDA

导出

摘要指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。 The study of mining and evolution of text topics is of important significance for text modeling and classification, as well as the recommendation service. Starting from the analysis of theory of text topic modeling based on LDA, aiming at dynamic characters of text contents under social networking environment, this article constructed a dynamic LDA model for mining of text topics. Subsequently, the accuracy degree of topic mining was improved by incremental Gibbs sampling and estimation. Furthermore, the evolution of dynamic topics of text contents was achieved from the aspects of topic similarity and intensity. The experiment demonstrated that methods proposed in this article were feasible and effective, which will be the foundation of further study about semantic modeling and classification text.

作者胡吉明陈果

机构地区武汉大学信息资源研究中心

出处《图书情报工作》 CSSCI 北大核心 2014年第2期138-142,共5页 Library and Information Service

基金教育部人文社会科学青年基金项目"社会网络环境下信息内容主题挖掘与语义分类研究"(项目编号:13YJC870008) 国家自然科学青年基金项目"社会网络环境下基于用户-资源关联的信息推荐研究(项目编号:71303178)"研究成果之一

关键词主题挖掘主题演化动态LDA模型 topics mining topics evolution dynamic LDA model

分类号 G202 [文化科学—传播学]

引文网络
相关文献

参考文献22

1Deerwester S,Dumais S T,Furnas G W,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,114(2):211-244.
2Hofmann T.Probabilistic latent semantic analysis[C]//Proceedings of the Twenty-Second Annual International SIGIR,Conference on Research and Development in Information Retrieval.New York:ACM,1999:50-57.
3Blei D M,Ng A Y,Jordan M L,et al.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(2):993-1022.
4Blei D M.Probabilistic topic models[J].Communications of the ACM,2012,55(4):77-84.
5Barbieri N,Manco G,Ritacco E,et al.Probabilistic topic models for sequence data[J].Machine Learning,2013,93(1):5-29.
6Isaly L,Trias E,Peterson G.Improving the latent Dirichlet allocation document model with WordNet[C]//Proceedings of the 5th International Conference on Information Warfare and Security.London:Academic Conferences Ltd,2010:163-170.
7Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(1):177-196.
8Du Lan,Buntine W,Jin Huidong,et al.Sequential latent Dirichlet allocation[J].Knowledge and Information Systems,2012,31(3):475-503.
9Mohd M,Crestani F,Ruthven I.Evaluation of an interactive topic detection and tracking interface[J].Journal of Information Science,2012,38(4):383-398.
10Aksoy C,Can F,Kocberber S.Novelty detection for topic tracking[J].Journal of The American Society for Information Science and Technology,2012,63(4):777-795.

二级参考文献66

1冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
2YE Hui-min,CHENG Wei,DAI Guan-zhong.Design and Implementation of On-Line Hot Topic Discovery Model[J].Wuhan University Journal of Natural Sciences,2006,11(1):21-26. 被引量：14
3郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
4吴渝,周凯,刘群,等.突现计算的研究进展[C].中国人工智能学会第12次全国学术年会论文集,(CAAI-12),哈尔滨,2007(12).
5ALLAN J, CARBONELL J, DODDINGTON G, et al. Topic detection and tracking pilot study : final report [ C ] // Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: Lansdowne, 1998: 194-218.
6LEEK T, SCHWARTZ R M, SISTA S. Probabilistic approaches to topic detection and tracking [ C ] //Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic : Massachusetts, 2002 : 67-83.
7CHEN K Y, LUESUKPRASERT L, CHOU S C T. Hot topic extraction based on timeline analysis and multidimensional sentence modeling [ J ]. IEEE Transactions on Knowledge Data Engineering, 2007 (19) : 1016-1025.
8罗亚平,王枞,周延泉.基于关注度的热点话题发现模型[M]//萧国政,何炎祥,孙茂松.中文计算技术与语言问题研究.北京:电子工业出版社,2007:402-408.
9OKA M, ABE H, KATO K. Extracting topics from Weblogs through frequency segments [ C ] // Proceedings of the WWW2006 Workshop on Web Intelligence, 2006: 22-26.
10BLEI D M, NG A Y, JORDAN M I. Latent difichlet allocation[J]. Journal of Machine Learning Research, 2003 (3).

共引文献116

1刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137. 被引量：23
2白若鹞,董渊,张素琴,徐大伟.研究中文文本分类技术的辅助平台[J].清华大学学报（自然科学版）,2008,48(7):1150-1153. 被引量：2
3吴春颖,王士同.一种改进的KNN Web文本分类方法[J].计算机应用研究,2008,25(11):3275-3277. 被引量：9
4卢祖友,桑永胜.基于球向量机的中文文本分类[J].计算机工程与科学,2008,30(12):82-84. 被引量：2
5蒋宗礼,徐学可,李帅.文本分类中基于词条聚合的特征抽取[J].哈尔滨工程大学学报,2008,29(11):1205-1209. 被引量：4
6熊忠阳,杨营辉,张玉芳.基于密度的kNN分类器训练样本裁剪方法的改进[J].计算机应用,2010,30(3):799-801. 被引量：13
7单斌,李芳.基于种子文档LDA话题的演化研究[J].现代图书情报技术,2011(7):104-109. 被引量：6
8张学谦,王自强,郜凤敏.基于分布距离的特征聚类方法[J].计算机工程与应用,2011,47(29):137-139.
9曾安平.一种增量式的半监督文本分类算法[J].宜宾学院学报,2011,11(6):71-74.
10胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J].国防科技大学学报,2012,34(1):150-154. 被引量：29

同被引文献953

1张秦,陈铁.基于CiteSpace的我国高职院校在线课程研究热点与趋势的知识图谱分析[J].教育科学论坛,2021(24):76-80. 被引量：3
2聂卉.基于内容特征的评论效用排名预测——以豆瓣书评为例[J].管理评论,2021(2):176-186. 被引量：10
3胡新岗,刘俊栋,陈则东,刘海霞,黄银云,朱明苑.高职在线开放课程教学质量影响因素调研分析与对策[J].中国职业技术教育,2021,37(17):82-87. 被引量：11
4曹新西,徐晨婕,侯亚冰,王媛,樊娜,徐富升,王耀刚.1990—2025年我国高发慢性病的流行趋势及预测[J].中国慢性病预防与控制,2020,28(1):14-19. 被引量：114
5陈挺,王海名,王小梅.基于可视化的基金资助热点及其演化发现方法研究[J].数据分析与知识发现,2020,4(2):60-67. 被引量：6
6张成岗.人工智能时代:技术发展、风险挑战与秩序重构[J].南京社会科学,2018,0(5):42-52. 被引量：76
7严阅,陈瑜,刘可伋,罗心悦,许伯熹,江渝,程晋.基于一类时滞动力学系统对新型冠状病毒肺炎疫情的建模和预测[J].中国科学：数学,2020,50(3):385-392. 被引量：94
8王小捷,白子薇,李可,袁彩霞.机器阅读理解的研究进展[J].北京邮电大学学报,2019,42(6):1-9. 被引量：8
9陈云端.“互联网+创客教育”视域下智慧课堂的构建及案例研究[J].视界观,2019,0(11):0153-0153. 被引量：1
10蔚海燕,梁战平.知识管理,图书情报学应做些什么?[J].大学图书馆学报,2007,25(4):2-9. 被引量：4

引证文献73

1席崇俊,刘文斌,丁楷.词共现频次变化视角下的动态主题识别研究[J].知识管理论坛,2022(2):197-208. 被引量：1
2朱芷瑶.从“鸡汤”到“反鸡汤”:B站五四青年节系列短片中的情绪传播研究[J].传媒论坛,2023,6(17):59-61. 被引量：1
3高顺恒.怎样呈现创新:媒体的5G报道分析——基于LDA主题建模技术[J].传播力研究,2020(5):71-71.
4温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：8
5赵迎光,洪娜,安新颖.主题模型在主题演化方法中的应用研究进展[J].现代图书情报技术,2014(10):63-69. 被引量：8
6秦晓慧,乐小虬.基于LDA主题关联过滤的领域主题演化研究[J].现代图书情报技术,2015(3):18-25. 被引量：25
7李湘东,丁丛,何海红.多学科领域电子商务研究分析——以图书情报学和管理学为例[J].图书馆杂志,2015,34(6):22-29. 被引量：4
8叶春蕾,邢燕丽.基于LDA和社会网络中心度的研究生个性化检索推荐模型研究[J].图书情报工作,2015,59(13):104-110. 被引量：4
9祝娜,王效岳,杨京,白如江.基于LDA的科技创新主题语义识别研究[J].图书情报工作,2015,59(14):126-134. 被引量：18
10黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11. 被引量：4

二级引证文献399

1陈琳,陈涛.基于LDA模型和信任维度的在线短租用户信任感知空间分布研究——基于Airbnb北京地区数据[J].中国发展,2021,21(5):53-61. 被引量：3
2龙艺璇,伊惠芳.国内外公共政策文本分析中主题模型应用研究进展[J].知识管理论坛,2020(5):305-316. 被引量：2
3陈娟,杨倩,文泉,刘歆浏,刘议聪.面向“挑战性课程”的多目标跟踪实验设计[J].实验技术与管理,2020,37(1):155-158. 被引量：2
4赵根良.基于文本分析的传统零售研究热点探讨[J].山东电力高等专科学校学报,2021,24(3):33-35.
5曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：4
6郭颖,王明星,段炜钰.专利的技术新兴度与其技术影响力间关系研究[J].科学学研究,2022,40(6):1034-1043. 被引量：7
7韦东鑫,彭第,朱敏.基于UGC的旅游可视分析研究与应用[J].计算机应用研究,2020,37(S02):336-339. 被引量：2
8Chunhui Tan,Mengyuan Xiong.Contrastive analysis in China and abroad on the Evolution of hot topics in the field of digital library based on LDA model[J].Data Science and Informetrics,2021,1(2):110-130. 被引量：1
9周锐,邢琳悦.基于知识图谱的城市公共危机信息资源融合研究[J].国家治理现代化研究,2021(1):108-124. 被引量：1
10叶强,詹宝强,马笑晨,李永立.基于文本挖掘和多模块融合的金融数据分类分级方法[J].信息技术与管理应用,2022(1):120-133.

1赵静.公共图书馆形象研究述评[J].图书情报工作,2014,58(24):131-137. 被引量：3
2洪凌子,黄国彬,于洋.基于CiteSpace的国内外数字图书馆研究论文的比较分析[J].图书馆论坛,2014,34(6):91-100. 被引量：13
3吕春晖.新媒体语境下政府形象的国际传播研究[J].新闻研究导刊,2015,6(11). 被引量：1
4杨双秀,周紫林.民族地区农家书屋服务模式探究[J].科技情报开发与经济,2013,23(15):61-63. 被引量：1
5王莉亚.主题演化研究进展[J].情报探索,2014(4):29-32. 被引量：11
6吴亚平,陈迪,王继民.从JoI期刊载文窥探计量学主题演化与学科交叉[J].数字图书馆论坛,2015(8):66-70. 被引量：2
7马费成,张斌,罗媛.我国信息政策的主题结构及演化[J].中国科技资源导刊,2011,43(6):35-42. 被引量：1
8关鹏,王曰芬.基于LDA主题模型和生命周期理论的科学文献主题挖掘[J].情报学报,2015,34(3):286-299. 被引量：42
9侯治平,袁勤俭,朱庆华,宗乾进.国际电子服务领域研究热点及主题演化分析[J].科技管理研究,2014,34(17):160-164.
10祝婷,秦春秀,马晓悦,李祖海.基于本体与LDA主题模型的文本资源推荐方法研究[J].情报杂志,2015,34(11):150-156. 被引量：4

图书情报工作

2014年第2期

浏览历史

内容加载中请稍等...

基于动态LDA主题模型的内容主题挖掘与演化被引量：73

参考文献22

二级参考文献66

共引文献116

同被引文献953

引证文献73

二级引证文献399

相关作者

相关机构

相关主题

浏览历史

基于动态LDA主题模型的内容主题挖掘与演化 被引量：73

参考文献22

二级参考文献66

共引文献116

同被引文献953

引证文献73

二级引证文献399

相关作者

相关机构

相关主题

浏览历史

基于动态LDA主题模型的内容主题挖掘与演化被引量：73