期刊文献+

基于LDA模型的大规模文本挖掘算法研究 被引量:2

An Research on Large Scale Text Mining Algorithm Based on LDA Model
下载PDF
导出
摘要 针对海量文本信息的挖掘与处理是目前文本挖掘领域的一个热点问题,LDA模型是文本挖掘领域中应用广泛的一种主流模型。LDA模型能够通过快速学习和训练,检测出文本集中潜在的主题词。传统算法对速度和内存优化并不明显。文章从几个不同的方面阐述了LDA模型及其扩展模型在处理大规模文本数据时的应用,从参数估计、在线学习和并行优化方面进行了比对,对其中在线模型进行了实验验证,引入狄利克雷参数、BP信念传播算法,在几组数据集上进行了实验,分析其性能。 The mining and processing of massive text information is a hot issue in the field of text mining.The LDA model is a mainstream model widely used in this field.The LDA model is able to detect potential subject terms in the text set through rapid learning and training.Traditional algorithms are not obvious for speed and memory optimization.The article expounds the application of LDA model and its extended model in dealing with large-scale text data from several different aspects.It compares parameter estimation,online learning and parallel optimization.The online model is experimentally verified and introduced.Dirichlet parameters and Belief Propagation were tested on several sets of datasets and the performance of the online LDA model was analyzed.
作者 董薇 庞峰 顾炜江 DONG Wei;PANG Feng;GU Weijiang(Nanjing Forestry University,Nanjing Jiangsu 210037)
机构地区 南京林业大学
出处 《软件》 2020年第12期58-63,共6页 Software
基金 2020年基于校园学工大数据的高校治理与教育分析研究(163140052) 2019年江苏省现代教育技术研究重点项目(2019-R-79291)。
关键词 主题模型 潜在狄利克雷分布 在线LDA模型 BP信念传播算法 参数估计 topic model latent dirichlet allocation model online latent dirichlet allocation model belief propagation parameter estimation
  • 相关文献

参考文献8

二级参考文献125

  • 1李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量:274
  • 2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:383
  • 3刘则渊,尹丽春.国际科学学主题共词网络的可视化研究[J].情报学报,2006,25(5):634-640. 被引量:99
  • 4王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1746. 被引量:6
  • 5[1]Berendt B,Mobasher B,Spiliopoulou M,et al.Measuring the Accuracy of Sessionizers for Web Usage Analysis. Int. SIAM Workshop on Web Mining,2001-04
  • 6[2]Cooley R,Mobasher B,Srivastava J.Data Preparation for Mining World Wide Web Browing Patterns. Journal of Knowledge and Information Systems,1999 1(1)
  • 7[3]He D,Goker A.Detecting Session Boundaries from Web User Logs.Proceedings of the 22nd Annual Colloquim of IR Research(IRSG2000),2000:57-66
  • 8[4]Catledge L,Pitkow J.Characterizing Browsing Strategies in the World Wide Web.3ra International World-Wide Web Conference WWW95,1995
  • 9Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
  • 10Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.

共引文献316

同被引文献17

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部