摘要
针对海量文本信息的挖掘与处理是目前文本挖掘领域的一个热点问题,LDA模型是文本挖掘领域中应用广泛的一种主流模型。LDA模型能够通过快速学习和训练,检测出文本集中潜在的主题词。传统算法对速度和内存优化并不明显。文章从几个不同的方面阐述了LDA模型及其扩展模型在处理大规模文本数据时的应用,从参数估计、在线学习和并行优化方面进行了比对,对其中在线模型进行了实验验证,引入狄利克雷参数、BP信念传播算法,在几组数据集上进行了实验,分析其性能。
The mining and processing of massive text information is a hot issue in the field of text mining.The LDA model is a mainstream model widely used in this field.The LDA model is able to detect potential subject terms in the text set through rapid learning and training.Traditional algorithms are not obvious for speed and memory optimization.The article expounds the application of LDA model and its extended model in dealing with large-scale text data from several different aspects.It compares parameter estimation,online learning and parallel optimization.The online model is experimentally verified and introduced.Dirichlet parameters and Belief Propagation were tested on several sets of datasets and the performance of the online LDA model was analyzed.
作者
董薇
庞峰
顾炜江
DONG Wei;PANG Feng;GU Weijiang(Nanjing Forestry University,Nanjing Jiangsu 210037)
出处
《软件》
2020年第12期58-63,共6页
Software
基金
2020年基于校园学工大数据的高校治理与教育分析研究(163140052)
2019年江苏省现代教育技术研究重点项目(2019-R-79291)。
关键词
主题模型
潜在狄利克雷分布
在线LDA模型
BP信念传播算法
参数估计
topic model
latent dirichlet allocation model
online latent dirichlet allocation model
belief propagation
parameter estimation