摘要
自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用。针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型h LDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词。最后,利用先/后离散分析方法研究主题随时间的演化问题。实验结果验证了主题发现及演化方法的可行性及有效性。
Automatic mining scientific literature' s topic and observing topic change for researchers will play great role in understanding and accessing the latest research frontiers on certain field. This paper analyzed topic extraction and evolution approaches of scientific papers by examining the characteristics of the diversity and dynamics of scientific papers, and based on hierarchical probabilistic topic model, using Gibbs sampling to estimate the model parameters and choosing the high - quality topic words by means of mutual information. This paper finally used Pro/Post - discretized analysis to study the topic evolution. The experimental results show that topic extraction and evolution method proposed in this paper are feasible and effective.
出处
《图书情报工作》
CSSCI
北大核心
2014年第22期70-77,共8页
Library and Information Service
基金
国家自然科学基金青年科学基金项目"多因素融合下的微博话题可信度评估模型及实证研究"(项目编号:71303179)研究成果之一
关键词
主题发现
主题演化
层次概率主题模型
topic extraction topic evolution hierarchical probabilistic topic model