期刊文献+

基于文摘的SLDA主题模型

SLDA Theme Model Based on Abstract
下载PDF
导出
摘要 文本数据含有与文章内容高度相关的额外信息,而标准的LDA主题模型对这些信息没有加以利用,导致在很多文本的处理过程中出现对关键信息的遗漏的问题,降低了LDA模型的主题提取能力和数据降维能力。构建一种利用文档文摘信息的SLDA模型,在对文档建模时引入机械抽取的文摘信息,通过文摘信息对文档内容平滑,可以很全面地利用文档自身特征信息,从而提高了模型对文档的主题提取能力和数据降维能力。实验结果表明,在标准的LDA模型中引入文摘信息可以提高模型的文档主题提取能力。 The text data contains additional information that is highly relevant to the content of the article, and the standard LDA theme model doesn't use the information, so the key information is omitted in the treatment process of many texts and the ability of topic extraction and data dimension reduction of LDA model is reduced. In this paper constructs a SLDA model which uses document summarization information. The mechanical extraction abstract information is introduced into the document modeling. Abstract information can be used to smooth the document content, which can fully use the characteristic information of the document to improve the model's ability of topic extraction and data dimension reduction for the data. The experimental results show that the introduction of abstract information in the standard LDA model can improve the ability of document topic extraction of the model.
出处 《价值工程》 2016年第19期231-234,共4页 Value Engineering
基金 国家自然科学基金"基于统计机器翻译和文摘的查询扩展研究(No.61363045)" 云南省自然科学基金重点项目"舆情观点分析(No.2013FA130)"
关键词 主题模型 LDA 自然语言处理 subject model LDA natural language processing
  • 相关文献

参考文献11

二级参考文献126

共引文献363

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部