摘要
为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合LDA主题模型与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好地实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。
Aiming at the retrieval semantic information in Mongolian, this paper proposed a new method combined topic model latent dirichlet allocation(LDA) and language model. This method modeled Mongolian documents with LDA and language model, estimated parameters with Gibbs sampling and represented probability of word, it could mine the hidden relationship between the different topics and the words from documents, got the topic distribution and computed the similarity or keywords topics. Finally,it returned to the most relevant documents with topics. Experimental results show that the method has a higher performance in topic semantic compared with one sole model.
作者
斯日古楞
林民
田长波
Siriguleng Lin Min Tian Changbo(College of Computer & Information Engineering, Inner Mongolia Normal University, Hohhot 010022, China)
出处
《计算机应用研究》
CSCD
北大核心
2016年第12期3676-3680,共5页
Application Research of Computers
基金
国家自然科学基金资助项目(61562068)
内蒙古自然科学基金资助项目(2013MS0912)
内蒙古自治区教育部人文社会科学研究项目(13YJAZH080)