摘要
主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取"词对"共现的方式来对文本建模,代替传统的"词"共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,方法相比于传统主题模型,在短文本特征提取方面有较好的提升。
This paper presents an improved method for short text based on LDA.In this case,acquiring couple word cooccurrence to model instead of the traditional word co-occurrence way.The method can alleviate the data sparseness problem and improve the performance of the model.The experimental results on real data sets show that the performance of this method has better promotion compared to the traditional topic model.
出处
《工业控制计算机》
2015年第8期110-112,共3页
Industrial Control Computer
基金
安徽省高校自然科学研究重点项目(KJ2013A020)
安徽省自然科学基金(11040606M133)