摘要
论文根据微博文本所具有的特点,将微博文本具有的三种的特殊符号:"@"、"//"和"#"纳入微博主题提取的分析中。在传统的LDA模型的基础上,建立一种微博标签的LDA模型,该模型考虑到微博的主题、转发的微博、微博的评论等内容,增强对微博主题的提取的准确性。实验结果表明,论文提出的算法对于新浪微博的主题提取的效果良好。
According to the characteristics of micro-blog text,this paper takes the micro-blog three kinds of special symbols,“@”,“//”and“#”,into consideration for topic extraction analysis of micro-blog text.On the basis of the traditional LDA model,a micro-blog tag LDA model is established,which considers the micro-blog theme,forwarded micro-blog,micro-blog comment content,and enhances the accuracy of the extraction of micro blog theme.Experimental results show that the algorithm proposed in this paper has a good effect on the topic extraction of Sina micro-blog.
作者
邓丹君
姚莉
DENG Danjun;YAO Li(Department of Computer Science,Hubei Polytechnic University,Huangshi 435002)
出处
《计算机与数字工程》
2017年第5期954-957,共4页
Computer & Digital Engineering
基金
湖北理工学院校级科研项目(编号:15xjz02Q
15xjz03Q)资助
关键词
微博
主题提取
LDA
微博标签
micro-blog
topic extraction
LDA
micro-blog tags