期刊文献+

一种半监督的中文垃圾微博过滤方法 被引量:8

A Semi-supervised Method for Filtering Chinese Spam Tweets
下载PDF
导出
摘要 微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。 Microblogging sites are one of the most popular information sharing platforms today. However, among the large amount of posted published every day, spare texts are seen everywhere: users utilize spam posts to advertise, broadcast, boast their own products, and defame their competitors. Therefore, filtering spare tweets is a criti- cal and fundamental problem. In this paper, we propose a semi-supervised algorithm based on Expectation Maximization and Naive Bayesian Classifier (EM-NB), which is able to filter spam tweets effectively using only a small amount of labeled data. The experimental results on more than 140 thousand tweets from Sina Weibo show that our method achieves higher accuracy and F-score than baselines.
出处 《中文信息学报》 CSCD 北大核心 2016年第5期176-186,共11页 Journal of Chinese Information Processing
基金 国家自然科学基金(61332007 61272227)
关键词 垃圾微博过滤 半监督学习 EM算法 朴素贝叶斯 spam tweet naive bayesian classifier expectation maximization semi-supervised learning
  • 相关文献

参考文献1

二级参考文献1

  • 1郭庆光.传播学教程[M]北京:中国人民大学出版社,1999.

共引文献6

同被引文献55

引证文献8

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部