一种半监督的中文垃圾微博过滤方法被引量：8

A Semi-supervised Method for Filtering Chinese Spam Tweets

下载PDF

导出

摘要微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。 Microblogging sites are one of the most popular information sharing platforms today. However, among the large amount of posted published every day, spare texts are seen everywhere： users utilize spam posts to advertise, broadcast, boast their own products, and defame their competitors. Therefore, filtering spare tweets is a criti- cal and fundamental problem. In this paper, we propose a semi-supervised algorithm based on Expectation Maximization and Naive Bayesian Classifier （EM-NB）, which is able to filter spam tweets effectively using only a small amount of labeled data. The experimental results on more than 140 thousand tweets from Sina Weibo show that our method achieves higher accuracy and F-score than baselines.

作者姚子瑜屠守中黄民烈朱小燕

机构地区清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2016年第5期176-186,共11页 Journal of Chinese Information Processing

基金国家自然科学基金(61332007 61272227)

关键词垃圾微博过滤半监督学习 EM算法朴素贝叶斯 spam tweet naive bayesian classifier expectation maximization semi-supervised learning

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈倩.微博广告发展现状与传播效果分析[J].产业与科技论坛,2012,11(2):33-34. 被引量：7

二级参考文献1

1郭庆光.传播学教程[M]北京:中国人民大学出版社,1999.

共引文献6

1顾思宇.微博广告的传播策略分析[J].新闻世界,2013(1):79-80. 被引量：2
2刘博文.关于微博广告的思考[J].西部广播电视,2014,35(24):42-43.
3李国海,彭诗程.论对个人微博广告的法律规制[J].湖南工业大学学报（社会科学版）,2015,20(5):49-54. 被引量：4
4张荣荣.微博广告的传播特点及其营销模式分析[J].赤峰学院学报（自然科学版）,2017,33(15):58-60. 被引量：1
5单江东.自媒体时代明星微博广告实施策略探析[J].新闻文化建设,2020(6):116-117. 被引量：1
6王琰.微博广告传播中的问题及其对策探析[J].新闻文化建设,2020(11):130-131.

同被引文献55

1刘青,何政.结合EM算法的朴素贝叶斯方法在中文网页分类上的应用[J].计算机工程与科学,2005,27(7):65-66. 被引量：4
2贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9
3田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
4刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报,2011,25(1):41-47. 被引量：23
5邓冰娜,王煜,刘宇.一种应用于博客的垃圾评论识别方法[J].郑州大学学报（理学版）,2011,43(1):65-69. 被引量：7
6张亚萍,陈得宝,侯俊钦,杨一军.朴素贝叶斯分类算法的改进及应用[J].计算机工程与应用,2011,47(15):134-137. 被引量：19
7杨风雷,黎建辉.用户生成内容中的垃圾意见研究综述[J].计算机应用研究,2011,28(10):3601-3605. 被引量：12
8郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
9邱云飞,程亮.微博突发话题检测方法研究[J].计算机工程,2012,38(9):288-290. 被引量：13
10张剑峰,夏云庆,姚建民.微博文本处理研究综述[J].中文信息学报,2012,26(4):21-27. 被引量：55

引证文献8

1李志欣,兰丹媚,张灿龙,唐素勤.基于Co-Training的微博垃圾评论识别方法[J].计算机工程,2018,44(7):212-218. 被引量：3
2赵晓乐,栾杰,冯旭鹏,刘利军,黄青松.基于堆叠降噪自编码机的广告博文识别方法[J].小型微型计算机系统,2018,39(9):1921-1926.
3王雪颖,杨文忠,张志豪,李东昊,秦旭.基于多特征的微博突发事件检测算法[J].计算机应用,2019,39(11):3263-3267. 被引量：4
4彭革.基于朴素贝叶斯算法在垃圾邮件过滤中的研究综述[J].电脑知识与技术,2020,16(14):244-245. 被引量：2
5蒋伟进,王扬,刘晓亮,吕斯健.基于词相关性特征的多归属谱聚类突发事件检测[J].通信学报,2020,41(12):193-204. 被引量：2
6曹春萍,杨青林.基于协同训练算法的微博垃圾评论识别[J].智能计算机与应用,2020,10(10):105-107.
7张晓瑜,高扬,苗星星,祝永霞.基于自适应特征词的微博噪音过滤方法[J].计算机与数字工程,2024,52(2):496-501.
8屠守中,杨婧,赵林,朱小燕.半监督的微博话题噪声过滤方法[J].清华大学学报（自然科学版）,2019,59(3):178-185. 被引量：2

二级引证文献12

1王红蔚,孔波.适用于大数据的最小二乘半监督支持向量机[J].河南大学学报（自然科学版）,2019,49(6):745-750. 被引量：1
2方黛春.高校学生突发事件发生发展规律分析及启示[J].湖北开放职业学院学报,2020,33(9):33-34. 被引量：2
3尹春勇,朱宇航.基于垂直集成Tri-training的虚假评论检测模型[J].计算机应用,2020,40(8):2194-2201. 被引量：1
4曹春萍,杨青林.基于协同训练算法的微博垃圾评论识别[J].智能计算机与应用,2020,10(10):105-107.
5冯军军,李力.机器学习在垃圾邮件过滤中的实现[J].电脑知识与技术,2021,17(8):154-155. 被引量：2
6冯军军,李力.垃圾邮件检测与绕过技术的研究[J].电脑知识与技术,2021,17(7):36-37. 被引量：1
7周莉,闫攀.无线协作中继网络多层不良数据辨识方法[J].计算机仿真,2021,38(6):278-281. 被引量：1
8夏英,陈开鑫.基于多种特征融合的微博突发事件检测方法[J].重庆邮电大学学报（自然科学版）,2022,34(2):234-242.
9仲兆满,李恒.新媒体环境下突发事件识别与分析研究综述[J].江苏海洋大学学报（自然科学版）,2022,31(2):78-88. 被引量：2
10孔春伟,吕学强,张乐,赵海兴.融合多特征的藏文新闻热点事件检测研究[J].中文信息学报,2023,37(2):53-61. 被引量：1

1张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用[J].计算机科学,2011,38(B10):136-139. 被引量：26
2王佰玲,曲芸,张永铮,田志宏.基于数据流的网页内容分析技术研究[J].电子学报,2013,41(4):751-756. 被引量：4
3卜质琼,郑波尽.基于LDA模型的Ad hoc信息检索方法研究[J].计算机应用研究,2015,32(5):1369-1372. 被引量：8
4韩忠明,吕涛,张慧,姜同强.带隐变量的回归模型EM算法[J].计算机科学,2014,41(2):136-140. 被引量：1
5王正影.基于XML的Web数据挖掘[J].硅谷,2010,3(11):65-65. 被引量：1
6石启群.基于马尔科夫随机场和混合高斯模型的两图像配准算法[J].科技视界,2016(8):274-276. 被引量：1
7吴岘辉,张晖,杨春明,李波,赵旭剑.一种话题相关的微博意见领袖挖掘算法[J].小型微型计算机系统,2014,35(10):2296-2301. 被引量：7
8张润丹,王莹莹.量子隐马尔科夫模型参数学习研究[J].科技视界,2014(16):146-146.
9杨华,姬东鸿,陈波.基于话题相关的文档集的无向基本要素网络的连通性探讨[J].中文信息学报,2015,29(4):103-110. 被引量：2
10刘海华,郭杰龙.基于高斯混合模型的腹主动脉图像分割[J].中南民族大学学报（自然科学版）,2015,34(2):91-94. 被引量：2

中文信息学报

2016年第5期

浏览历史

内容加载中请稍等...

一种半监督的中文垃圾微博过滤方法被引量：8

参考文献1

二级参考文献1

共引文献6

同被引文献55

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种半监督的中文垃圾微博过滤方法 被引量：8

参考文献1

二级参考文献1

共引文献6

同被引文献55

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种半监督的中文垃圾微博过滤方法被引量：8