-
题名基于Co-Training的微博垃圾评论识别方法
被引量:3
- 1
-
-
作者
李志欣
兰丹媚
张灿龙
唐素勤
-
机构
广西师范大学广西多源信息挖掘与安全重点实验室
广西区域多源信息集成与智能处理协同创新中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第7期212-218,共7页
-
基金
国家自然科学基金(61663004
61363035
+4 种基金
61365009)
广西自然科学基金(2016GXNSFAA380146
2017GXNSFAA198365)
广西多源信息挖掘与安全重点实验室主任基金(16-A-03-02)
广西学位与研究生教育改革专项课题(JGY2015031)
-
文摘
微博上大量的垃圾评论对个人、社会,甚至是对国家都会造成不良影响。为对微博中的垃圾评论进行识别,提出基于协同训练的微博垃圾评论识别方法。定义一种基于规则的识别方法过滤出显式垃圾评论,剩余的评论归为相关评论,构建AdaBoost分类器和支持向量机分类器,通过Co-Training算法进行协同训练,判断其是否为垃圾评论,以提高分类精度,节省样本标注工作。实验结果表明,与基于相似度计算的垃圾评论识别方法、基于评论多特征的垃圾评论识别方法相比,该方法具有较好的识别效果。
-
关键词
微博垃圾评论
协同训练
同义词词林
支持向量机
相似度计算
-
Keywords
microblogging spam comment
collaborative training
synonym word forest
Support Vector Machine(SVM)
similarity computation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-