新浪微博反垃圾中特征选择的重要性分析被引量：8

Feature importance analysis for spammer detection in Sina Weibo

下载PDF

导出

摘要微博中的垃圾用户非常普遍,其异常行为及生产的垃圾信息显著降低了用户体验。为了提高识别准确率,已有研究或是尽可能多地定义特征,或是不断尝试提出新的分类检测方法;那么,微博反垃圾问题的突破点优先置于寻找分类特征还是改进分类检测方法,是否特征越多检测效果越好,新的方法是否可以显著提高检测效果。以新浪微博为例,试图通过不同的特征选择方法与不同的分类器组合实验回答以上问题,实验结果表明特征组的选择较分类器的改进更为重要,需从内容信息、用户行为和社会关系多侧面生成特征,且特征并非越多检测效果越好,这些结论将有助于未来微博反垃圾工作的突破。 Microblog has drawn attention of not only legitimate users but also spammers. The garbage information provided by spammers handicaps users＇ experience significantly. In order to improve the detection accuracy of spammers, most existing studies on spare focus on generating more classification features or putting forward new classifiers. Which kind of issues would be put the high priority of an enormous amount of research effort into？ Are extensive features or novel classifiers better for the detection accuracy of spammers？ It is tried to address these questions through combining different feature selection methods with different classifiers on a real Sina Weibo dataset. Experimental results show that selected features are more important than novel classifiers for spammer detection. In addition, features should be derived from a wide range, such as text contents, user behaviors, and social relationship, and the dimension of features should not be too high. These results will be useful in finding the breakpoint of Microblog anti-spam works in the future.

作者张宇翔孙菀杨家海周达磊孟祥飞肖春景

机构地区中国民航大学计算机科学与技术学院清华大学网络科学与网络空间研究院清华信息科学与技术国家实验室北京邮电大学网络技术研究院北京航空航天大学虚拟现实技术与系统国家重点实验室

出处《通信学报》 EI CSCD 北大核心 2016年第8期24-33,共10页 Journal on Communications

基金国家重点基础研究发展计划("973"计划)基金资助项目(No.2009CB320505) 国家科技支撑计划基金资助项目(No.2008BAH37B05) 国家自然科学基金资助项目(No.61170211 No.U1533104 No.61301245) 教育部博士点基金资助项目(No.20110002110056)~~

关键词新浪微博特征生成特征选择垃圾用户检测 Sina Weibo, feature definition, feature selection, spammer detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献55

1Available online[EB/OL]. http://news.xinhuanet.com/2013-07/04/c_116410610.htm.
2Available online[EB/OL]. http://it.people.com.en/n/2015/0212/cl009-26552746.html.
3SPIRIN N, HAN J W. Survey on web spam detection: principles andalgorithms[J]. ACM SIGKDD Explorations Newsletter, 2012,13(2):50-64.
4MUKHERJEE A, LIU B, GLANCE N S. Spotting fake reviewergroups in consumer reviews[C]//The WWW. c2012: 191-200.
5WANG T Y,WANG G, LI X. Characterizing and detecting maliciouscrowdsourcing[C3//The ACM SIGCOMM. c2013: 537-538.
6WANG Q WILSON C,ZHAO X H. Serf and turf: crowdturfmg forfiin and profit[C]//The WWW. c2012: 679-688.
7SRIDHARAN V, SHANKAR V’ GUPTA M. Twitter games: howsuccessful spammers pick taigets[C]//The ACSAC. c2012: 389-398.
8STRINGHINI Q KRUEGEL C, VIGNA G. Detecting spammers onsocial networks[C]//The ACSAC. c2010: 1-9.
9IRANI D,WEBB S,PU C. Study of static classification of social spamprofiles in MySpace[C]//The ICWSM. c2010: 82-89.
10GAO H Y,HU J, WILSON C. Detecting and characterizing socialspam campaigns[C]//The CCS. c2010: 681-683.

二级参考文献22

1杨楠,弓丹志,李忺,孟小峰.Web社区发现技术综述[J].计算机研究与发展,2005,42(3):439-447. 被引量：35
2张泽明,罗文坚,王煦法.一种基于人工免疫的多层垃圾邮件过滤算法[J].电子学报,2006,34(9):1616-1620. 被引量：16
3中国互联网络信息中心.中国互联网络发展状况统计报告[EB/OL].http://www.cnnic net.cn,2003—07-01.
4Kwak H. Lee C. Park H. et al. What is twitter. a social network or a news media? [C] / /Proc of the 19th Int World Wide Web Conf. New York, ACM. 2010, 591-600.
5Yin D. Hong L. Xiong X. et al. Link formation analysis in microblogs [C] / /Proc of the 34th Annual Int ACM SIGIR Conf on Information Retrieval. New York, ACM. 2011, 1235-1236.
6Becchetti L. Boldi P. Castillo C. er al. Efficient semistreaming algorithms for local triangle counting in massive graphs [C] / /Proc of the 14th ACM SIGKDD Int Conf On Knowledge Discovery and Data Mining. New York, ACM. 2008, 16-24.
7Tsourakakis C. Fast counting of triangles in large real networks without counting, Algorithms and laws [C] / /Proc of the 8th IEEE Int Conf on Data Mining. Piscataway. NJ, IEEE. 2008, 608-617.
8Gyongyi Z, Garcia-Molina H. Pedersen J. Combating Web sparn with TrustRank [C] / /Proc of the 30th Int Conf on Very Large Data Bases. San Franciso . Morgan Kaufmann, 2004, 576-587.
9Sobek M. PRO-Google's PageRank 0 penalty [EB/OL]. (2003-01-31) [2012-07-28]. http://pr. efactory. dele-prO. shtml.
10Wu B. Goel V. Davison B. Propagating trust and distrust to demote Web sparn [C] / /Proc of Models of Trust for the Web Workshop of 15th Int World Wide Web Conf. New York, ACM. 2006, 29-37.

共引文献55

1屈步云,谭建龙,孟丹.ISP网络间TCP包载荷重复度测量与分析[J].计算机研究与发展,2012,49(S2):89-95.
2王晶,朱珂,汪斌强.基于用户社会属性及行为特征吸引度的微博粉丝网络演化模型[J].计算机应用,2013,33(10):2753-2756. 被引量：4
3高凯,王九硕,马红霞,周二亮,Radha Ganesan.微博信息采集及群体行为分析[J].小型微型计算机系统,2013,34(10):2413-2416. 被引量：5
4王娟,唐宝珍.基于兴趣的轻博客网站拓扑特性分析[J].电脑知识与技术,2013,9(8):5033-5036.
5刘玮,王丽宏,李锐光.面向话题的微博网络测量研究[J].通信学报,2013,34(11):171-178. 被引量：7
6田占伟,刘臣,王磊,隋玚.基于模糊PA算法的微博信息传播分享预测研究[J].计算机应用研究,2014,31(1):51-54. 被引量：2
7傅颖斌,陈羽中.基于链路预测的微博用户关系分析[J].计算机科学,2014,41(2):201-205. 被引量：18
8陈慧娟,郑啸,陈欣.微博网络信息传播研究综述[J].计算机应用研究,2014,31(2):333-338. 被引量：21
9丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：120
10李振国,郑惠中.网络流量采集方法研究综述[J].吉林大学学报（信息科学版）,2014,32(1):70-75. 被引量：12

同被引文献55

1陆微微,刘晶.一种提高K-近邻算法效率的新算法[J].计算机工程与应用,2008,44(4):163-165. 被引量：22
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：543
3郝媛媛,叶强,李一军.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报,2010,13(8):78-88. 被引量：239
4谭婷婷,蔡淑琴,胡慕海.众包国外研究现状[J].武汉理工大学学报（信息与管理工程版）,2011,33(2):263-266. 被引量：30
5郝秀兰,胡运发,申情.中文论坛内容监测的方法研究[J].中文信息学报,2012,26(3):129-136. 被引量：3
6王琳,冯时,徐伟丽,杨卓,王大玲,张一飞.一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J].计算机应用与软件,2012,29(8):25-29. 被引量：15
7陆军,洪宇,陆剑江,姚建民,朱巧明.基于全局用户意图的评论自动估价方法研究[J].中文信息学报,2012,26(5):79-87. 被引量：5
8谈磊,连一峰,陈恺.基于复合分类模型的社交网络恶意用户识别方法[J].计算机应用与软件,2012,29(12):1-5. 被引量：12
9姜巍,张莉,戴翼,蒋竞,王刚.面向用户需求获取的在线评论有用性分析[J].计算机学报,2013,36(1):119-131. 被引量：56
10刘衍珩,李飞鹏,孙鑫,朱建启.基于信息传播的社交网络拓扑模型[J].通信学报,2013,34(4):1-9. 被引量：26

引证文献8

1栾杰,刘利军,冯旭鹏,黄青松.面向微博博主的评论质量评估[J].小型微型计算机系统,2018,39(1):58-63. 被引量：1
2陈福才,李思豪,张建朋,黄瑞阳.基于标签关系改进的多标签特征选择算法[J].计算机科学,2018,45(6):228-234. 被引量：2
3赵晓乐,栾杰,冯旭鹏,刘利军,黄青松.基于堆叠降噪自编码机的广告博文识别方法[J].小型微型计算机系统,2018,39(9):1921-1926.
4程晓涛,吉立新,黄瑞阳,于洪涛,杨奕卓.基于多维多粒度分析的电信网用户行为模式挖掘[J].网络与信息安全学报,2018,4(10):39-51. 被引量：1
5伍静,詹千熠,刘渊.一种结合文本情感分析的微博僵尸粉识别模型[J].计算机工程,2020,46(6):288-295. 被引量：1
6杨晓晖,梁笑.基于多视图融合的微博垃圾用户检测方法[J].华南理工大学学报（自然科学版）,2020,48(12):125-134. 被引量：1
7杨晓晖,王卫宾.基于层次注意力机制的垃圾用户检测模型[J].河北大学学报（自然科学版）,2023,43(1):95-102.
8刘蓉,陈波,于泠,刘亚尚,陈思远.恶意社交机器人检测技术研究[J].通信学报,2017,38(S2):197-210. 被引量：15

二级引证文献21

1王蕙心.被“主宰”的网络言论市场——以对自动化“水军”的多元规制视角切入[J].现代法治研究,2020(1):70-82. 被引量：1
2陈里可,阮树骅,陈兴蜀,王海舟.社交媒体机器人账号智能检测研究[J].信息网络安全,2019(9):96-100. 被引量：1
3杨慧芸.隐形操纵与数据污染:社交媒体中的机器人水军[J].新闻知识,2020(1):3-10. 被引量：8
4伍静,詹千熠,刘渊.一种结合文本情感分析的微博僵尸粉识别模型[J].计算机工程,2020,46(6):288-295. 被引量：1
5秦梦莹,秦锋.基于类属特征和依赖标记的多标记分类算法[J].现代计算机,2020,26(35):13-20.
6韦茜,陈凤茹.认知、辨识、规训:构建人机共存的社交舆论场[J].新闻论坛,2021,35(4):25-27. 被引量：2
7卢林艳,李媛媛,卢功靖,刘熠,王成军.社交机器人驱动的计算宣传:社交机器人识别及其行为特征分析[J].中国传媒大学学报（自然科学版）,2021,28(2):35-43. 被引量：11
8张志勇,荆军昌,李斐,赵长伟.人工智能视角下的在线社交网络虚假信息检测、传播与控制研究综述[J].计算机学报,2021,44(11):2261-2282. 被引量：23
9张洪忠,斗维红,任吴炯.机器行为特征建构:传播学视野下社交机器人识别方法研究[J].苏州大学学报（哲学社会科学版）,2022,43(2):174-182. 被引量：7
10王乙朵,方伟.健康传播中的社交机器人:特征、影响与治理[J].中国传媒科技,2022(6):74-76. 被引量：1

1杨晓红.云计算的定义和体系结构以及应用分析[J].信息与电脑（理论版）,2012(11):46-47. 被引量：1
2董晓婷.大数据的定义特征及其应用分析[J].硅谷,2013,6(11):120-120. 被引量：33
3李莹,李雪安.智能代理及其在网络管理中的应用[J].计算机工程,2000,26(S1):401-405.
4郭群,万立,钟毅芳,周济.基于层次结构的特征及其在CAD/CAM中的应用[J].计算机工程,1997,23(6):68-70.
5刘海泉,张永强.一种基于粗糙集理论的特征选取方法[J].科技资讯,2007,5(28):204-206.
6刘露.细说电子垃圾[J].百科知识,2015,0(3):32-32.
7张玲,刘平净,何伟,林英撑,赖琴.一种快速高效的虹膜识别算法[J].光电子．激光,2009,20(11):1507-1510.
8徐菱,柴俭,王金诺.基于特征的几何造型中数据结构的研究[J].西南交通大学学报,1999,34(2):174-179. 被引量：1
9刘亮岐,尹立孟,张新平.电子垃圾问题面临的挑战与解决途径[J].材料导报,2008,22(9):1-3. 被引量：4
10廖忠民,崔斌.Pro/TOOLKIT中模型树的快速创建[J].机械,2004,31(5):46-47. 被引量：2

通信学报

2016年第8期

浏览历史

内容加载中请稍等...

新浪微博反垃圾中特征选择的重要性分析被引量：8

参考文献55

二级参考文献22

共引文献55

同被引文献55

引证文献8

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

新浪微博反垃圾中特征选择的重要性分析 被引量：8

参考文献55

二级参考文献22

共引文献55

同被引文献55

引证文献8

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

新浪微博反垃圾中特征选择的重要性分析被引量：8