基于SVM算法的微博用户识别和分类研究

Research on MicroBlog User Recognition and Classification Based on SVM Algorithm

下载PDF

导出

摘要基于广受欢迎的微博平台,利用新浪微博提供的API接口及网络爬虫技术从微博中提取用户数据,通过支持向量机算法(SVM)将微博用户分为水军用户和非水军用户两类。再利用改进的支持向量机算法(SVM)从大量的用户数据中提取特征值,实现多分类支持向量机模型,将用户分为正常用户、炒作型水军、营销型水军、谣言型水军四类。研究结果表明,构建的模型可以较为准确地识别出用户的类型,识别误差率较低。 Based on the popular MicroBlog platform,the user data is extracted from MicroBlog by using the API interface provided by Sina MicroBlog and Web crawler technology,and the MicroBlog users are divided into two categories of water army users and non water army users by support vector machine (SVM) algorithm.Then the improved support vector machine (SVM) algorithm is used to extract feature values from a large number of user data to realize a multi classification support vector machine model.Users are divided into four categories:normal users,hyped water army,marketing water army and rumor water army.The study results show that the constructed model can accurately identify the types of users,and the recognition error rate is low.

作者李新焕黄伟力 LI Xinhuan;HUANG Weili(Jiangxi Engineering Vocational College of Jiangxi Open University,Nanchang 330046,China)

机构地区江西开放大学江西工程职业学院

出处《现代信息科技》 2022年第16期107-109,共3页 Modern Information Technology

基金江西省教育厅科技项目(GJJ205702)。

关键词新浪微博特征提取网络爬虫支持向量机算法识别误差率 Sina MicroBlog feature extraction Web crawler SVM algorithm recognition error rate

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1方明,方意.一种新型智能僵尸粉甄别方法[J].计算机工程,2013,39(4):190-193. 被引量：11
2王淑琪,王未央.基于支持向量机的微博水军账号识别[J].现代计算机,2018,24(6):27-31. 被引量：3
3程晓涛,刘彩霞,刘树新.基于关系图特征的微博水军发现方法[J].自动化学报,2015,41(9):1533-1541. 被引量：25
4韩忠明,许峰敏,段大高.面向微博的概率图水军识别模型[J].计算机研究与发展,2013,50(S2):180-186. 被引量：10
5张扬,范岩,夏玲玲,陈俊安,王沁.微博用户信息采集分析系统设计与实现[J].软件导刊,2019,18(9):125-129. 被引量：2
6李新焕,陈婧,王兰花,赵应丁.社交网络数据提取方法研究与实现[J].网络安全技术与应用,2017(4):104-106. 被引量：1
7申莹,刘春阳,赵永翼.基于SVM算法的微博评论数据情感分析[J].数字通信世界,2020(1):111-111. 被引量：3
8谢忠红,张琳,孔佳玮.基于内容和支撑向量基算法的微博用户识别和分类[J].金陵科技学院学报,2017,33(2):9-12. 被引量：3

二级参考文献76

1郑智斌,邓兰花.网络个人信源及其可信度分析[J].情报理论与实践,2008,31(6):857-859. 被引量：8
2韩忠明,许峰敏,段大高.面向微博的概率图水军识别模型[J].计算机研究与发展,2013,50(S2):180-186. 被引量：10
3周树德,孙增圻.分布估计算法综述[J].自动化学报,2007,33(2):113-124. 被引量：209
4WenE,SunV新浪微博研究报告[EB/OL].[2011-05-20].http://www.techweb.corn.cn.data/2011-02-25/916941.shtml.
5Zi Chu, Gianvecchio S, Wang Haining, et al. Detecting Automation of Twitter Accounts: Are You a Human, Bot, or Cyborg?[J]. Dependable and Secure Computing, 2010, 9(6): 811-824.
6Charles-Antoine J, John E, France B. Controlled User Evaluations of Information Visualization Interfaces for Text Retrieval: Literature Review and Meta-analysis[J]. Journal of the American Society for Information Science and Technology, 2008, 59(6): 1012-1024.
7Haruechaivasak C J, Wittawat S. Implementing News Article Category Browsing Based on Text Categorization Technique[C]//Proc. of IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Washington D. C., USA: Is. n.], 2008: 143-146.
8Jang N, Peter S, Michal H. Conditional Mutual Information Based Feature Task[C]//Proc. of CIARP'07 Verlag, 2007: 417-426. Selection for Classification Berlin, Germany: Springer-.
9Mishra S, Bhende C N, Panigrahi B K. Detection and Classification of Power Quality Disturbances Using S-transform and Probabilistic Neural Network[J]. Power Delivery, 2008, 23(1): 280-287.
10Abdeslam D O, Wira P, Merckle J, et al. A Unified Artificial Neural Network Architecture for Active Power Filters[J]. Industrial Electronics, 2007, 54(1): 61-76.

共引文献42

1罗云松,黄慕宇,贾韬.重采样在微博机器人识别中的应用研究[J].中文信息学报,2021,35(12):133-148. 被引量：1
2张锡英,车鑫,田宪允.一种基于微博用户行为的僵尸粉识别方法[J].黑龙江大学自然科学学报,2014,31(2):250-254. 被引量：7
3王百齐,张利文,陈曦.影响企业微博营销效果因素分析[J].中国市场,2014(17):19-20.
4刘宇,梁循,杨小平.基于Petri网的微博网络信息传播模型[J].中国管理科学,2018,26(12):158-167. 被引量：9
5徐建民,粟武林,吴树芳,武晓波.基于逻辑回归的微博用户可信度建模[J].计算机工程与设计,2015,36(3):772-777. 被引量：8
6张进,刘琰,罗军勇,董雨辰.基于特征分析的微博炒作账户识别方法[J].计算机工程,2015,41(4):48-54. 被引量：3
7陶永才,王晓慧,石磊,卫琳,曹仰杰.基于用户粉丝聚类现象的微博僵尸用户检测[J].小型微型计算机系统,2015,36(5):1007-1011. 被引量：8
8陈侃,陈亮,朱培栋,熊岳山.基于交互行为的在线社会网络水军检测方法[J].通信学报,2015,36(7):120-128. 被引量：19
9程晓涛,刘彩霞,刘树新.基于关系图特征的微博水军发现方法[J].自动化学报,2015,41(9):1533-1541. 被引量：25
10刘亚尚,陈波,朱汉,于泠.微博僵尸粉演化特征实证研究[J].情报探索,2015(12):1-9. 被引量：3

1赵小凡,杜舒明.基于电力大数据的变电设备故障诊断方法研究[J].信息技术,2022,46(9):163-168. 被引量：2
2知冷知热[J].传奇天下（职教新航线）,2022(9):3-3.
3宁新丽,孙圆.基于豆瓣网短评的网络水军识别[J].统计与咨询,2022(3):6-9. 被引量：3

现代信息科技

2022年第16期

浏览历史

内容加载中请稍等...

基于SVM算法的微博用户识别和分类研究

参考文献8

二级参考文献76

共引文献42

相关作者

相关机构

相关主题

浏览历史