常见中文社交平台中网络欺凌语言的检测分析被引量：1

Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms

下载PDF

导出

摘要当今中文社交平台中网络欺凌语言十分盛行,而传统的平台管理员人工审核的方式已无法有效地对其进行检测与分析.为解决这一难题,首先,我们提取了十几个典型的中文社交平台中的部分样本进行人工标注,构建了一个训练数据集.然后,我们分别使用朴素贝叶斯、支持向量机、长短期记忆神经网络构建分类模型,对未标注的数据进行分类识别处理.实验表明:选取的分类模型均能有效地识别出网络欺凌语言,其准确率分别是0.87,0.79,0.88.其中长短期记忆神经网络综合效果最佳.由此得出的结论为:借助大数据手段建立的分类模型,能快速地检测出社交平台上的原始数据中网络欺凌语言的存在.最后,我们对含有网络欺凌语言的评论与用户等级、发表时间等属性上的相关性做了分析,并拟合出高斯分布模型. In order to effectively detect the cyberbullying language on Chinese social platforms,a dozen typical Chinese social platforms are selected,and some samples are extracted from them for manual annotation to construct a training data set.On the basis of the training set,three types of classifiers,i.e.Naive Bayes,support vector machine and long-short-term memory neural network,are used to construct a classification model to classify and recognize unlabeled data.Experiments show that the above selected classifiers can effectively identify cyberbullying language with an accuracy rate of 0.87,0.79 and 0.88,respectively.Of the three classifiers,the long-short-term memory neural network has the best effect.It is concluded that the classification model established with the help of big data can quickly detect the original data on social platforms and detect the existence of cyberbullying language.Finally,this paper also analyzes the correlation between offensive comment language and user rank,publication time and other attributes,and fits a Gaussian distribution model.

作者柳致远范永胜张万里冯骥李勇黄靖 LIU Zhi-yuan;FAN Yong-sheng;ZHANG Wan-li;FENG Ji;LI Yong;HUANG Jing(School of Computer and Information Science, Chongqing Normal University, Chongqing 401331, China;State Grid Tianfu Electric Power Supply Company, Chengdu 610000,China)

机构地区重庆师范大学计算机与信息科学学院国网四川电力公司天府新区供电公司

出处《西南师范大学学报（自然科学版）》 CAS 2021年第8期86-94,共9页 Journal of Southwest China Normal University(Natural Science Edition)

基金国家自然科学基金——青年基金项目(62003065) 重庆师范大学(人才引进/博士启动)基金项目(17XCB008) 教育部人文社会科学研究项目(18XJC880002) 重庆市教育委员会科技项目(KJQN201800539).

关键词自然语言处理网络欺凌语言文本分类中文社交平台大数据模型 natural language processing cyberbullying language text classification Chinese social platform big data model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1石国亮,徐子梁.网络欺凌的界定及其特点分析[J].中国青年研究,2010(12):4-8. 被引量：26
2刘文宇,李珂.基于批评性话语分析的网络语言暴力研究框架[J].东北师大学报（哲学社会科学版）,2017(1):119-124. 被引量：33
3朱嘉珺.大数据视野下的网络侵害防治——一次运用技术解构新型犯罪的探索[J].苏州大学学报（哲学社会科学版）,2019,40(6):69-76. 被引量：6
4俞梅容.互联网时代的网络语言暴力分析[J].传播与版权,2018(12):172-173. 被引量：3
5李生.自然语言处理的研究与发展[J].燕山大学学报,2013,37(5):377-384. 被引量：49
6赵雅欣,郑明洪,石林鑫,向菲,江金洋,尹心.面向电力审计领域的两阶段短文本分类方法研究[J].西南大学学报（自然科学版）,2020,42(10):1-7. 被引量：5
7龚静,李英杰,黄欣阳.基于统计词典和特征加强的多语言文本分类[J].西南师范大学学报（自然科学版）,2018,43(9):45-50. 被引量：3
8杨剑锋,乔佩蕊,李永梅,王宁.机器学习分类问题及算法研究综述[J].统计与决策,2019,35(6):36-40. 被引量：155
9洪巍,李敏.文本情感分析方法研究综述[J].计算机工程与科学,2019,41(4):750-757. 被引量：81
10李静梅,孙丽华,张巧荣,张春生.一种文本处理中的朴素贝叶斯分类器[J].哈尔滨工程大学学报,2003,24(1):71-74. 被引量：75

二级参考文献96

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2赵春霞,钱乐祥.遥感影像监督分类与非监督分类的比较[J].河南大学学报（自然科学版）,2004,34(3):90-93. 被引量：86
3女主播不雅外泄早疯传当事人已不在单位[EB/OL].http://news.163.com/10/0928/10/6HLNCPM900014AEE.html.
4[美]道格拉斯.越轨社会学概论[M].石家庄:河北人民出版社,1987.
52006-2020年国家信息化发展战略[Z] ,2006-05-08.
6宗成庆.统计机器翻译[M].2版.北京:清华大学出版社,2013.
7维克托·迈尔-舍恩伯格,肯尼迪·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
8Lazer D, Pentland A, Adamic L, et al.. Computational Social Science [J]. Science, 2009,323 (5915): 721-723.
9Zhang Hui, Zhang Min, Li Haizhou, et al.. Fast translation rule matching for syntax-based statistical machine translation [C] // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2, Singapore, 2009: 1037-1045.
10Hirschman L,Gaizauskas R.Natural language question answering: the view from here [J]. Natural Language Engineering, 2001,7 (4): 275-300.

共引文献446

1谭文侃,胡南燕,叶义成,吴孟龙,黄兆云,王先华.基于四大集成学习的岩爆烈度分级预测[J].岩石力学与工程学报,2022,41(S02):3250-3259. 被引量：5
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3殷成竹.评价理论视角下互联网领域参与者对语言管理的态度研究——对哔哩哔哩网某“小黑屋”案例的分析[J].语言政策与语言教育,2021(1):57-69.
4彭凡会.美食类短视频弹幕中用户情感体验分析——基于B站美食短视频账号“绵羊料理”的文本分析[J].新媒体研究,2023,9(6):28-32. 被引量：2
5郑杏冉,黄卫东.网民心理视角下突发公共事件情感主题研究[J].知识管理论坛,2024(1):93-107.
6杨倩,刁雅静,李家明,葛世伦.基于弹幕的参与式网站用户交互体验研究[J].知识管理论坛,2022(4):417-430. 被引量：1
7竭婧,林雪婧.网络欺凌的产生、扩散和消退机制[J].社区心理学研究,2022(2):257-276. 被引量：1
8江进德,张玉可.皖北乡村旅游的情感特征及其影响因素分析[J].商丘师范学院学报,2023,39(6):64-69.
9宁彦锋.青少年学生网络欺凌的特点、成因与防治[J].上海教育科研,2021(5):58-63. 被引量：14
10单晓颖.网络欺凌对青少年的侵害及其防范机制建设[J].青少年学刊,2020(2):39-41.

同被引文献7

1祁小军,兰海翔,卢涵宇,丁蕾锭,薛安琪.贝叶斯、KNN和SVM算法在新闻文本分类中的对比研究[J].电脑知识与技术,2019,15(9):220-222. 被引量：10
2张超超,卢新明.基于FastText的新闻文本多分类研究[J].软件导刊,2020,19(3):44-47. 被引量：5
3王彬,司杨涛,付军涛.基于改进的TF-IDF和贝叶斯算法的新闻分类[J].科技风,2020(31):9-10. 被引量：5
4宋英华,吕龙,刘丹.基于组合深度学习模型的突发事件新闻识别与分类研究[J].情报学报,2021,40(2):145-151. 被引量：13
5付静,龚永罡,廉小亲,顾龙浩.基于BERT-LDA的新闻短文本分类方法[J].信息技术与信息化,2021(2):127-129. 被引量：11
6王钟浩,崔珂玮,张鑫,杨振中,刘帅.基于fastText的地震信息文本分类方法[J].现代信息科技,2021,5(3):5-8. 被引量：1
7李明哲.基于Tor网站文本内容和特征的分类方法[J].网络安全技术与应用,2021(8):36-39. 被引量：3

引证文献1

1徐炜桢.贝叶斯、RidgeClassifier和fastText算法在匿名新闻文本分类中的对比研究[J].软件,2021,42(10):174-177.

1张岑芳.基于主动学习的命名实体识别算法[J].计算机与现代化,2021(7):18-22. 被引量：2
2杨琳,徐慧英,马文龙.基于边界条件GAN的不平衡大数据模糊分类[J].西南师范大学学报（自然科学版）,2021,46(7):97-102. 被引量：3
3侯云飞,李谊澄,邹宗毓,周子君.基于机器学习的药品知识库构建研究[J].中华医院管理杂志,2021,37(3):232-236.
4张军,王元.基于决策树算法的Web网站攻击检测方法[J].信息与电脑,2021,33(9):77-79. 被引量：2
5彭明杰,唐万梅,皮家甜,于昕,吴至友,黄芳婷.改进的基于端到端学习的蜻蜓目昆虫识别算法[J].重庆师范大学学报（自然科学版）,2021,38(3):94-99. 被引量：2

西南师范大学学报（自然科学版）

2021年第8期

浏览历史

内容加载中请稍等...

常见中文社交平台中网络欺凌语言的检测分析被引量：1

参考文献13

二级参考文献96

共引文献446

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

常见中文社交平台中网络欺凌语言的检测分析 被引量：1

参考文献13

二级参考文献96

共引文献446

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

常见中文社交平台中网络欺凌语言的检测分析被引量：1