期刊文献+

常见中文社交平台中网络欺凌语言的检测分析 被引量:1

Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms
下载PDF
导出
摘要 当今中文社交平台中网络欺凌语言十分盛行,而传统的平台管理员人工审核的方式已无法有效地对其进行检测与分析.为解决这一难题,首先,我们提取了十几个典型的中文社交平台中的部分样本进行人工标注,构建了一个训练数据集.然后,我们分别使用朴素贝叶斯、支持向量机、长短期记忆神经网络构建分类模型,对未标注的数据进行分类识别处理.实验表明:选取的分类模型均能有效地识别出网络欺凌语言,其准确率分别是0.87,0.79,0.88.其中长短期记忆神经网络综合效果最佳.由此得出的结论为:借助大数据手段建立的分类模型,能快速地检测出社交平台上的原始数据中网络欺凌语言的存在.最后,我们对含有网络欺凌语言的评论与用户等级、发表时间等属性上的相关性做了分析,并拟合出高斯分布模型. In order to effectively detect the cyberbullying language on Chinese social platforms,a dozen typical Chinese social platforms are selected,and some samples are extracted from them for manual annotation to construct a training data set.On the basis of the training set,three types of classifiers,i.e.Naive Bayes,support vector machine and long-short-term memory neural network,are used to construct a classification model to classify and recognize unlabeled data.Experiments show that the above selected classifiers can effectively identify cyberbullying language with an accuracy rate of 0.87,0.79 and 0.88,respectively.Of the three classifiers,the long-short-term memory neural network has the best effect.It is concluded that the classification model established with the help of big data can quickly detect the original data on social platforms and detect the existence of cyberbullying language.Finally,this paper also analyzes the correlation between offensive comment language and user rank,publication time and other attributes,and fits a Gaussian distribution model.
作者 柳致远 范永胜 张万里 冯骥 李勇 黄靖 LIU Zhi-yuan;FAN Yong-sheng;ZHANG Wan-li;FENG Ji;LI Yong;HUANG Jing(School of Computer and Information Science, Chongqing Normal University, Chongqing 401331, China;State Grid Tianfu Electric Power Supply Company, Chengdu 610000,China)
出处 《西南师范大学学报(自然科学版)》 CAS 2021年第8期86-94,共9页 Journal of Southwest China Normal University(Natural Science Edition)
基金 国家自然科学基金——青年基金项目(62003065) 重庆师范大学(人才引进/博士启动)基金项目(17XCB008) 教育部人文社会科学研究项目(18XJC880002) 重庆市教育委员会科技项目(KJQN201800539).
关键词 自然语言处理 网络欺凌语言 文本分类 中文社交平台 大数据模型 natural language processing cyberbullying language text classification Chinese social platform big data model
  • 相关文献

参考文献13

二级参考文献96

  • 1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量:7
  • 2赵春霞,钱乐祥.遥感影像监督分类与非监督分类的比较[J].河南大学学报(自然科学版),2004,34(3):90-93. 被引量:86
  • 3女主播不雅外泄早疯传 当事人已不在单位[EB/OL].http://news.163.com/10/0928/10/6HLNCPM900014AEE.html.
  • 4[美]道格拉斯.越轨社会学概论[M].石家庄:河北人民出版社,1987.
  • 52006-2020年国家信息化发展战略[Z] ,2006-05-08.
  • 6宗成庆.统计机器翻译[M].2版.北京:清华大学出版社,2013.
  • 7维克托·迈尔-舍恩伯格,肯尼迪·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
  • 8Lazer D, Pentland A, Adamic L, et al.. Computational Social Science [J]. Science, 2009,323 (5915): 721-723.
  • 9Zhang Hui, Zhang Min, Li Haizhou, et al.. Fast translation rule matching for syntax-based statistical machine translation [C] // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2, Singapore, 2009: 1037-1045.
  • 10Hirschman L,Gaizauskas R.Natural language question answering: the view from here [J]. Natural Language Engineering, 2001,7 (4): 275-300.

共引文献446

同被引文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部