脏话文本语料库建设被引量：9

Building foul words text corpus

下载PDF

导出

摘要脏话作为一种非正规的语言现象,在网络评价中已经无处不在,对网络文明造成了影响。描述了脏话文本的特点、定义及其危害,并对网络脏话文本进行了研究与分析,设计了一个机器自动判别与少量人工标注相结合的脏话语料采集方法,借助海量的真实评价文本,构造了一个较大规模的高质量的脏话语料库,初步采集了6 000多句脏话语料。然后利用一元、二元和三元特征,通过SVM与最大熵分类器对脏话的自动分类进行了实验,结果表明,两种分类器的准确率和查全率都达到97%以上。 Being un-offical language, foul words are widespread in Web reviews, and have a bad impact on Web civilization. The hazards and characteristics of the foul words are analyzed and described. Focused on the research of Web foul words, this paper designs a method for foul words corpus collection, which is integration of the machine automatically and manually technology. Over 6000 sentences are collected from huge amounts of Web review into a Foul Words Corpus. An automatic identification foul words experiment is done, which based on SVM and Maximum Entropy. The results show that the recall and accuracy are both over 97%.

作者朱晓旭钱培德

机构地区苏州大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 2014年第11期126-129,共4页 Computer Engineering and Applications

关键词脏话文本语料库文本分类自动识别 foul words corpus text classification automatic identification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1袁纳宇.图书馆应用微博客的价值分析[J].图书与情报,2010(3):104-106. 被引量：72
2廖德明.脏话的性意识指向剖析[J].辽东学院学报（社会科学版）,2009,11(4):25-30. 被引量：9
3Pang B, Lee L, Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proc of the EMNLP 2002.Morristown: ACL, 2002: 79-86.
4Cui H, Mittal V O, Datar M.Comparative experiments on sentiment classification for online product reviews[C]//Proc of the AAAI 2006.Menlo Park:AAAI Press,2006: 1265-1270.
5Ng V,Dasgupta S,Arifin S linguistic knowledge sources M N.Examining the role of in the automatic identifica- tion and classification of reviews[C]//Proceedings of the COLING/ACLMain Conference Poster Sessions.Morris- town, NJ, USA: Association for Computational Linguis- tics, 2006 : 611-6 ! 8.
6Somasundaran S ,Wiebe J, Hoffmarm P, et al.Manual anno- tation of opinion categories in meetings[C]//Proceedings of the Workshop on Frontiers in Linguistically Annotated Corpora 2006.Sydney,Australia:Association for Computa- tional Linguistics, 2006.
7Wiebe J, Wilson .T, Cardie C.Annotating expressions of opinions and emotions in language[J].Language Resources and Evaluation, 2005,39 (2/3) : 164-210.
8百度百科坝占吧百科名片[EB/OL].[2012-07-15].http://baike.baidu.com/view/2185.htm.
9Tseng H, Chang P, Andrew G, et al.A conditional ran- dom field word segmenter for Sighan bakeoff 2005[C]// Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing, Jeju Island, Korea, 2005 ;168-171.
10Stolcke A.SRILM--an extensible language modeling tool- kit[C]//International Conference on Spoken Language Processing, Denver, Colorado, 2002.

二级参考文献15

1韦津利.脏话文化史[M].颜韵,译.上海:文汇出版社.2008:28.
2THOMAS L, WAREING S. Language, society and power: an introduction. London: Routledge. 1999:6 - 10.
3HUGHES G. Swearing: a social history of foul language: oaths and profanity in English, London: Penguin Books, 1998.
4FAIRCLOUGH N. Language and power. New York : Longman. 1989 : 4 - 5.
5林芳玫.走出“干”与“被干”的僵局--女性主义对色情媒介的争议[M].台北:女书文化,1999:163-165.
6MILLET. Sexual politics. London: Virago. 1970 : 34 - 35.
7MONTAGU A. The anatomy of swearing. Philadelphia : University of Pennsylvania Press. 2001 : 87.
8福柯.福柯集[M]∥杜小真.杜小真编选.上海:上海远东出版社,1998:293-295.
9奥巴马竞选总统也用微博客[EB/OL].[2010-03-12].http://cq.qq.com/M20090727/000825.htm.
10新浪将正式推出微博服务借鉴绞杀博客网经验[EB/OL].[2010-03-12].http://www.cnii.com.cn/20080623/ca580651.htm.

共引文献79

1关鑫.浅谈微博在高校图书馆中的应用[J].农业图书情报学刊,2011,23(5):113-115. 被引量：17
2肖娟.微博及其在我国图书馆应用现状分析——以新浪微博为调研基础[J].贵图学刊,2011(2):23-27. 被引量：18
3曹平.微博客的信息组织建设及对图书馆的启示[J].甘肃科技,2011,27(12):89-91. 被引量：5
4张艳丽.我国图书馆微博客研究综述[J].甘肃科技,2011,27(12):100-102. 被引量：8
5曹丽冰.浅析微博在图书馆读者服务工作中的作用[J].科技资讯,2011,9(21):250-250. 被引量：6
6付希金,张浩然,张博,宁梓煜.微博客在高校图书馆个性化服务中的应用[J].现代情报,2011,31(8):84-87. 被引量：24
7赵丽琴.校企合作背景下高职院校图书馆的特殊使命和发展策略[J].图书馆工作与研究,2011(10):54-56. 被引量：4
8于长福.微博在公共图书馆中的应用[J].图书馆学刊,2011,33(9):106-108. 被引量：7
9洪立辉.关于高校图书馆利用微博客开展服务的几点思考[J].科技信息,2011(26):375-375. 被引量：2
10李龙.微博在档案馆的应用探讨[J].上海档案,2011(10):15-17. 被引量：1

同被引文献101

1刘艳红.理念、逻辑与路径:网络暴力法治化治理研究[J].江淮论坛,2022(6):21-30. 被引量：30
2伍德志.网络社会道德的普泛化及其法律规制[J].法商研究,2023,40(4):72-86. 被引量：3
3李怀胜.信息秩序法益视野下网络公关犯罪的完善路径[J].当代法学,2022,36(3):127-139. 被引量：9
4刘俐李.新疆汉语方言的形戍[J].方言,1993(4):265-274. 被引量：39
5李宇明.反问句的构成及其理解[J].殷都学刊,1990,11(3):91-99. 被引量：50
6马彪.谈脏话在文学作品中的运用[J].求是学刊,1994,21(6):78-81. 被引量：5
7刘钦荣.反问句的句法、语义、语用分析[J].河南师范大学学报（哲学社会科学版）,2004,31(4):107-110. 被引量：16
8于天昱.现代汉语反问句的反诘度[J].内蒙古民族大学学报（社会科学版）,2006,32(4):102-104. 被引量：4
9李佳源,廖德明.“脏话”的多维度解构[J].乐山师范学院学报,2007,22(3):79-81. 被引量：14
10张发祥.“脏话”在特殊语境下的得体性[J].河南科技大学学报（社会科学版）,2007,25(5):65-67. 被引量：10

引证文献9

1徐天慈,房燕琦,邢赫伦,李佳玲.网络脏话成因分析及净化对策[J].中国标准化,2019(22):259-261. 被引量：2
2王文华.以新疆话为例看汉语脏话流行现象[J].粤海风,2017(3):87-91.
3徐勇.新媒体环境中脏话谐音现象的原因探究[J].东南传播,2019,0(8):114-116. 被引量：1
4李翔,朱晓旭,刘承伟.面向新闻评论的汉语反问句语料库构建[J].山西大学学报（自然科学版）,2021,44(3):403-410. 被引量：4
5刘思新,高珺,田一龙,魏韵郦,李旭睿,吴静.基于改进TFIDF-Logistic Regression微博暴力文本分类[J].吉林大学学报（信息科学版）,2021,39(6):751-757. 被引量：3
6刘玉文,翟菊叶,朱文婕,谢静.基于文本语义的热点事件网络暴力分析方法[J].计算机技术与发展,2022,32(7):208-215. 被引量：5
7谢静,刘玉文.基于LDA模型和卡方检验的网络暴力话题挖掘方法[J].西昌学院学报（自然科学版）,2022,36(4):97-103. 被引量：1
8刘玉文,张楚,黄锦泉,刘鹏,边智伟.社会热点事件中网络用户暴力行为画像研究[J].情报探索,2023(8):15-21.
9王立梅.“犯罪场”视阈下网络暴力行为阻断模式构建[J].政法论坛,2024,42(3):55-65.

二级引证文献14

1刘艳红.理念、逻辑与路径:网络暴力法治化治理研究[J].江淮论坛,2022(6):21-30. 被引量：30
2姜鑫,张思佳.面向水产领域疾病的语料库构建[J].现代畜牧科技,2021(11):38-39. 被引量：1
3张芙蓉.面向航空领域的技术与术语语料库构建[J].长沙航空职业技术学院学报,2021,21(4):33-37. 被引量：2
4汪钦宇,侯旭.大学生说脏话心理因素及相应引导措施研究[J].海外英语,2022(4):59-61.
5潘海霞,曹宁.基于动态可重用性结构化分区融合的大数据清洗规则链自动生成方法[J].自动化与仪器仪表,2022(9):58-61. 被引量：1
6白桢文,黄涛,秦小兵,吴健.基于改进FastText算法的整车检测质量问题判定[J].北京汽车,2022(5):27-32.
7戴均豪.基于Word2vec的铁路工程地质语料库构建与词嵌入[J].科技创新与应用,2022,12(35):89-92. 被引量：1
8刘玉文,张楚,黄锦泉,刘鹏,边智伟.社会热点事件中网络用户暴力行为画像研究[J].情报探索,2023(8):15-21.
9李翔,刘承伟,朱晓旭.融合情感分析的隐式反问句识别模型[J].中文信息学报,2023,37(7):114-121.
10王燃.论网络暴力的平台技术治理[J].法律科学（西北政法大学学报）,2024,42(2):121-134. 被引量：3

1清除脏话[J].意林（少年版）,2010(19):20-20.
2AmberK.原来，开始按钮可以更美的[J].计算机应用文摘,2013(25):27-27.
3HEINZE小记[J].数码时代,2010(1):81-81.
4脏话识别器[J].学苑创造（B版）,2010(9):34-34.
5候金星.纯手工攻击QQ[J].黑客防线,2006(8):27-27.
6本刊编辑部.影音电子热点不断技术瓶颈多头突破——放眼2012,看技术热点与热门词汇大碰撞[J].音响改装技术,2013(1):82-91.
7蒋葳.人为什么喜欢说脏话?[J].百科知识,2013(4):26-28. 被引量：1
8益阳.做一次网吧狙击手[J].家庭电脑世界,2004(11X):34-34.
9树皮皮.Vista其实没那么差[J].网络与信息,2009(3):73-73.
10董雪明,何懿才,马博禹,秦朝俊,杨海龙,刘静雅.加速度计整流误差校准方法[J].计量技术,2015,0(5):18-21. 被引量：2

计算机工程与应用

2014年第11期

浏览历史

内容加载中请稍等...

脏话文本语料库建设被引量：9

参考文献10

二级参考文献15

共引文献79

同被引文献101

引证文献9

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

脏话文本语料库建设 被引量：9

参考文献10

二级参考文献15

共引文献79

同被引文献101

引证文献9

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

脏话文本语料库建设被引量：9