基于Doc2Vec与SVM的聊天内容过滤被引量：5

Chat Content Filtering Based on Doc2Vec and SVM

下载PDF

导出

摘要直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型. The real-time interception of user chat content in live broadcast system is of great significance.In order to improve the accuracy and efficiency of the classification,a text classification model based on the combination of Doc2Vec and SVM is proposed to classify the chat content and judge whether the chat content should be intercepted.The First part uses the Doc2Vec model to represent the chat content as a dense numeric vector,and then an SVM classifier is used to classify.The experimental results show that the model greatly reduces the dimension of text representation with high efficiency,and it has excellent accuracy rate（97%）and recall rate（89.82%）,which are superior to Naive Bayes and the logistic based on Doc2Vec.

作者岳文应 YUE Wen-Ying(School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)

机构地区浙江理工大学信息学院

出处《计算机系统应用》 2018年第7期127-132,共6页 Computer Systems & Applications

关键词文本分类自然语言处理 Doc2Vec模型支持向量机 text classification Natural Language Processing （NLP） Doc2Vec model Support Vector Machine （SVM）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1石霞军,林亚平,陈治平.基于最小风险的贝叶斯邮件过滤算法[J].计算机科学,2002,29(8):50-51. 被引量：10

二级参考文献10

1边肇祺张学工.模式识别，第二版[M].北京:清华大学出版社,1999.223-226.
2Sahami M, et al. A Bayesian Approach to Filtering E-Mail. http://robotics.stanford. edu/users/sahami/papers-dir/. spam. ps, 1998
3Sahami M. Using Machine Learning to Improve Information Ac cess: [PhD thesis].Stanford University, Dec. 1998.11～29,170～ 180
4Rennie J D M. ifile: An Application o[ Machine Learning to EMail Filtering.http://www. cs. cmu. edu/～ jr6b/papers/ifile98.ps,1998
5Cohen W W. Learning rules that classify E-Mail. In: Proc. of the AAAI SpringSymposium on Machine Learning in Information Access,1996
6Payne T. Learning Email Filtering Rules with Magi A Mail Agent Interface,MScThsis,University of Aberdeen,Scotland,1994
7Lewis D D. Feature Selection and Feature Extraction for Text Categorization.http://www. research. att. com/～ lewis/chrono- bib. html/lewis92e. ps, 1992
8Nigam K,et al. Using EM to Classify Text from Labeled and Un labeled Document.http://www-2. cs. emu. edu/pepole/mccallum/emcat-mlj2000. ps, 1998
9McCallum A,Nigam K. A Comparison of Event Model for Naive Bayes TextClassification. http://www-2. cs. cmu. edu/people/mccallum/multionmial-aaai98w. ps, 1998
10林亚平.概率分析进化算法及其研究进展[J].计算机研究与发展,2001,38(1):43-49. 被引量：27

共引文献9

1李闻天.基于贝叶斯过滤算法的反垃圾邮件策略[J].昆明理工大学学报（理工版）,2005,30(3):68-71. 被引量：5
2张健,陈拓,韩益亮,畅雄杰,李彩霞,潘峰.最小风险的Naive Bayes技术在反垃圾邮件系统中的应用[J].微电子学与计算机,2005,22(12):139-141. 被引量：3
3陈治平,王雷.基于自学习K近邻的垃圾邮件过滤算法[J].计算机应用,2005,25(B12):7-8. 被引量：15
4段宏斌,张健.改进的Naive Bayes技术在反垃圾邮件系统中的应用[J].西北大学学报（自然科学版）,2006,36(5):737-740. 被引量：6
5王毅,谢治华,梁国彪.基于知识积累方法的垃圾邮件过滤算法[J].科学技术与工程,2007,7(11):2556-2558.
6崔永君,张永花.单一表文件垃圾邮件过滤算法的研究与实现[J].计算机工程与设计,2009,30(5):1057-1059.
7张永花,崔永君.基于最小风险的单一表文件垃圾邮件过滤算法[J].兰州交通大学学报,2009,28(1):60-63. 被引量：1
8王美珍,李芝棠,吴汉涛.改进的贝叶斯垃圾邮件过滤算法[J].华中科技大学学报（自然科学版）,2009,37(8):27-30. 被引量：4
9梁满满,徐慧.基于改进的朴素贝叶斯恶意代码检测技术研究[J].企业技术开发（下半月）,2011(3):102-103.

同被引文献47

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3樊兴华,王鹏.基于两步策略的中文短文本分类研究[J].大连海事大学学报,2008,34(3):121-124. 被引量：7
4蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010,28(1):124-127. 被引量：3
5原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
6胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：37
7孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
8周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：86
9肖进,刘潇潇,谢玲,刘敦虎,黄静.代价敏感的目标客户选择半监督集成模型研究[J].中国管理科学,2018,26(11):186-196. 被引量：4
10刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：131

引证文献5

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2吴萍萍.基于信息熵加权的Word2vec中文文本分类研究[J].长春师范大学学报,2020,39(2):28-33. 被引量：1
3余本功,汲浩敏.基于多粒度建模的半监督文本分类方法研究[J].现代情报,2021,41(6):42-53. 被引量：3
4李咏豪,李伦波.朴素贝叶斯与Softmax回归在文本分类上的对比研究[J].电脑知识与技术,2021,17(28):131-132. 被引量：3
5梁家富,李家华.基于Doc2Vec和随机森林的外卖评价预测方法[J].微型电脑应用,2022,38(6):142-144. 被引量：1

二级引证文献18

1靳春妍,牟冬梅,王萍,邵琦,杨鑫禹.融入表情特征的网络舆情情感分析方法研究[J].科技情报研究,2020,2(4):13-22. 被引量：10
2徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛.基于双向长效注意力特征表达的少样本文本分类模型研究[J].数据分析与知识发现,2020,4(10):113-123. 被引量：2
3余本功,汲浩敏.基于多粒度建模的半监督文本分类方法研究[J].现代情报,2021,41(6):42-53. 被引量：3
4施国良,陈宇奇.文本增强与预训练语言模型在网络问政留言分类中的集成对比研究[J].图书情报工作,2021,65(13):96-107. 被引量：10
5吴龙涛,安军政,巩存阁,罗坤.基于GA-SVM的装备保障设备报废技术鉴定方法[J].火力与指挥控制,2021,46(9):51-55. 被引量：1
6李秀.复杂产品的关键质量特性识别[J].现代制造技术与装备,2022,58(1):218-221. 被引量：2
7李书彬,周安民.一种基于多维度图神经网络的短文本分类方法[J].现代计算机,2022,28(1):55-59. 被引量：1
8程雅倩,黄玮,金晓祥,贾佳.5G环境下高校图书馆自媒体平台多标签文本分类方法研究[J].情报科学,2022,40(2):155-161. 被引量：9
9黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75.
10朱亚军,次曲,拥措.基于SVM算法的藏文微博情感分析研究[J].计算机仿真,2022,39(8):226-229. 被引量：6

1缺失的陪伴[J].故事作文（低年级版）,2018,0(5):50-51.
2严彩红,喻格书,林建荣,宋世斌,曹中兵.临床本科生开展社区卫生实践教学的研究[J].时代教育,2018,0(9):66-67. 被引量：1
3贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：19
4李小红,韦艳.《贵州省旅游资源地图册》主题旅游地图内容表示和设计[J].建材与装饰,2018,14(17):122-123. 被引量：2
5王飞,谭新.一种基于Word2Vec的训练效果优化策略研究[J].计算机应用与软件,2018,35(1):97-102. 被引量：20
6高屹.有一种职业叫夕阳红[J].中国社会工作,2018,0(11):58-59.
7陈文品.对云南茶业发展几个战略性问题的理性思考[J].茶世界,2017,0(7):49-54. 被引量：2
8曹祺,赵伟,张英杰,赵树君,陈亮.基于Doc2Vec的专利文件相似度检测方法的对比研究[J].图书情报工作,2018,62(13):74-81. 被引量：15
9谭亮,周静.基于线性加权融合模式的图书资源推荐方法研究[J].吉林省教育学院学报,2018,34(5):183-186. 被引量：2
10刘瑞生,孙萍.海外社交媒体的内容过滤机制对我国互联网管理的启示[J].世界社会主义研究,2018,3(4):49-54. 被引量：10

计算机系统应用

2018年第7期

浏览历史

内容加载中请稍等...

基于Doc2Vec与SVM的聊天内容过滤被引量：5

参考文献1

二级参考文献10

共引文献9

同被引文献47

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Doc2Vec与SVM的聊天内容过滤 被引量：5

参考文献1

二级参考文献10

共引文献9

同被引文献47

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Doc2Vec与SVM的聊天内容过滤被引量：5