基于主动学习的SVM评论内容分类算法的研究被引量：6

Research on SVM Review Content Classification Algorithm Based on Active Learning

下载PDF

导出

摘要随着信息时代的到来,互联网平台上的文本数据开始爆发式增长,其中难免夹杂着一些不法数据。这些数据往往隐藏在海量数据中,因此给平台检索这些不法数据增加了难度。在这种情况下再用传统的文本分类方法已经不能满足需求了。因此论文根据文本数据的特点提出了基于主动学习的SVM评论内容分类方法,该方法使用主动学习的思想将敏感词向量、k-means聚类算法和SVM分类算法结合在一起,在使用更少训练集的基础上提高文本分类的准确率。实验结果表明,使用论文提出的方法对文本进行分类,在分类时间和结果准确率方面上都得到了一定程度的提高。 With the advent of the information age,text data on the Internet platform has begun to explode,which is inevitably mixed with some illegal data.These data are often hidden in massive data,so it is more difficult for the platform to retrieve these illegal data.In this paper the traditional text classification method can no longer meet the needs.Therefore,this paper proposes an active learning-based SVM review content classification method based on the characteristics of text data.This method uses the idea of active learning to classify the k-means clustering algorithm and SVM.The algorithms are combined to improve the accuracy of text classification on the basis of using fewer training sets.Experimental results show that using the method proposed in this paper to classify text has achieved a certain degree of classification time and result accuracy.

作者段友祥张晓天 DUAN Youxiang;ZHANG Xiaotian(School of Computer Science and Technology,China University of Petroleum(East China),Qingdao 266580)

机构地区中国石油大学(华东)计算机科学与技术学院

出处《计算机与数字工程》 2022年第3期608-612,共5页 Computer & Digital Engineering

关键词文本分类主动学习 K-MEANS SVM 敏感词向量 text classification active learning k-means SVM sensitive word vector

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1赵婧,邵雄凯,刘建舟,王春枝.文本分类中一种特征选择方法研究[J].计算机应用研究,2019,36(8):2261-2265. 被引量：10
2姜鹤,陈丽亚.SVM文本分类中一种新的特征提取方法[J].计算机技术与发展,2010,20(3):17-19. 被引量：16
3成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
4汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：38
5王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
6郑腾,吴雨川.LDA特征扩展的多类SVM短文本分类方法研究[J].武汉纺织大学学报,2019,32(2):72-76. 被引量：5
7李琼,陈利.一种改进的支持向量机文本分类方法[J].计算机技术与发展,2015,25(5):78-82. 被引量：22
8唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：144
9张谦,高章敏,刘嘉勇.基于Word2vec的微博短文本分类研究[J].信息网络安全,2017(1):57-62. 被引量：53
10王新建,罗光春,秦科,陈爱国,赖云一.一种基于SVM和主动学习的图像检索方法[J].计算机应用研究,2016,33(12):3836-3838. 被引量：6

二级参考文献140

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2J.Alamelu Mangai,V.Santhosh Kumar,S.Appavu alias Balamurugan.A Novel Feature Selection Framework for Automatic Web Page Classification[J].International Journal of Automation and computing,2012,9(4):442-448. 被引量：3
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
5胡金有,张健,游龙勇.我国农业信息网站现状分析[J].农机化研究,2005,27(6):38-40. 被引量：18
6熊金辉,张海雷,余波,金成珠.中文农业信息资源整合平台的设计与实现[J].中国农学通报,2005,21(12):407-410. 被引量：7
7樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
8任纪生,王作英.基于特征有序对量化表示的文本分类方法[J].清华大学学报（自然科学版）,2006,46(4):527-529. 被引量：4
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
10刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18

共引文献370

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2
3齐浩翔,马莉媛,朱翌民.基于Word2Vec的疫情虚假信息检测方法[J].智能计算机与应用,2021,11(10):134-138. 被引量：3
4李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
5Shengxiang Zhang,Chao Shi,Xin Jiang,Ying Zhang,Lu Zhang.Analysis of the trend of global power sources based on comment emotion mining[J].Global Energy Interconnection,2020,3(3):283-291. 被引量：3
6郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
7范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
8韩佳良.浅谈综合调度与成本控制[J].城镇供水,2000(2):21-23.
9刘文,吴陈.一种新的中文文本分类算法——One Class SVM-KNN算法[J].计算机技术与发展,2012,22(5):83-86. 被引量：4
10兰远东,邓辉舫.基于Kullback-Leibler与PCA的概率密度比值估计[J].计算机技术与发展,2012,22(6):107-110.

同被引文献53

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
2张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现,2019,3(12):1-9. 被引量：23
3王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
4徐信喆.基于模糊K线序列比对的股市技术分析模型[J].计算机应用与软件,2010,27(9):28-32. 被引量：3
5曹雁,牟爱鹏.科技期刊英文摘要学术词汇的语步特点研究[J].外语学刊,2011(3):46-49. 被引量：17
6刘健,赵刚,郑运鹏.恶意URL多层过滤检测模型的设计与实现[J].信息网络安全,2016(1):75-80. 被引量：10
7沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
8王岩,张波,薛博.基于FOA-SVM的中文文本分类方法研究[J].四川大学学报（自然科学版）,2016,53(4):759-763. 被引量：9
9汪鑫,武杨,卢志刚.基于威胁情报平台的恶意URL检测研究[J].计算机科学,2018,45(3):124-130. 被引量：10
10贾宏云,群诺,苏慧婧,次仁罗增,巴桑卓玛.基于SVM藏文文本分类的研究与实现[J].电子技术与软件工程,2018(9):144-146. 被引量：12

引证文献6

1董英辉.基于数据挖掘的体育运动即时数据自动化采集系统设计[J].自动化与仪器仪表,2022(10):155-160. 被引量：1
2徐婷,郭春,申国伟,周雪梅.基于网络通信行为特征的间谍软件检测方法[J].计算机与数字工程,2022,50(10):2246-2251.
3张永刚,吕鹏飞,张悦,姚兴博,冯艳丽.基于Stacking集成学习的恶意URL检测系统设计与实现[J].现代电子技术,2023,46(10):105-109. 被引量：2
4刘蕾,田鑫宇,朱大洲.基于SSA-SVM的营养健康信息文本分类研究[J].计算机时代,2023(6):82-86.
5曹宇,鲁明旭.基于动态调参KNN分类算法的股票涨跌预测模型分析[J].微型电脑应用,2024,40(4):1-4.
6毛进,陈子洋.基于深度主动学习的科技文献摘要结构功能识别研究[J].数据分析与知识发现,2024,8(6):44-55.

二级引证文献3

1盛蒙蒙,史建晖,沈立峰.基于CBA算法的恶意URL检测[J].数字技术与应用,2023,41(10):9-13. 被引量：1
2冯美琪,李赟,蒋冰,王立松,刘春波,陈伟.基于Boosting集成学习的风险URL检测研究[J].网络安全与数据治理,2024,43(7):32-40.
3马宪敏,崔元全,李放.基于可穿戴式纳米生物传感器的人体运动数据挖掘算法[J].智能计算机与应用,2024,14(8):220-224.

1王喆.基于K-means聚类算法的章程文本数据安全智能检验分析系统设计[J].自动化与仪器仪表,2022(3):96-100. 被引量：5
2钟桂凤,庞雄文,隋栋.基于Word2Vec和改进注意力机制AlexNet-2的文本分类方法[J].计算机科学,2022,49(4):288-293. 被引量：12
3王玉承,李亚,王海瑞,肖杨.基于CEEMDAN-SVM和时域特征的滚动轴承故障诊断方法研究[J].化工自动化及仪表,2022,49(2):175-181. 被引量：2
4陈滔,张庆国,刘澳.基于灰度共生矩阵的图形纹理检测及焊接缺陷的SVM分类实现[J].洛阳理工学院学报（自然科学版）,2022,32(1):53-61. 被引量：8
5苏志刚,王雪萌.基于双层特征选择的空中目标分类算法研究[J].激光与光电子学进展,2022,59(2):235-243. 被引量：1
6申艳光,贾耀清,生龙,范永健.结合GCN和注意力机制的文本分类方法研究[J].计算机仿真,2021,38(12):415-419. 被引量：1
7孙金晓.基于教育大数据的学生学习行为分析与预测[J].电子技术与软件工程,2022(3):247-250. 被引量：4
8杨艳红,钟宝江,田宏伟.DS-YOLOv4-tiny救援机器人目标检测模型[J].计算机仿真,2022,39(1):387-393. 被引量：11
9朱海浩,祝永新,汪辉.基于深度置信网络的多变量时间序列分类方法[J].计算机仿真,2021,38(12):262-266. 被引量：1
10薛丁文,李建中.基于KD树的k-means聚类算法优化[J].智能计算机与应用,2021,11(11):194-197. 被引量：6

计算机与数字工程

2022年第3期

浏览历史

内容加载中请稍等...

基于主动学习的SVM评论内容分类算法的研究被引量：6

参考文献13

二级参考文献140

共引文献370

同被引文献53

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于主动学习的SVM评论内容分类算法的研究 被引量：6

参考文献13

二级参考文献140

共引文献370

同被引文献53

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于主动学习的SVM评论内容分类算法的研究被引量：6