基于支持向量机的中文极短文本分类模型被引量：29

Classification model based on support vector machine for Chinese extremely short text

下载PDF

导出

摘要为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。 In order to effectively extract the key features from the extremely short texts,this paper proposed an extremely short text classification model based on SVM.Firstly,by the data cleansing on the original data,the cleaned data was processed by the jieba segmentation and TF-IDF.Then the 1-0 test verified the validity of the model.Finally,9906 pieces of extremely short texts in Wuhu city community management platform were used as the sample in this experiment.The results show that the proposed method can effectively improve classification accuracy compared to other traditional methods,such as naive Bayes,logistic regression and decision tree.At the same time,the matching results in terms of misclassification and accuracy are more balanced.

作者王杨许闪闪李昌艾世成张卫东甄磊孟丹 Wang Yang;Xu Shanshan;Li Chang;Ai Shicheng;Zhang Weidong;Zhen Lei;Meng Dan(School of Information&Computer Science,Anhui Normal University,Wuhu Anhui 241000,China)

机构地区安徽师范大学计算机与信息学院

出处《计算机应用研究》 CSCD 北大核心 2020年第2期347-350,共4页 Application Research of Computers

基金国家自然科学基金资助项目(61871412) 安徽省自然科学基金资助项目(1808085MF178) 安徽省人文社科基金资助项目(SK2014ZD033,AHSKY2017D42).

关键词支持向量机 jieba分词极短文本分类 TF-IDF support vector machine(SVM) jieba segmentation extremely short text TF-ID

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1吴家菁,王杨,闫小敬,赵传信,陈付龙.基于Multi-agent理论的社会网络文体分类方法[J].计算机系统应用,2014,23(11):122-126. 被引量：1
2池云仙,赵书良,罗燕,高琳,赵骏鹏,李超.基于词频统计规律的文本数据预处理方法[J].计算机科学,2017,44(10):276-282. 被引量：11
3杨思春,戴新宇,陈家骏.面向开放域问答的问题分类技术研究进展[J].电子学报,2015,43(8):1627-1636. 被引量：7
4刘志康.一种改进的混合核函数支持向量机文本分类方法[J].工业控制计算机,2016,29(6):113-114. 被引量：4
5李村合,马敏敏.增量支持向量机核函数的优化[J].计算机系统应用,2017,26(8):284-287. 被引量：4
6易顺明,易昊,周国栋.采用情感特征向量的Twitter情感分类方法研究[J].小型微型计算机系统,2016,37(11):2454-2458. 被引量：6
7任迪,万健,殷昱煜,周丽,高敏.基于贝叶斯分类的Web服务质量预测方法研究[J].浙江大学学报（工学版）,2017,51(6):1242-1251. 被引量：10
8魏芳芳,段青玲,肖晓琰,张磊.基于支持向量机的中文农业文本分类技术研究[J].农业机械学报,2015,46(S1):174-179. 被引量：28

二级参考文献99

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
3余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
4文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
5孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41
6徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
7高明霞,刘椿年.基于约束的自然语言问题到OWL的语义映射方法研究[J].电子学报,2007,35(8):1598-1602. 被引量：7
8姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：77
9崔斌社会网络”综述-CCF YOCSEF学术报告会.中国计算机学会通 iR,2011,7(10):74-75.
10Mithehell T. Machine Learning. New York: McGraw-Hill,1997.

共引文献59

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：9
2李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
3吕春.统计规律性的计算机模拟演示[J].工科物理,2000,10(4):46-51.
4TAN Hongye,ZHAO Honghong,LI Ru,LIU Bei.A Pipeline Approach to Free-Description Question Answering in Chinese Gaokao Reading Comprehension[J].Chinese Journal of Electronics,2019,28(1):113-119. 被引量：3
5段青玲,魏芳芳,张磊,肖晓琰.基于Web数据的农业网络信息自动采集与分类系统[J].农业工程学报,2016,32(12):172-178. 被引量：34
6郭培源,刘艳芳,邢素霞,王昕琨.基于支持向量机及粒子群算法的腊肉品质等级检测[J].肉类研究,2017,31(3):30-34. 被引量：2
7张芳芳,马敬东,王小贤,卢乃吉,夏晨曦.面向深度自动问答的糖尿病饮食问题分类[J].医学信息学杂志,2017,38(3):12-16. 被引量：2
8张亚军,刘宗田,周文.基于深度信念网络的事件识别[J].电子学报,2017,45(6):1415-1423. 被引量：12
9董放,刘宇飞,周源.基于LDA-SVM论文摘要多分类新兴技术预测[J].情报杂志,2017,36(7):40-45. 被引量：32
10段青玲,肖晓琰,刘怡然,张璐.基于SW-SVR的畜禽养殖物联网异常数据实时检测方法[J].农业机械学报,2017,48(8):159-165. 被引量：14

同被引文献315

1杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：20
2毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4王欣爽,白莽.从基础研究的分类谈我国基础研究的战略问题[J].哈尔滨工业大学学报（社会科学版）,1999,1(1):37-39. 被引量：8
5关迎晖,向勇,陈康.基于Gephi的可视分析方法研究与应用[J].电信科学,2013,29(S1):112-119. 被引量：42
6周光召.基础研究与国家目标——国家重点基础研究发展计划[J].中国基础科学,2005,7(2):3-7. 被引量：1
7周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
8刁晏斌.当代汉语中新的“名_1+名_2”形式——名词陈述化的一种新形式[J].语言与翻译,2005(4):23-27. 被引量：10
9白妙青,郑家恒.利用支持向量机实现动词-动词搭配的自动标注[J].计算机工程与应用,2005,41(35):164-166. 被引量：4
10曾一,冉忠,郭永林.试题库中自动组卷的算法及试卷测评策略[J].计算机工程与设计,2006,27(16):3024-3027. 被引量：40

引证文献29

1牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：19
2王鑫芸,王昊,邓三鸿,张宝隆.面向期刊选择的学术论文内容分类研究[J].数据分析与知识发现,2020,4(7):96-109. 被引量：10
3吴蕊,孔前进,王世勋,孙东山,翟怡星.双模态Logistic Regression及其应用[J].计算机应用与软件,2020,37(12):244-248. 被引量：1
4杨春霞,吴佳君,李欣栩.融合实体信息的循环神经网络文本分类模型[J].小型微型计算机系统,2020,41(12):2516-2521. 被引量：6
5陆春阳,郭天驹,李晓溪.基于大数据的事故舆情分析系统研究[J].电力大数据,2021,24(1):70-78. 被引量：2
6况书梅,王莉莉.基于向量空模型的数字图书信息分类系统设计[J].现代电子技术,2021,44(10):110-114. 被引量：2
7彭云建,欧善国,梁进.在线气象科普知识竞赛试题的自动组卷方法[J].计算机技术与发展,2021,31(5):209-214. 被引量：4
8李昌兵,段祺俊,纪聪辉,张婷婷.融合卡方统计和TF-IWF算法的特征提取和短文本分类方法[J].重庆理工大学学报（自然科学）,2021,35(5):135-140. 被引量：12
9李颜瑞.基于PCA和SVM的陶瓷零件研磨后的正废品识别[J].信息记录材料,2021,22(5):8-10. 被引量：1
10赵萌.基于增量学习的图书文本分类方法[J].情报探索,2021(7):52-56. 被引量：3

二级引证文献84

1章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：2
2李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622.
3冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：6
4李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：3
5魏姮清.基于机器学习的政务微博评论情感分类研究[J].现代商贸工业,2020,41(11):161-162.
6卢俊宇,周翔翔.基于词嵌入的短文本扩展分类方法[J].指挥信息系统与技术,2020,11(4):70-73. 被引量：3
7李灿,田秀霞,赵波.BiLSTM_DPCNN模型在电力客服工单数据分类中的应用[J].计算机系统应用,2021,30(2):243-249. 被引量：9
8方子卿,陈一飞.基于BERT的短文本相似度判别模型[J].电脑知识与技术,2021,17(5):14-18. 被引量：4
9王维,胡慧君,刘茂福.基于逆类别注意力机制的电商文本分类[J].计算机系统应用,2021,30(5):247-252.
10王文松,孙祥娥.基于AM⁃CNN算法下多特征融合实现文本分析[J].现代电子技术,2021,44(13):65-70. 被引量：4

1徐旭东,刘鑫.基于深度学习的服饰属性标签识别技术[J].计算机科学与应用,2020,10(4):619-628. 被引量：1

计算机应用研究

2020年第2期

浏览历史

内容加载中请稍等...

基于支持向量机的中文极短文本分类模型被引量：29

参考文献8

二级参考文献99

共引文献59

同被引文献315

引证文献29

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的中文极短文本分类模型 被引量：29

参考文献8

二级参考文献99

共引文献59

同被引文献315

引证文献29

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的中文极短文本分类模型被引量：29