期刊文献+

基于支持向量机的中文极短文本分类模型 被引量:29

Classification model based on support vector machine for Chinese extremely short text
下载PDF
导出
摘要 为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。 In order to effectively extract the key features from the extremely short texts,this paper proposed an extremely short text classification model based on SVM.Firstly,by the data cleansing on the original data,the cleaned data was processed by the jieba segmentation and TF-IDF.Then the 1-0 test verified the validity of the model.Finally,9906 pieces of extremely short texts in Wuhu city community management platform were used as the sample in this experiment.The results show that the proposed method can effectively improve classification accuracy compared to other traditional methods,such as naive Bayes,logistic regression and decision tree.At the same time,the matching results in terms of misclassification and accuracy are more balanced.
作者 王杨 许闪闪 李昌 艾世成 张卫东 甄磊 孟丹 Wang Yang;Xu Shanshan;Li Chang;Ai Shicheng;Zhang Weidong;Zhen Lei;Meng Dan(School of Information&Computer Science,Anhui Normal University,Wuhu Anhui 241000,China)
出处 《计算机应用研究》 CSCD 北大核心 2020年第2期347-350,共4页 Application Research of Computers
基金 国家自然科学基金资助项目(61871412) 安徽省自然科学基金资助项目(1808085MF178) 安徽省人文社科基金资助项目(SK2014ZD033,AHSKY2017D42).
关键词 支持向量机 jieba分词 极短文本分类 TF-IDF support vector machine(SVM) jieba segmentation extremely short text TF-ID
  • 相关文献

参考文献8

二级参考文献99

共引文献59

同被引文献315

引证文献29

二级引证文献84

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部