基于不同分词模式的文本分类研究被引量：5

Text Classification Based on Different Word Segmentation

导出

摘要主要研究不同的分词模式对文本分类结果的影响，采用两种传统的文本表示方法：LDA和LSA，采用两种分类方法：支持向量机和逻辑回归，一共四组不同的实验来比较分析．实验结果表明相对于传统的分词方法来说，第二种搜索引擎式的分词方法通过拆分、添加组合词对分类结果更有效．具体来说，对两种分词采用LDA得到文本表示后，模式二的分类准确率最高95．38％，模式一为93．7％．在对两种分词采用LSA得到文本表示后，模式二的分类准确率最高为96．44％，模式一最高为95．2％． In this paper, we mainly study the difference between the different word segmentation in text classification, we use two kinds of traditional text representation methods： LDA and LSA,and using two kinds of classification methods： support vector machine and logistic regression, four different experiments for each word segmentation. The experimental results show that compared with the traditional word segmentation methods, the second search engine word segmentation methods are more effective in the classification results by splitting and adding the combination words. Specifically, two kinds of word segmentation using LDA to represent text, the second word segmentation get highest 95.38%, and the first is 93.7%. After the two kinds of word segmentation using LSA to obtain text representation, the classification accuracy of pattern two is 96.44%, and the pattern one is 95.2%.

作者孔希希廖述魁程兵

机构地区中国科学院大学数学与系统科学研究院

出处《数学的实践与认识》北大核心 2018年第1期116-123,共8页 Mathematics in Practice and Theory

基金中国科学院随机复杂结构与数据科学重点实验室开放基金资助国家自然科学基金重大研究计划培育项目“管理决策大数据分析方法与关键技术”(91546102)

关键词文本分类 LDA LSA 支持向量机逻辑回归 text classification LDA LSA SVM logistic regression

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献43

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：3
2熊小梅,刘永浪.基于LSA的二次降维法在中文法律案情文本分类中的应用[J].电子测量技术,2007,30(10):111-114. 被引量：8
3何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报（理学版）,2010,42(1):82-85. 被引量：27
4赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：544
5汪勇,金菲,张瑞军.引导函数支配的进化模糊聚类算法[J].系统工程理论与实践,2011,31(2):302-307. 被引量：2
6施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(5):35-52. 被引量：32
7徐山,杜卫锋.不均衡训练集下短信过滤系统kNN方法的研究[J].计算机应用与软件,2013,30(11):84-86. 被引量：1
8葛文镇,刘柏嵩,王洋洋,赵福青.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7):2030-2033. 被引量：6
9刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：19
10周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：69

引证文献5

1严霞,张琨.情感分析技术在研究生评教文本中的应用[J].计算机时代,2019(1):51-54. 被引量：3
2马艳荣,温煜坤.基于向量空间模型的对外汉语应用文写作词汇分类系统研究[J].现代电子技术,2021,44(8):137-140. 被引量：2
3丁正生,马春洁.改进词向量和kNN的中文文本分类算法[J].现代电子技术,2022,45(1):100-103. 被引量：9
4桑雪,何静,陈明.基于TF-IDF和LSI模型的网络舆情实时监测建模和应用[J].数学的实践与认识,2022,52(11):56-66. 被引量：3
5田英,郝兆才.基于增强加权共现图和图核相似性的文本分类方法[J].计算机工程与设计,2023,44(5):1434-1440. 被引量：1

二级引证文献18

1严中平,王晓卉,顾丽娜.基于情感分析和数据挖掘的研究生评教质量验证研究[J].高教论坛,2020(5):80-86.
2曾劲松.人工智能在文本情感分析中的应用探究[J].计算机与数字工程,2021,49(12):2606-2610.
3栗婧,张志珍,杜璇,王真,刘紫薇,辛艳丽.基于文本分类技术的煤矿违章行为统计方法研究[J].矿业科学学报,2022,7(3):344-353. 被引量：5
4黄阿娜.基于Attention-Based LSTM算法的文本分类模型[J].自动化技术与应用,2022,41(8):169-171. 被引量：2
5杨波,黄倩,付强,朱荣生.基于CEEMD和优化KNN的离心泵故障诊断方法[J].机电工程,2022,39(11):1502-1509. 被引量：12
6门鼎,陈亮.基于改进Seq2Seq-Attention模型的文本摘要生成方法[J].电子设计工程,2022,30(23):6-10. 被引量：2
7汪涛,李秋华,倪智力,林梓杨,李玉瑛,匡彬.基于数据挖掘与情感分析的环境工程研究生评教质量研究[J].高教学刊,2023,9(1):66-69. 被引量：2
8周寒,莫李平,刘渊,王奕首,卿新林.基于特征优化与改进KNN的航空发动机故障诊断[J].航空计算技术,2023,53(2):45-49. 被引量：3
9田俐.基于kmeans的12345问题热点分析[J].电子技术与软件工程,2023(7):244-247. 被引量：1
10郑磊,顾书缘,王学友,李存辉.基于CNN模型的文本分类可视化系统设计与实现[J].电脑与电信,2023(6):22-27.

1杨凤芹,樊娜,孙红光,孙铁利,彭杨.段落及类别分布的特征选择方法[J].小型微型计算机系统,2018,39(1):17-22. 被引量：3
2王亚丽,朱慧媛,毛海霞,杨洋,江森,孙希文.影像组学特征对肺部10mm以下纯磨玻璃结节侵袭性的诊断价值[J].中国医学计算机成像杂志,2017,23(6):513-516. 被引量：26
3蒋强荣,宋烈金.基于图核算法的文本分类[J].计算机与现代化,2017(11):13-16. 被引量：3
4李永忠,郑滔.基于标签的半监督HDP文本分类主题模型[J].模式识别与人工智能,2017,30(12):1138-1148. 被引量：4
5黄毅,鲍秉坤,徐常胜.关系挖掘驱动的视频描述自动生成[J].南京信息工程大学学报（自然科学版）,2017,9(6):642-649.
6潘斌.清代《大学》诠释的内容及特色[J].社会科学研究,2018,0(1):151-159.
7徐健,张栋,李寿山,王红玲.基于双语信息的问题分类方法研究[J].中文信息学报,2017,31(5):171-177. 被引量：5
8张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14

数学的实践与认识

2018年第1期

浏览历史

内容加载中请稍等...

基于不同分词模式的文本分类研究被引量：5

同被引文献43

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于不同分词模式的文本分类研究 被引量：5

同被引文献43

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于不同分词模式的文本分类研究被引量：5