不同情境下中文文本分类模型的表现及选择被引量：4

Performance and Choice of Chinese Text Classification Models in Different Situations

下载PDF

导出

摘要针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考. N-Gram,Nave Bayes,K nearest neighbors and TF-IDF are classical text classification models with a wide range of applications.People are often puzzled about which classification model should be used in a certain Chinese text classification task.This paper collected more than ten thousand Chinese news texts,and designed a series of experiments to analyze the performance of these models in varied situations from classification parameters,training data scale,text length and skewed data sets.The characteristics of these models were summarized,which provides a practical guide for the model selection in Chinese text classification tasks.

作者兰秋军李卫康刘文星

机构地区湖南大学工商管理学院

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第4期141-146,共6页 Journal of Hunan University:Natural Sciences

基金国家自然科学基金资助项目(71171076)~~

关键词中文文本文本分类数据挖掘情报分析 Chinese text text classification data mining information analysis

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置] TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献17

1NASSIRTOUSSI A K, AGHANDZORGI S, WAH T Y, et al. Text mining for market prediction A systematic review[J]. Expert Systems with Applications, 2014, 41(16) : 7653--7670.
2袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：57
3谭文堂,王桢文,殷风景,葛斌,肖卫东.一种面向多文本集的部分比较性混合模型[J].湖南大学学报（自然科学版）,2013,40(11):101-107. 被引量：2
4ZHU F, PATUMCHAROENPOL P, ZHANG C, et al. Biomedical text mining and its applications in cancer research[J]. Journal of Bio- medical Informatics, 2013, 46(2): 200--211.
5XU X, CHENG X, TAN S, et al. Aspect level opinion mining of online customer reviews[J]. Communications, China, 2013, 10(3) .. 25- 41.
6胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
7蔡华利,刘鲁,王理.突发事件Web新闻多层次自动分类方法[J].北京工业大学学报,2011,37(6):947-954. 被引量：6
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
9卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
10SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys (CSUR), 2002, 34(1): 1 -47.

二级参考文献125

1徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
2杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
3李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
4黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
7李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
8卢新国,林亚平,陈治平.一种改进的互信息特征选取预处理算法[J].湖南大学学报（自然科学版）,2005,32(1):104-107. 被引量：12
9杜义华,焦文彬.互联网中XML网页的链接解析与信息采集[J].计算机系统应用,2005,14(7):24-26. 被引量：2
10吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10

共引文献714

1李涵霄,杜杏叶.近20年计算机与信息科学领域研究进展——IPM期刊主题分析[J].知识管理论坛,2022(1):24-36.
2田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
3李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
4李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
5姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
6李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
7张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
8刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
9丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
10王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3

同被引文献14

1厍向阳,薛惠锋,雷学武,汤国安.基于分类规则挖掘的遥感影像分类研究[J].遥感学报,2006,10(3):332-338. 被引量：17
2陈秋晓,陈述彭,周成虎.基于局域同质性梯度的遥感图像分割方法及其评价[J].遥感学报,2006,10(3):357-365. 被引量：28
3王树仁,周洪彬,武崇福,刘成禹.采用综合评判方法确定工程岩体力学参数研究[J].岩土力学,2007,28(S1):202-206. 被引量：20
4白穆,刘慧平,乔瑜,王晓东.高分辨率遥感图像分类方法在LUCC中的研究进展[J].国土资源遥感,2010,22(1):19-23. 被引量：26
5申艳军,徐光黎,杨更社,叶万军.基于岩体精细化描述的围岩分类及力学参数概率分布特征分析[J].岩土力学,2014,35(2):565-572. 被引量：12
6骆剑承,周成虎,杨艳.人工神经网络遥感影像分类模型及其与知识集成方法研究[J].遥感学报,2001,5(2):122-129. 被引量：87
7陈顺满,吴爱祥,王贻明,陈勋.基于响应面法的破碎围岩条件下采场结构参数优化研究[J].岩石力学与工程学报,2017,36(A01):3499-3508. 被引量：27
8郎宪明,李平,曹江涛,芦思宇,李俨,任泓.基于非平衡数据处理的管道泄漏检测与定位研究[J].湖南大学学报（自然科学版）,2018,45(2):110-118. 被引量：9
9董娜,常建芳,吴爱国.基于贝叶斯模型组合的随机森林预测方法[J].湖南大学学报（自然科学版）,2019,46(2):123-130. 被引量：11
10叶利华,王磊,张文文,李永刚,王赠凯.高分辨率光学遥感场景分类的深度度量学习方法[J].测绘学报,2019,48(6):698-707. 被引量：20

引证文献4

1张小平.周总理是中国少数民族语言广播事业的奠基人[J].中国广播电视学刊,2000(3):52-52. 被引量：1
2仉文岗,李红蕊,巫崇智,王林.基于RF和KNN的地下采场开挖稳定性评估[J].湖南大学学报（自然科学版）,2021,48(3):164-172. 被引量：7
3倪晓梅,王华伟,熊明兰,王峻洲.基于文本挖掘的民航事件风险评估[J].湖南大学学报（自然科学版）,2022,49(6):73-79. 被引量：6
4Chengfan Li,Lan Liu,Junjuan Zhao,Xuefeng Liu.LF-CNN:Deep Learning-Guided Small Sample Target Detection for Remote Sensing Classification[J].Computer Modeling in Engineering & Sciences,2022(4):429-444.

二级引证文献14

1管浩,刘维,王峰,赵华菁,张功,张高海.基于数据增强和机器学习算法的盾构隧道引发地面沉降预测及应用[J].隧道建设（中英文）,2022,42(S01):331-341. 被引量：1
2任东升,王晓梅.“九评”翻译:“战时”国家翻译实践[J].东方翻译,2021(2):4-12. 被引量：4
3Chengfan Li,Lan Liu,Junjuan Zhao,Xuefeng Liu.LF-CNN:Deep Learning-Guided Small Sample Target Detection for Remote Sensing Classification[J].Computer Modeling in Engineering & Sciences,2022(4):429-444.
4李成范,赵俊娟.面向遥感图像的小样本目标检测改进算法研究[J].上海大学学报（自然科学版）,2022,28(2):314-323. 被引量：1
5吴禄源,李建会,马丹,王自法,张建伟,袁超,冯义,李辉.基于集成学习与贝叶斯优化的岩石抗压强度预测[J].地球科学,2023,48(5):1686-1695. 被引量：1
6吴禄源,仝敬博,王自法,马丹,张建伟,廖吉安.基于深度卷积神经网络和迁移学习的农村房屋洪涝灾害后受损等级分类[J].地球科学,2023,48(5):1742-1754. 被引量：2
7孙宜耐,刘苏,刘景东.玲珑金矿深部矿体安全高效回采技术研究[J].现代矿业,2023,39(5):47-51.
8郑秀梅,田晓康,柳青,葛贝贝.通用航空事故致因文本挖掘和社会网络分析[J].安全与环境学报,2024,24(2):602-609. 被引量：1
9任崇宝,蓝麒,郝素利,丁日佳,谭明波.基于数据驱动的电梯安全风险要素识别研究[J].中国特种设备安全,2024,40(S01):1-8.
10唐卫贞,成昌浩,于千容,彭峻德.基于决策实验室分析-解释结构模型的空管运行关键影响因素分析[J].科技和产业,2024,24(6):93-98.

1卢志翔,蒙丽莉.文本分类中特征项权重算法的改进[J].柳州师专学报,2011,26(4):128-131. 被引量：1
2齐晋维.AllJoyn智能家居互动模式方案[J].中国新技术新产品,2017(2):10-10.
3陈德怀.面向“1对1”增强学习技术——科技增强学习的研究和实践[J].信息技术教育,2006(2):4-8. 被引量：6
4道格拉斯·T.肯里克,费拉达斯·格里斯克维西斯.匪夷所思的理性选择[J].发现,2014(10):21-23.
5邬皓天.微博在网络营销中的应用[J].河南科技,2012,31(6):16-17. 被引量：2
6任我随意驰骋微软Explorer越野蓝影鼠标[J].数字生活,2009(7):58-58.
7刘培元.C语言中二维数组的输出样式辨析[J].软件,2013,34(7):136-137.
8谭学清,何珊.用户情境下基于信息增益和项目的协同过滤推荐技术研究[J].情报杂志,2014,33(7):165-170. 被引量：6
9韩叔冬,金然.基于情境的数字娱乐沉浸感研究[J].机电产品开发与创新,2013,26(2):77-79.
10周勤.解读信息化教学探索过程中六个常见困惑问题[J].新课程,2016,0(12):185-185.

湖南大学学报（自然科学版）

2016年第4期

浏览历史

内容加载中请稍等...

不同情境下中文文本分类模型的表现及选择被引量：4

参考文献17

二级参考文献125

共引文献714

同被引文献14

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

不同情境下中文文本分类模型的表现及选择 被引量：4

参考文献17

二级参考文献125

共引文献714

同被引文献14

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

不同情境下中文文本分类模型的表现及选择被引量：4