基于随机森林的文本分类模型研究被引量：3

Research on text Classification Model Based on Random Forests

下载PDF

导出

摘要文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决"信息爆炸"所带来的问题。Breiman提出的随机森林算法具有良好的泛化性和鲁棒性、对噪声不敏感、能处理连续属性的特点,很适合用来建立文本分类模型。笔者将随机森林算法尝试性引入文本分类领域,构建基于随机森林的文本分类模型,并在标准文本测试集Reuters-21578进行测试和比较,结果表明:(1)该模型可以较好地应用于文本分类;(2)与基于CART、REPTree和J48的文本分类模型的结果相比较,基于随机森林的文本分类模型的效果最好,F1-Measure达到了0.777;(3)基于随机森林的文本分类模型操作方便、直观有效、评价结果可靠,为文本分类研究提供了新思路。 Text classification is the key technology for processing large amount of text data. It can solve the information explosion problem in a certain extent. Random forests algorithm proposed by Breiman has the characteristics of good generalization and robustness, insensitivity for noise and ability in dealing with continuous attributes, which is very suitable for the establishment of text classification model. This paper attempted to construct the text classification model based on random forests algorithm, and compared with the text categorization model Reuters-21578 to verify the model＇s validity and accuracy for classification. Results showed： this model could be applied in text classification well; compared with the results of CART, REPTree and J48 it models, it had the best effect, whose F1-Measure was 0.777; it had easy, intuitive and effective operation, and reliable results, which provided new idea for text classification research.

作者罗新

机构地区华南理工大学工商管理学院

出处《农业图书情报学刊》 2016年第11期50-54,共5页 Journal of Library and Information Sciences in Agriculture

基金面向文本分类的多学科协同建模理论与实验研究(项目编号:71373291)

关键词文本分类随机森林 CART树 Random forests Text classification CART（Classification and Regression Tree）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2杜选.基于加权补集的朴素贝叶斯文本分类算法研究[J].计算机应用与软件,2014,31(9):253-255. 被引量：13
3Breiman L.Random Forests[J].Machine Learning,2001,45(1):5-32.
4吴潇雨,和敬涵,张沛,胡骏.基于灰色投影改进随机森林算法的电力系统短期负荷预测[J].电力系统自动化,2015,39(12):50-55. 被引量：181
5杨帆,林琛,周绮凤,符长虹,罗林开.基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用[J].系统工程理论与实践,2012,32(4):815-825. 被引量：43
6詹曙,姚尧,高贺.基于随机森林的脑磁共振图像分类[J].电子测量与仪器学报,2013,27(11):1067-1072. 被引量：18
7赖成光,陈晓宏,赵仕威,王兆礼,吴旭树.基于随机森林的洪灾风险评价模型及其应用[J].水利学报,2015,46(1):58-66. 被引量：96
8Breiman L,Friedman J,Olshen R,al et.Classification and Regression Trees[M].New York:Chapman&Hall,1984.
9Breiman L.Bagging Preditors [J].Machine Learning,1996,24(2):123-140.

二级参考文献78

1吴霜,张一飞,修非,王大玲,鲍玉斌,于戈.基于兴趣点特征提取的医学图像分类[J].计算机研究与发展,2007,44(z3):429-434. 被引量：1
2孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
3孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
4张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
5贾富仓,李华.基于随机森林的多谱磁共振图像分割[J].计算机工程,2005,31(10):159-161. 被引量：14
6程晓陶,杨磊,陈喜军.分蓄洪区洪水演进数值模型[J].自然灾害学报,1996,5(1):34-40. 被引量：19
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
8刘小平,黎夏,叶嘉安,何晋强,陶嘉.利用蚁群智能挖掘地理元胞自动机的转换规则[J].中国科学（D辑）,2007,37(6):824-834. 被引量：56
9卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
10郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12

共引文献352

1董海峰,郭军,张海洋,刘晨,桑君君.用于铯原子磁力仪的双AOM激光稳频系统[J].仪器仪表学报,2020,41(10):129-135. 被引量：3
2梁宏涛,刘红菊,李静,王莹,郭超男.基于机器学习的短期负荷预测算法综述[J].计算机系统应用,2022,31(10):25-35. 被引量：10
3赵洪,沈建忠,王俊,张骋,瞿青.基于客户画像与机器学习算法的电费回收风险预测模型及应用[J].微型电脑应用,2020,36(2):93-96. 被引量：12
4李宁,王晓东,惠雨乔,刘长青.排水管道阻塞辨识定位和供水管网漏损技术及应用现状分析[J].给水排水,2022,48(S01):1074-1082. 被引量：5
5于淼,回立川,陈忠华.采用随机森林算法的弓网滑动电接触失效预测[J].辽宁工程技术大学学报（自然科学版）,2022(5):462-469. 被引量：1
6张子阳,王珂珂.基于灰色关联和麻雀搜索算法的电力负荷预测[J].辽宁工程技术大学学报（自然科学版）,2022,41(3):283-288. 被引量：4
7李滨,陆明珍.考虑实时气象耦合作用的地区电网短期负荷预测建模[J].电力系统自动化,2020(17):60-75. 被引量：47
8白浩,袁智勇,孙睿,张强,史训涛.基于Apriori算法和卷积神经网络的配电设备运行效率主要影响因素挖掘[J].电力建设,2020,41(3):31-38. 被引量：15
9王雪冬,张超彪,王翠,朱永东,王海鹏.基于Logistic回归与随机森林的和龙市地质灾害易发性评价[J].吉林大学学报（地球科学版）,2022,52(6):1957-1970. 被引量：25
10梁允,李哲,石英,杨亚锡.基于模糊贝叶斯网络的变电站动态汛情风险评估[J].高电压技术,2023,49(S01):153-159.

同被引文献29

1赵敏.FFT变换与小波变换在变压器局部放电信号去噪中的应用[J].变压器,2009,46(5):28-31. 被引量：9
2李明,王晓茹.一种用于电力系统间谐波谱估计的自回归模型算法[J].中国电机工程学报,2010,30(1):72-76. 被引量：25
3唐炬,黄江岸,张晓星,姚陈果.局部放电在线监测中混频周期性窄带干扰的抑制[J].中国电机工程学报,2010,30(13):121-127. 被引量：40
4弓艳朋,刘有为,吴立远.采用分形和支持向量机的气体绝缘组合电器局部放电类型识别[J].电网技术,2011,35(3):135-139. 被引量：48
5罗新,牛海清,胡日亮,刘访,吴炬卓.一种改进的用于快速傅里叶变换功率谱中的窄带干扰抑制的方法[J].中国电机工程学报,2013,33(12):167-175. 被引量：50
6阮光册.基于LDA的网络评论主题发现研究[J].情报杂志,2014,33(3):161-164. 被引量：41
7杨宇.基于级联稀疏表示分类器的人脸识别算法[J].工矿自动化,2014,40(5):46-48. 被引量：2
8杨宁,阎春雨,毕建刚,是艳杰,袁帅,弓艳朋,杨圆.超声波局部放电检测仪校验方法研究及应用[J].电测与仪表,2014,51(22):104-109. 被引量：19
9褚鑫,张建文,韩刚.统计特征参数及多分类SVM的局部放电类型识别[J].电测与仪表,2015,52(7):35-39. 被引量：17
10王洪涛,郑乃清,刘辉军.基于共振稀疏分解的局部放电信号窄带干扰抑制新方法[J].工矿自动化,2015,41(5):68-73. 被引量：1

引证文献3

1唐建伟,苏红,严家明,张建文,王金川,王恩俊.矿用干式变压器局部放电模式识别方法[J].工矿自动化,2019,45(1):76-80. 被引量：9
2蒋瑶,赵礼峰.基于不平衡文本分类的改进Stacking模型[J].计算机与数字工程,2021,49(8):1594-1598. 被引量：1
3郭佳怡,方博平,陆欣怡,王妮,宋涛.基于文本挖掘和情感分析方法的“智慧旅游”服务质量感知研究[J].现代信息科技,2023,7(6):1-5. 被引量：2

二级引证文献12

1王李.基于混合神经网络的矿用干式变压器故障诊断研究[J].世界有色金属,2019,44(14):177-178. 被引量：4
2覃延佳,冯晓棕.干式变压器局部放电在线监测中的应用分析[J].电力设备管理,2019,0(11):35-37. 被引量：1
3王秋红.电气设备产生局部放电现象及分析[J].应用能源技术,2020(11):10-12. 被引量：4
4于建军.基于小波包-反向传播神经网络的局部放电信号模式识别方法[J].微型电脑应用,2021,37(3):128-130. 被引量：2
5周立人,刘苹,孙孝娟,李卫和,石峰.数字中心机房配电柜微环境监控系统的研究[J].仪表技术与传感器,2021(11):63-67. 被引量：6
6李平,田秋松,霍明,陈熙伦,林雨,李佳伟.基于小波变换和HOG特征的变压器局部放电类型识别方法[J].电气传动,2021,51(24):52-56. 被引量：8
7周鑫,李宝树,王涵.基于大数据集成算法的多终端接入模式自动化识别模型[J].计算技术与自动化,2022,41(2):34-39.
8谢春.DBSCAN和逻辑回归混合策略方法在锅炉燃烧故障诊断中的应用[J].应用科技,2022,49(3):101-105. 被引量：1
9雍明超,王磊,祁招,庞杰锋,姜睿智,孟乐,王胜辉,邵向阳.干式变压器智能系统构建策略及关键技术研究[J].电气应用,2022,41(11):6-15. 被引量：2
10郭丽珍,周江东.基于CNN网络的井下电缆局部放电实时诊断方法[J].煤炭技术,2023,42(9):262-265. 被引量：2

1孟倩,马小平.基于粗糙集-支持向量机的软件缺陷预测[J].计算机工程与科学,2015,37(1):93-98. 被引量：6
2刘峰,潘欣.基于粗集的遥感影像决策树分类新方法[J].长春工程学院学报（自然科学版）,2010,11(4):95-97.
3邓伟康,刘锋,朱二周.基于新型PSO算法优化BP神经网络的软件缺陷预测方法研究[J].微电子学与计算机,2017,34(4):39-43. 被引量：5
4陈磊.Weka期货数据挖掘中连续属性划分策略研究[J].软件导刊,2016,15(6):173-176.
5马林,丁勇.基于WEKA软件的图书馆数据挖掘研究[J].电脑知识与技术,2009,5(8X):6930-6932. 被引量：1
6于安雷,皮德常.基于PSO-BP的软件缺陷预测模型[J].计算机工程与应用,2013,49(7):64-67. 被引量：6
7束建华.基于WEKA平台的分类预测模型分析[J].蚌埠学院学报,2013,2(2):26-28. 被引量：3
8李盟,贾晓启,王蕊,林东岱.一种恶意代码特征选取和建模方法[J].计算机应用与软件,2015,32(8):266-271. 被引量：13
9吴悠,高静怡.数据挖掘中的不平衡分类问题集分析[J].电子制作,2014,22(10X):139-139.
10王守选,叶柏龙,李伟健,谭一云.决策树、朴素贝叶斯和朴素贝叶斯树的比较[J].计算机系统应用,2012,21(12):221-224. 被引量：14

农业图书情报学刊

2016年第11期

浏览历史

内容加载中请稍等...

基于随机森林的文本分类模型研究被引量：3

参考文献9

二级参考文献78

共引文献352

同被引文献29

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于随机森林的文本分类模型研究 被引量：3

参考文献9

二级参考文献78

共引文献352

同被引文献29

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于随机森林的文本分类模型研究被引量：3