面向图书主题分类的随机森林算法的应用研究被引量：2

Application of Random Forest Algorithm for Book Subject Classification

下载PDF

导出

摘要针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法。又由于传统随机森林决策树质量难以保证,提出一种加权投票提高决策树质量的机制。算法主要由两方面组成,一方面是基于文本主题特征提取的Tr-K方法,目的是提高文本主题特征的质量与代表性;另一方面是基于bootstrap抽样时遗留的1/3袋外数据提出的验证机制。文中采用的是20 Newsgroups数据集和来自于搜狗实验室提供的中文分类语料库,中英文两种数据集充分考虑了该模型的泛化性,并在实验中验证了不同数据集下较传统随机森林算法拥有更优秀的分类能力。Python环境下的实验数据表明,该方法在文本分类中相对于C4.5、KNN、SVM、原始随机森林算法可以取得更好的结果。 In view of the problem of poor classification effect caused by low quality of extracting text features for the traditional random forest algorithm,an improved random forest algorithm for the text of big data like books is proposed.Since the quality of traditional random forest decision tree is difficult to guarantee,a weighted voting mechanism to improve the quality of decision-making tree is presented.The algorithm is mainly composed of two aspects.One is the Tr-K method based on text theme feature extraction,which aims to improve the quality and representation of text features.The other is the verification mechanism of 1/3 of the extra-bags of data left over from the bootstrap sampling.We use the 20 Newsgroups dataset and the Chinese corpus from the Sogou Lab.For the Chinese and English datasets,we take full consideration of the generalization of the model and verify that it has better classification ability compared with the traditional random forests under different datasets.The experimental data in Python environment show that the proposed method can achieve better results in text classification relative to C4.5,KNN,SVM and original random forest algorithm.

作者孙彦雄李业丽边玉宁 SUN Yan-xiong;LI Ye-li;BIAN Yu-ning(Beijing Institute of Graphic Communication,Beijing 102600,China)

机构地区北京印刷学院

出处《计算机技术与发展》 2020年第6期65-70,共6页 Computer Technology and Development

基金北京市科技创新服务能力协同创新项目(PXM2016_014223_000025)。

关键词图书文本分类随机森林 Tr-K方法 TRk-SW-RF模型主题分类决策树 book text classification random forest Tr-K method TRk-SW-RF model theme classification decision tree

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：69
2王奕森,夏树涛.集成学习之随机森林算法综述[J].信息通信技术,2018,12(1):49-55. 被引量：187
3刘耀杰,刘独玉.基于不平衡数据集的改进随机森林算法研究[J].计算机技术与发展,2019,29(6):100-104. 被引量：10
4张翔,周明全,耿国华.Bagging中文文本分类器的改进方法研究[J].小型微型计算机系统,2010,31(2):281-284. 被引量：8
5张莉婧,曾庆涛,李业丽,孙华艳,字云飞.面向图书主题的爬虫算法研究[J].计算机科学,2017,44(B11):460-463. 被引量：6
6刘勇,兴艳云.基于改进随机森林算法的文本分类研究与应用[J].计算机系统应用,2019,28(5):220-225. 被引量：20

二级参考文献47

1吴高巍,陶卿,王珏.基于后验概率的支持向量机[J].计算机研究与发展,2005,42(2):196-202. 被引量：12
2郭山清,高丛,姚建,谢立.基于改进的随机森林算法的入侵检测模型(英文)[J].软件学报,2005,16(8):1490-1498. 被引量：18
3燕继坤,郑辉,王艳,曾立君.基于可信度的投票法[J].计算机学报,2005,28(8):1308-1313. 被引量：8
4刘燕兵,谭建龙,郭莉.可动态增删关键词的串匹配算法[J].计算机工程与应用,2005,41(35):138-140. 被引量：4
5周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
7董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
8边肇琪,等编著.模式识别(第二版)[M].北京:清华大学出版社,2000.176-210.
9Diettefich T G. Machine learning research: four current directions [J]. AI Magazine,1997,18(4) :97-136.
10Salton G, Wong A, Yang C. A vector space model for automatic indexing [ J]. Communications of the ACM, 1975,18 ( 11 ) : 613- 620.

共引文献291

1杨雨菲,韩浩武,陈荣,黄魏,傅佩红.数字土壤制图的推理方法对比研究[J].土壤通报,2020(5):1016-1023. 被引量：4
2温学兵,谢维,姚佳宜.基于随机森林和支持向量机模型的期刊评价[J].沈阳师范大学学报（自然科学版）,2022,40(2):174-179.
3冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
4周锐,鲍沛泽,孔钦,万凯.基于TensorFlow框架的可视化大学生行为分析系统设计[J].智能计算机与应用,2020,10(7):227-233. 被引量：1
5孙建文,刘三(女牙),杨宗凯,王佩.采用集成特征选择的网络书写纹识别研究[J].小型微型计算机系统,2012,33(5):1108-1112.
6刘筱,阎小培.九十年代广东省不同经济地域差异分析[J].热带地理,2000,20(1):1-7. 被引量：25
7赵旭剑,金培权,岳丽华.TTP:一个面向中文新闻网页的主题时间解析器[J].小型微型计算机系统,2013,34(5):1042-1049. 被引量：7
8王鹤琴,王杨.基于贝叶斯决策的网格社区案卷分发模型[J].山东大学学报（理学版）,2018,53(11):85-94. 被引量：1
9刘斌,郭星,朱宇恩.基于随机森林模型的土壤重金属源解析——以晋中盆地为例[J].干旱区资源与环境,2019,33(1):106-111. 被引量：24
10裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：17

同被引文献27

1殷杰,尹占娥,许世远.沿海城市自然灾害损失分类与评估[J].自然灾害学报,2011,20(1):124-128. 被引量：8
2苗放.面向数据的安全体系结构初步研究[J].中兴通讯技术,2016,22(1):19-22. 被引量：4
3苗放,向清松,杨文晖.基于Neo4j的面向体系架构(DOA)的数据注册中心(DRC)的实现[J].成都大学学报（自然科学版）,2016,35(2):143-146. 被引量：5
4贾平,张云霞,刘克俭.提升综合应急装备水平增强应急决策信息保障能力——灾害现场信息获取技术研究与应用示范获得国家重点研发计划支持[J].中国减灾,2016,0(11):30-31. 被引量：4
5欧阳华璘,沈敬伟,周廷刚.面向对象分类方法在台风灾害信息提取中的应用研究[J].自然灾害学报,2016,25(6):9-17. 被引量：7
6陈梓,高涛,罗年学,赵前胜.反映自然灾害时空分布的社交媒体有效性探讨[J].测绘科学,2017,42(8):44-48. 被引量：16
7关东,苗放.数据科学研究一般模式的初步探讨[J].科技管理研究,2017,37(24):260-266. 被引量：2
8杨腾飞,解吉波,李振宇,李国庆.微博中蕴含台风灾害损失信息识别和分类方法[J].地球信息科学学报,2018,20(7):906-917. 被引量：27
9王森,肖渝,黄群英,张纯.基于社交大数据挖掘的城市灾害分析——纽约市桑迪飓风的案例[J].国际城市规划,2018,33(4):84-92. 被引量：15
10熊一君,苗放.面向数据体系结构的数据性能与价值研究[J].成都大学学报（自然科学版）,2019,38(1):47-51. 被引量：2

引证文献2

1蒋登丽,杨文晖,苗放.商机数据的自动注册与文本分类[J].信息技术,2021,45(4):11-16.
2王月明,胡卓玮,陈锡.基于社交媒体文本的灾情信息识别方法比较研究[J].自然灾害学报,2022,31(1):179-187. 被引量：3

二级引证文献3

1廖永丰,吴玮,杨赛霓,胡卓玮,阿多.自然灾害综合风险防范信息服务技术体系构建及展望[J].地球信息科学学报,2022,24(12):2282-2296. 被引量：2
2丁子林,姚新强,李雅静,张勇.基于EfficientNet对地震受灾建筑物破坏评估[J].自然灾害学报,2023,32(2):26-31. 被引量：1
3谢雪苗,邵亦文.社交媒体数据分析在台风灾害管理中的应用潜力探究——以台风“杜苏芮”对福建省的影响为例[J].热带地理,2024,44(6):1090-1101.

1江雨燕,桂伟.基于受限玻尔兹曼机的分布式主题特征提取[J].计算机工程与应用,2017,53(23):108-112. 被引量：5
2丛璐.基于文本立意,引导随文练笔[J].新作文（小学低年级版）,2019(2):38-38.
3杨梅花,徐强,赵小敏.基于vis-NIR光谱的Bootstrap-PLSR模型进行SOM预测精度评价[J].江西农业大学学报,2019,41(6):1227-1234. 被引量：1
4梁涛,石欢,崔洁,李宗琪.基于Bagging神经网络集成的风功率预测[J].水电能源科学,2020,38(4):205-208. 被引量：5
5陈宝荣.基于文本和生本的写作教学细化——以七(上)第一单元写作指导为例[J].新作文（中学作文教学研究）,2020(5):28-32.
6石福艳,马洁,黄璐,许小珊,孙娜,孟维静,王素珍,杨丽平.EMB多重填补法在横断面健康体检资料定量变量填补中应用[J].中国公共卫生,2019,35(11):1536-1539. 被引量：1
7王祎景.追问,让英语课堂走向灵动[J].中学生英语,2020,0(2):120-121.
8董丽霞.病案首页填写对HQMS上报数据的影响与应对[J].深圳中西医结合杂志,2020,30(6):196-197. 被引量：3
9赵高明,刘秋阳,黄佳佳,唐昕怡,牛娟.家庭环境与中学生社交焦虑的关系[J].农村经济与科技,2020,31(4):349-350.
10刘晓斌,罗伟雄,吴嘉慧.以文本数据驱动的教学提升语篇关联的理解[J].英语学习,2020,0(5):4-10. 被引量：3

计算机技术与发展

2020年第6期

浏览历史

内容加载中请稍等...

面向图书主题分类的随机森林算法的应用研究被引量：2

参考文献6

二级参考文献47

共引文献291

同被引文献27

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向图书主题分类的随机森林算法的应用研究 被引量：2

参考文献6

二级参考文献47

共引文献291

同被引文献27

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向图书主题分类的随机森林算法的应用研究被引量：2