基于主题模型的文本分类算法性能比较被引量：2

Performance Comparison of Algorithm for Text Classification Based on a Topic Model

下载PDF

导出

摘要文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。 This study uses the LDA model to conduct dimension reduction and feature extraction for text and trains the traditional classification algorithm within the integrated learning framework, aiming to examine whether the accuracy of a single classification algorithm can be improved, obtain better effect of classification, maximize the function and effect of the LDA model, and improve the accuracy of text classification. Using Web of Science as the data source and based on its subject categories, an experimental text set covering 6 topics is established. Using Weka as the experimental tool and the average F value as the evaluation index, the performance of four traditional classification algorithms including naive Bayes, Logic Regression, SVM and KNN, and three ensemble learning algorithms including AdaBoost, Bagging and Random Subspace is compared and analyzed. Overall, through homogeneous integration, the accuracy rate of text classification after resembling is higher than that of a single classifier. Using the LDA model for text dimension reduction and feature extraction, naive Bayes as the base classifier, and Bagging for ensembled training has the best classification performance and can obtain global optimum.

作者王万起田中雨董兰军 Wang Wanqi;Tian Zhongyu(Liaoning Technical University,Fuxin,Liaoning 123000,China)

机构地区辽宁工程技术大学图书馆中国科学院大学经济与管理学院图书情报与档案管理系

出处《高校图书馆工作》 2022年第2期41-46,共6页 Library Work in Colleges and Universities

关键词文本分类集成学习算法比较 F值主题模型 Text classification Ensemble learning Algorithm comparison F value Topic model

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献20

1贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：70
2张翔,周明全,耿国华,侯凡.Bagging算法在中文文本分类中的应用[J].计算机工程与应用,2009,45(5):135-137. 被引量：11
3祖弦,谢飞.LDA主题模型研究综述[J].合肥师范学院学报,2015,33(6):55-58. 被引量：15
4崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
5董立岩,隋鹏,孙鹏,李永丽.基于半监督学习的朴素贝叶斯分类新算法[J].吉林大学学报（工学版）,2016,46(3):884-889. 被引量：15
6张华鑫,庞建刚.基于SVM和KNN的文本分类研究[J].现代情报,2015,35(5):73-77. 被引量：15
7陈凯.基于分类问题的选择性集成学习研究[J].计算机应用研究,2009,26(7):2457-2459. 被引量：3
8蒋芸,陈娜,明利特,周泽寻,谢国城,陈珊.基于Bagging的概率神经网络集成分类算法[J].计算机科学,2013,40(5):242-246. 被引量：43
9张晶,李裕,李培培.基于随机子空间的多标签类属特征提取算法[J].计算机应用研究,2019,36(2):339-343. 被引量：13
10宋凯,李秀霞,赵思喆.基于CTM模型与K-means算法融合的文本聚类研究[J].情报理论与实践,2017,40(11):135-138. 被引量：16

二级参考文献326

1毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
2张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
3罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005,31(1):3-5. 被引量：63
4宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
5吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62. 被引量：104
6冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92. 被引量：567
7牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
8高宏宾,潘谷,黄义明.基于频繁项集特性的Apriori算法的改进[J].计算机工程与设计,2007,28(10):2273-2275. 被引量：25
9刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
10Aask,Eikvill.Text categorization:a survey,Technical Report #941[R]. Norwegian Computing Center, 1999.

共引文献491

1张春颜,陈纪茹.基于多维图谱的高校网络舆情演化路径研究[J].中国应急管理科学,2024(6):86-102.
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3刘勘,赵帅,彭虎锋,黄漫宇.营商环境政策的主题演化研究[J].知识管理论坛,2022(3):314-331. 被引量：1
4陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：10
5赵根良.基于文本分析的传统零售研究热点探讨[J].山东电力高等专科学校学报,2021,24(3):33-35.
6祁颖,张涛.国内外人文社科领域跨学科研究:文献主题对比与中国路径选择[J].情报科学,2023,41(12):81-90. 被引量：3
7李阳.城市画像赋能城市治理——评《社会标注视域下的城市画像研究》[J].情报科学,2023,41(11):188-190.
8曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
9李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
10王山,原磊,付敏杰.习近平经济思想研究评述及其发展动态——从文献计量到研究主题(2013-2023年)[J].价格理论与实践,2024(3):29-35.

同被引文献15

1胡俊峰,俞士汶.唐宋诗之计算机辅助深层研究[J].北京大学学报（自然科学版）,2001,37(5):727-733. 被引量：24
2胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002,16(4):39-44. 被引量：43
3胡韧奋,诸雨辰.唐诗题材自动分类研究[J].北京大学学报（自然科学版）,2015,51(2):262-268. 被引量：16
4蔡爱娟.基于数据库的唐诗宋词对比研究[J].科技视界,2015(25):162-163. 被引量：1
5李有增,曾浩.基于学生行为分析模型的高校智慧校园教育大数据应用研究[J].中国电化教育,2018(7):33-38. 被引量：77
6严承希,王军.高校学生网络行为时序特征的可视化分析[J].情报学报,2018,37(9):890-904. 被引量：11
7万俨慧,任晨,沈敏虎.基于网络日志的高校用户行为分析[J].网络空间安全,2019,10(10):49-53. 被引量：2
8Yi LIU,Lejian LIAO,Tian SONG.Static tainting extraction approach based on information flow graph for personally identifiable information[J].Science China(Information Sciences),2020,63(3):146-162. 被引量：3
9Yi LIU,Tian SONG,Lejian LIAO.TPII:tracking personally identifiable information via user behaviors in HTTP traffic[J].Frontiers of Computer Science,2020,14(3):175-187. 被引量：1
10郑娅峰,赵亚宁,白雪,傅骞.教育大数据可视化研究综述[J].计算机科学与探索,2021,15(3):403-422. 被引量：30

引证文献2

1欧阳文涛,朱家明,戴定华.基于LDA-SVM算法模型对唐宋诗词分词及特征的计量分析[J].黑龙江大学自然科学学报,2023,40(4):394-400. 被引量：2
2刘翼,高明,田亮亮,严都力,韦雨萌,李凯茵,张博欣.基于Web日志挖掘的网络用户行为交互式可视化分析[J].延安大学学报（自然科学版）,2023,42(3):78-85.

二级引证文献2

1潘国炀.基于改进KNN算法的档案信息文本自动分类方法研究[J].信息与电脑,2024,36(4):71-73.
2钟健.基于LDA模型的京津冀协同发展政策文本主题分析[J].长春师范大学学报,2024,43(5):119-124.

1彭云,万红新.融合语义关联和文本降维的社交媒体主题提取[J].信息与电脑,2021,33(11):183-185.
2马文,陈庚,李昕洁,苏文伟,柴焰明,蒲应明,曾敬勋,刘学承.基于朴素贝叶斯算法的中文评论分类[J].计算机应用,2021,41(S02):31-35. 被引量：13
3唐钰,唐加山.一种改进的TF-IDF文本分类算法[J].信息技术与信息化,2022(3):13-16. 被引量：8
4张晓龙,支龙,高剑,苗仲辰,林越峰,项雅丽,熊贇.一种半监督学习的金融新闻文本分类算法[J].大数据,2022,8(2):134-144.
5李了了,孙小杰,龚雪,陈婷婷.内江:透视养老服务业托起幸福“夕阳红”[J].四川省情,2022(4):55-57.
6朱恬骅.从文本实验到实验文本:“人工智能文学”的表达性重复[J].文艺理论研究,2021(5):140-147. 被引量：4
7霍士伟,田八林,郭圣明,唐宇波.基于代价敏感集成学习的战场态势评估模型[J].舰船电子工程,2021,41(12):75-78.
8张紫芸,王文发,马乐荣,丁苍峰.预训练文本摘要研究综述[J].延安大学学报（自然科学版）,2022,41(1):98-104. 被引量：3
9刘鹏飞,张伟峰,何克晶.差分进化算法优化的图注意力网络集成研究[J].云南大学学报（自然科学版）,2022,44(1):41-48.
10李清霞.多种进化算法混合解决约束工程优化问题研究[J].应用科技,2022,49(2):106-113.

高校图书馆工作

2022年第2期

浏览历史

内容加载中请稍等...

基于主题模型的文本分类算法性能比较被引量：2

参考文献20

二级参考文献326

共引文献491

同被引文献15

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于主题模型的文本分类算法性能比较 被引量：2

参考文献20

二级参考文献326

共引文献491

同被引文献15

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于主题模型的文本分类算法性能比较被引量：2