结合半监督学习和LDA模型的文本分类方法被引量：7

Text categorization scheme based on semi-supervised learning and latent Dirichlet allocation model

下载PDF

导出

摘要针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法。使用LDA主题模型生成主题分布,以表示所有样本;根据训练集中已标记样本,通过一种简化粒子群优化(SPSO)算法获得SSL-LDA自训练模型的最优参数;基于SSL-LDA自训练模型对训练集中一些未标记样本进行标记,扩展训练集;基于扩展后的训练集,训练NB文本分类器。在3个数据集上的实验结果表明,该方法能够很好地应对标记样本较少的情况,获得了较高的分类精确度。 For the text classification problem of fewer labeled samples in the sample set,a labeled sample extension method(SSL-LDA)combining the semi-supervised learning(SSL)and the latent Dirichlet distribution(LDA)topic model was proposed,and naive Bayesian(NB)classifier was integrated to construct a text categorization method.The LDA topic model was used to gene-rate a topic distribution to represent all samples.The optimal parameters of the SSL-LDA self-training model were obtained using a simplified particle swarm optimization(SPSO)algorithm according to the labeled samples in training set.The SSL-LDA self-training model was used to label some unlabeled samples in the training set.The NB text classifier was trained based on the expanded training set.Experimental results on three datasets show that the proposed method can deal with the less labeled samples and obtain high classification accuracy.

作者韩栋王春华肖敏 HAN Dong;WANG Chun-hua;XIAO Min(School of Information Engineering,Huanghuai University,Zhumadian 463000,China;School of Computer Science and Technology,Wuhan University of Technology,Wuhan 430063,China)

机构地区黄淮学院信息工程学院武汉理工大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2018年第10期3265-3271,共7页 Computer Engineering and Design

基金河南省科技厅科技计划基金项目(172102210117) 河南省驻马店市科技计划基金项目(17135)

关键词文本分类半监督学习 LDA主题模型简化粒子群优化标记样本扩展 text categorization semi-supervised learning latent Dirichlet allocation model simplified particle swarm optimization labeled samples extension

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1孙学琛,高志强,全志斌,施嘉鸿.基于半监督学习的短文本分类方法[J].山东理工大学学报（自然科学版）,2012,26(1):1-4. 被引量：3
2杨萌萌,黄浩,程露红,马平,包武杰.基于LDA主题模型的短文本分类[J].计算机工程与设计,2016,37(12):3371-3377. 被引量：19
3江雨燕,李平,王清.用于多标签分类的改进Labeled LDA模型[J].南京大学学报（自然科学版）,2013,49(4):425-432. 被引量：12
4刘红兵,李文坤,张仰森.基于LDA模型和多层聚类的微博话题检测[J].计算机技术与发展,2016,26(6):25-30. 被引量：15
5张金瑞,柴玉梅,昝红英,高明磊.基于LDA的弱监督文本分类方法[J].计算机工程与设计,2017,38(1):86-91. 被引量：3
6杜芳华,冀俊忠,赵学武,吴晨生.基于特征映射的半监督文本分类算法[J].北京工业大学学报,2016,42(2):230-235. 被引量：5

二级参考文献57

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
2Steyvers M, Griffiths T. Probabilistic topic models. Handbook of Latent Semantic Analysis, 2007,427(7) :424-440.
3Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003,3 : 993 - 1022.
4Mimno D, McCallum A. Topic models conditioned on arbitrary features with dirichlet- multinomial regression. Proceedings of the 24th Annual Conference on Uncertainty in ArtificialIn- telligence, Helsinki, Finland, 2008.
5Kim H, Sun Y, Hockenmaier J, et al. ETM: Entity topic models for mining documents associated with entities. 2012 IEEE 12tu International Conference on Data Mining. IEEE, 2012:349-358.
6Blei D M, McAuliffe J D. Supervised topic models. Advances in Neural Information Processing Systems (NIPS), 2007.
7Ramage D, Hall D, Nallapati R, et aZ. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora. Proceedings of the 2009.Conference on Empirical Methods in Natural Language Processing: Volume 1 - Volume 1. Association for Computational Linguistics, 2009 : 248 - 256.
8Ramage D, Manning C D, Dumais S. Partially labeled topic models for interpretable text mining. Proceedings of the 17'h ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2011:457-465.
9Hofmann T. Probabilistic latent semantic analysis. Proceedings of the 15^th conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc. , 1999 : 289-296.
10Palmer J, Wipf D, Kreutz-Delgado K, et al. Variational EM lgorithms for non Gaussian latent variable models. Advances in Neural Information Processing Systems, 2006,18 : 1059.

共引文献51

1张振豪,过弋,韩美琪,王吉祥.基于关键词相似度的短文本分类方法研究[J].计算机应用研究,2020,37(1):26-29. 被引量：7
2王勇,王超,程凯.基于地理标签的LBSN链接预测模型[J].计算机系统应用,2018,27(12):227-233.
3吕静,何志芬.一种基于正则化最小二乘的多标记分类算法[J].南京大学学报（自然科学版）,2015,51(1):139-147. 被引量：3
4邢国正,江雨燕,吴超,李常训.一种半监督重复软最大化模型[J].计算机工程,2015,41(9):209-214.
5李云毅,苗夺谦,卫志华.基于特征融合与多元关系一致性的社会标签精化模型[J].南京大学学报（自然科学版）,2016,52(2):244-252. 被引量：1
6张浩.网络数据特征选择的优化方法研究与仿真[J].计算机仿真,2017,34(2):367-370. 被引量：6
7胡闽.云平台海量数据中提取用户信息数学建模仿真[J].计算机仿真,2017,34(4):311-314. 被引量：2
8赵星雷,肖诗斌.基于分布式LDA-Spark的微博用户兴趣挖掘[J].北京信息科技大学学报（自然科学版）,2017,32(3):70-74.
9高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
10许腾腾,黄恒君.一种改进的Supervised-LDA文本模型及其应用[J].计算机工程,2018,44(1):69-73. 被引量：4

同被引文献104

1姜芊孜,王广兴,梁雪原,刘娜.基于网络评论数据分析的城市公园生态系统文化服务感知研究[J].景观设计学（中英文）,2022,10(5):32-51. 被引量：7
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：543
3谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：199
4廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
5范宇,符红光,文奕.基于LDA模型的专利信息聚类技术[J].计算机应用,2013,33(A01):87-89. 被引量：22
6阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
7许海云,方曙.基于专利功效矩阵的技术主题关联分析及核心专利挖掘[J].情报学报,2014,33(2):158-166. 被引量：32
8吴舜尧,邵峰晶,王金龙,孙仁诚,王营.融合语义资源和关键词的文本聚类[J].计算机工程,2014,40(4):223-227. 被引量：7
9高嘉伟,梁吉业,刘杨磊,李茹.一种基于Tri-training的半监督多标记学习文档分类算法[J].中文信息学报,2015,29(1):104-110. 被引量：8
10黄磊,李寿山,王晶晶.基于认证用户信息的微博用户类型识别方法[J].计算机科学与探索,2015,9(6):719-725. 被引量：3

引证文献7

1尚珍宇(译),程可欣,简钰清,王志芳,王颖(译),周佳怡(译).社交媒体文本数据分析方法对比与适用性研究:以北京市城市公园感知为例[J].景观设计学（中英文）,2023,11(5):8-29. 被引量：1
2张弛,张贯虹.基于词向量和多特征语义距离的文本聚类算法[J].重庆科技学院学报（自然科学版）,2019,21(3):69-72. 被引量：8
3艾楚涵,姜迪,吴建德.基于主题模型和关联规则的专利文本数据挖掘研究[J].中北大学学报（自然科学版）,2019,40(6):524-530. 被引量：9
4阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.Centroid和EM结合的半监督文本分类[J].计算机工程与设计,2019,40(11):3118-3123.
5黄仁东,韩静,崔乃雪.公众对“网约护士”的态度和关注点:基于微博评论的文本挖掘研究[J].护理研究,2021,35(17):3021-3025. 被引量：11
6颜明阳,闫国梁,李明兰.领域特定情感词典扩展方法在情感分类中的应用[J].计算机应用与软件,2022,39(6):176-182. 被引量：5
7杜孟凯,王蕾,邸洋,单玥,岳小林.基于文本挖掘的北京市属公立医院负面舆情研究[J].中国医药导报,2023,20(9):190-193. 被引量：1

二级引证文献35

1江华.浅谈Windows98的桌面[J].电脑编程技巧与维护,2000(5):30-31.
2杜政康,邓思铭,戴小鹏.概念抽取的技术分析[J].福建电脑,2020,36(1):87-88.
3姚亮亮.基于关联规则的图书馆中文文本自动分类方法[J].科技资讯,2020,18(14):171-171.
4傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
5刘锡峰,武帅,曾桢,符金国,吴静.基于主题模型和知识图谱的网络文学文本挖掘研究——以《雪中悍刀行》为例[J].信息技术与信息化,2020(12):115-120. 被引量：1
6周挺.基于物联网技术的一卡通用户信息数据挖掘模型研究[J].自动化与仪器仪表,2021(3):58-60. 被引量：2
7何烨辛,谷林,孙晨.基于CNN的程序编译错误信息特征提取[J].计算机技术与发展,2021,31(5):204-208. 被引量：1
8柴庆凤,史霖炎,梅珊,熊海涛,贺惠新.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143. 被引量：11
9方博平,郭佳怡,陆欣怡,王梦怡,宋涛.基于文本挖掘技术的智慧政务舆情分析研究[J].科技风,2021(34):86-88. 被引量：1
10葛亮,林莉贤,张志学.非常态交通状态下居民出行关注点挖掘分析[J].公路,2022,67(4):281-287.

1麻友,岳昆,张子辰,王笑一,郭建斌.基于知识图谱和LDA模型的社会媒体数据抽取[J].华东师范大学学报（自然科学版）,2018(5):183-194. 被引量：6
2陈波.基于循环结构的卷积神经网络文本分类方法[J].重庆邮电大学学报（自然科学版）,2018,30(5):705-710. 被引量：14
3肖美华,李伟,李娅楠,梅映天.基于云PACS系统的DICOM协议安全通信框架[J].计算机工程与应用,2018,54(7):107-113. 被引量：11

计算机工程与设计

2018年第10期

浏览历史

内容加载中请稍等...

结合半监督学习和LDA模型的文本分类方法被引量：7

参考文献6

二级参考文献57

共引文献51

同被引文献104

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

结合半监督学习和LDA模型的文本分类方法 被引量：7

参考文献6

二级参考文献57

共引文献51

同被引文献104

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

结合半监督学习和LDA模型的文本分类方法被引量：7