融合LDA主题模型和二维卷积的短文本分类被引量：3

SHORT TEXT CLASSIFICATION COMBINING LDA TOPIC MODEL AND 2D CONVOLUTION

下载PDF

导出

摘要由于受到短文本文本长度的限制,传统分类模型不能够充分挖掘短文本序列信息,导致短文本分类效果不佳。对此提出两种融合LDA主题模型和二维卷积的短文本分类模型。采用LDA主题模型预训练得到的主题词项分布来弥补短文本缺乏的主题信息,通过预训练词向量来补充短文本通用语义信息。同时将随机初始化词向量、预训练词向量,以及主题词项分布进行拼接,应用二维卷积学习拼接后短文本表示的空间层次结构。实验结果表明,相比于其他短文本分类算法,提出的两种短文本分类模型可以充分挖掘利用短文本特征,其分类准确度明显提升。 Due to the limitation of the length of short text,the traditional classification model can not fully exploit the short text sequence information,resulting in poor short text classification.Therefore,this paper proposes two short text classification models combining LDA topic model and 2D convolution.The topic term distribution obtained by pre-training LDA topic model was used to make up for the lack of topic information of short text,and the short text general semantic information was supplemented by pre-training word vector.We spliced the random initialization word vector,the pre-training word vector and the topic term distribution,and applied the 2D convolution learning to construct the spatial hierarchy of the short text representation.The experimental results show that compared with other short text classification algorithms,two short text classification models can fully exploit the short text features,and the accuracy of short text classification was significantly improved.

作者康宸郑山红李万龙 Kang Chen;Zheng Shanhong;Li Wanlong(Changchun University of Technology,Changchun 130012,Jilin,China)

机构地区长春工业大学

出处《计算机应用与软件》北大核心 2020年第11期127-131,153,共6页 Computer Applications and Software

基金吉林省自然科学基金项目(20130101060JC)。

关键词短文本分类 LDA主题模型二维卷积 Short text classification LDA topic model 2D Convolution

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1许卓斌,郑海山,潘竹虹.基于改进自编码器的文本分类算法[J].计算机科学,2018,45(6):208-210. 被引量：5
2殷亚博,杨文忠,杨慧婷,许超英.基于卷积神经网络和KNN的短文本分类算法研究[J].计算机工程,2018,44(7):193-198. 被引量：42
3徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
4姚彬修,倪建成,于苹苹,曹博,李淋淋.一种基于Canopy和粗糙集的CRS-KNN文本分类算法[J].计算机工程与应用,2017,53(11):172-177. 被引量：9

二级参考文献77

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
2张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
3Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
4Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
5Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
6Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
7Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
8Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.
9Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, B39(1): 1-38.
10Bishop C M. Pattern Recognition and Machine Learning. New York, USA: Springer, 2006.

共引文献286

1刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
2汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
3阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
4周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
5陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
6乐小虬,洪娜.面向社会文本流数据探测爆发主题方法浅析[J].现代图书情报技术,2012(10):21-27.
7朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2
8许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5):70-76. 被引量：3
9方锴.专家检索研究综述[J].科协论坛（下半月）,2013(2):102-104. 被引量：1
10李春英,汤庸,陈国华,汤志康.面向学术社区的专家推荐模型[J].智能系统学报,2012,7(4):365-369. 被引量：11

同被引文献25

1刘逸琛,孙华志,马春梅,姜丽芬,钟长鸿.一种基于高层特征融合的网络商品分类[J].北京邮电大学学报,2020,43(5):98-104. 被引量：5
2赵虹杰,刘华丽,任巨伟,林鸿飞.面向新闻的情感关键句抽取与极性判别[J].山西大学学报（自然科学版）,2014,37(4):588-594. 被引量：5
3陈科文,张祖平,龙军.文本分类中基于熵的词权重计算方法研究[J].计算机科学与探索,2016,10(9):1299-1309. 被引量：11
4刘培玉,荀静,费绍栋,朱振方.基于隐马尔可夫模型的主观句识别[J].中文信息学报,2016,30(4):206-212. 被引量：10
5徐亚峰,崔英花.基于阅读器状态的功率控制防碰撞算法[J].计算机工程与设计,2019,40(3):607-610. 被引量：2
6高明霞,李经纬.基于word2vec词模型的中文短文本分类方法[J].山东大学学报（工学版）,2019,49(2):34-41. 被引量：29
7袁源,郑嘉利,石静,王哲,李丽.基于Q-learning的RFID多阅读器防碰撞算法[J].计算机科学,2019,46(6):124-127. 被引量：7
8阴爱英,吴运兵,郑一江,余小燕.基于fastText模型的词向量表示改进算法[J].福州大学学报（自然科学版）,2019,47(3):314-319. 被引量：10
9郑诚,薛满意,洪彤彤,宋飞豹.用于短文本分类的DC-BiGRU_CNN模型[J].计算机科学,2019,46(11):186-192. 被引量：16
10侯培国,王志轩,严晨.基于RFID标签的防碰撞算法改进[J].计算机科学,2019,46(S11):359-362. 被引量：9

引证文献3

1宋千里,赖华.采用深度学习的小语种舆情监控方法[J].红外与激光工程,2021,50(S02):156-162. 被引量：1
2邵欣欣.TI-FastText自动商品分类算法[J].计算机科学,2022,49(S01):206-210. 被引量：3
3李俊峰,黄秀彬,刘娟,董蓓,王建波.基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型[J].微型电脑应用,2023,39(1):45-48. 被引量：2

二级引证文献6

1杨嘉雯,石媛媛,闫安.基于网络评论的文本挖掘与情感倾向分析--以北京地区博物馆为例[J].互联网周刊,2023(11):20-23. 被引量：1
2康玲,温云亮,周丽伟,郭金垒,叶金旺,陈锦帅,邹强.基于社交媒体数据的城市洪涝灾害信息智能提取与分析[J].中国农村水利水电,2024(5):155-160.
3王思丽,杨恒,刘巍.基于混合机器学习的网络舆论情感识别方法研究[J].情报工程,2024,10(2):11-26.
4杜文勇,牛逸明,常利建.基于深度强化学习的智能地址库信息分析方法[J].电气自动化,2024,46(3):97-99.
5易云恒,张超群,武家辉,汤卫东.基于PycModel高效深度学习模型的心理咨询问题分类探究[J].深圳信息职业技术学院学报,2024,22(4):56-64.
6石海威.基于历史会话数据的客户服务分配方法[J].移动信息,2024,46(9):182-184.

1马喆康,迪力亚尔·帕尔哈提,早克热·卡德尔,吐尔根·依布拉音,西尔艾力·色提,艾山·吾买尔.一种集成深度学习模型的旅游问句文本分类算法[J].计算机工程,2020,46(11):70-76. 被引量：4
2刘宇炫,贾真真,张开琪.基于SWOT分析的贵阳市高坡苗族乡乡村旅游发展研究[J].农村经济与科技,2020,31(17):68-70. 被引量：2
3特约主题信息[J].矿物岩石地球化学通报,2020,39(5).
4王姝.计算机文本信息挖掘技术研究[J].数码设计,2020,9(15):4-4.
5杜成玉,刘鹏远.基于螺旋注意力网络的方面级别情感分析模型[J].中文信息学报,2020,34(9):70-77. 被引量：15
6姚婷.浅析高中信息技术课堂教学有效性思维的思考[J].好日子,2020(26):258-258.
7覃婷婷,刘峥,陈可佳.结合主题词嵌入和注意力机制的主题模型[J].计算机工程,2020,46(11):104-108. 被引量：1
8张海波,赵运基,张新良.三通道拟合的改进卷积神经网络林火识别算法[J].传感器与微系统,2020,39(11):134-136. 被引量：4
9刘丰年.基于云引力搜索的负载调度算法[J].数学的实践与认识,2020,50(19):296-304. 被引量：1
10刘忠宝,康嘉琦,张静.基于主题突变检测的颠覆性技术识别——以无人机技术领域为例[J].科技导报,2020,38(20):97-105. 被引量：23

计算机应用与软件

2020年第11期

浏览历史

内容加载中请稍等...

融合LDA主题模型和二维卷积的短文本分类被引量：3

参考文献4

二级参考文献77

共引文献286

同被引文献25

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

融合LDA主题模型和二维卷积的短文本分类 被引量：3

参考文献4

二级参考文献77

共引文献286

同被引文献25

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

融合LDA主题模型和二维卷积的短文本分类被引量：3