融合LC-Transformer XL文本分类的集成模型

AN INTEGRATED MODEL INTEGRATING LC-TRANSFORMER XL TEXT CLASSIFICATION

下载PDF

导出

摘要针对文本分类任务中存在数据稀疏、无法捕捉段与段之间的更长距离依赖关系问题,提出一种LC-Transformer XL集成模型。通过LDA主题模型单词与主题的概率分布,对文本进行高频关键词提取,采用CNN算法提取局部特征向量,利用Transformer-XL模型的相对位置编码和循环机制得到全局语义特征,将其提取的局部与全局特征向量融合,在此基础上,通过Softmax分类器进行分类,得到文本分类的结果。实验表明,该模型在THUCNews中文文本数据集上的F1值达到0.9318,准确率达到94.15%,在处理文本分类任务中有较好的表现。 Aiming at the problem of data sparsity in text classification task and being unable to capture the longer distance dependence between segments,this paper proposes a LC-Transformer XL integration model.Through the probability distribution of words and topics in the LDA topic model,high-frequency Keywords:were extracted from the text.CNN algorithm was used to extract local feature vectors,and the relative position encoding and cycling mechanism of the Transformer-XL model were used to obtain global semantic features.The extracted local and global feature vectors were fused.On this basis,the text classification results were obtained through the Softmax classifier.Experimental results show that the F1 value of the model reaches 0.9318 and the accuracy rate reaches 94.15%on THUCNews Chinese text data set,and it has good performance in text classification task.

作者葛夫勇雷景生唐小岚 Ge Fuyong;Lei Jingsheng;Tang Xiaolan(Shanghai University of Electric Power,Shanghai 201300,China)

机构地区上海电力大学

出处《计算机应用与软件》北大核心 2023年第6期118-123,132,共7页 Computer Applications and Software

基金国家自然科学基金项目(61672337)。

关键词文本分类 LDA主题模型卷积神经网络 Transformer-XL 集成模型 Text classification LDA topic model Convolutional neural network Transformer-XL Integrated model

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1曾凡锋,李玉珂,肖珂.基于卷积神经网络的语句级新闻分类算法[J].计算机工程与设计,2020,41(4):978-982. 被引量：9
2Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali.A Novel Active Learning Method Using SVM for Text Classification[J].International Journal of Automation and computing,2018,15(3):290-298. 被引量：23
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
4牛硕硕,柴小丽,李德启,谢彬.一种基于神经网络与LDA的文本分类算法[J].计算机工程,2019,45(10):208-214. 被引量：11
5冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
6胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
7殷亚博,杨文忠,杨慧婷,许超英.基于卷积神经网络和KNN的短文本分类算法研究[J].计算机工程,2018,44(7):193-198. 被引量：42

二级参考文献47

1J.Alamelu Mangai,V.Santhosh Kumar,S.Appavu alias Balamurugan.A Novel Feature Selection Framework for Automatic Web Page Classification[J].International Journal of Automation and computing,2012,9(4):442-448. 被引量：3
2张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4Salton G,Lesk M E.Computer Evaluation of Index and Text Processing. Association for Computing Machinery,1968,15(1).
5Maron M E. On Relevance,Probabilistic Indexing and Information Retrieval. Journal of the ACM,1960,7(3).
6Lewis D D. Feature Selection and Feature Extraction for Text Categorization. In Proceedings of Speech and Natural Language Workshop. Defense Advanced Research Projects Agency,Morgan Kaufmann,1992-02:212-217.
7Yang Yiming,Liu Xin. A Re-examination of Text Categorization Methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR),1999:42-49.
8Hotho A, Staab S, Stumme G. Ontologies Improve Text Document Clustering[ C ]. In : Proceedings of the 3rd IEEE International Con- ference on Data Mining ( ICDM' 03 ). Washington, D C : IEEE Computer Society, 2003:541 -544.
9Pinto D, Rosso P, Benajiba Y, et al. Word Sense Induction in the Arabic Language: A Self- Term Expansion Based Approach [ C ]. In: Proceedings of the 7 th Conference on Language Engineering of the Egyptian Society of Language Engineering ( ESOLE 2007 ). 2007 : 235 - 245.
10Banerjee S, Ramanathan K, Gupta A. Clustering Short Texts Using Wikipedia[ C]. In: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'07). New York: ACM, 2007:787-788.

共引文献225

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
3Shengxiang Zhang,Chao Shi,Xin Jiang,Ying Zhang,Lu Zhang.Analysis of the trend of global power sources based on comment emotion mining[J].Global Energy Interconnection,2020,3(3):283-291. 被引量：3
4刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
5常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
6任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
7唐明,张自力.文本挖掘在多文化交流平台中的应用研究[J].西南师范大学学报（自然科学版）,2006,31(3):110-113. 被引量：2
8杨洁,张建忠,申庆永,何云.基于Milter实现的中文垃圾邮件过滤系统[J].计算机工程,2007,33(1):267-270.
9伍建军,康耀红.一种基于特征词聚类的文本分类方法[J].情报理论与实践,2007,30(1):109-111. 被引量：2
10伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16

1陈星,吉基兵.基于中文文本情感倾向算法培养计算思维的教学实践研究[J].中国现代教育装备,2023(12):60-64.
2张海波,蔡磊,任俊平,王汝言,刘富.基于Transformer的高效自适应语义分割网络[J].浙江大学学报（工学版）,2023,57(6):1205-1214. 被引量：1
3刘剑,谭雄文,彭钢,刘梦琴.基于OBE理念的化工原理课程教学改革研究[J].广州化工,2023,51(6):158-160. 被引量：2
4汪明,杨伯龙,毛梦真,江玲丽,郑禄红.卫生健康类高职院校产业学院治理机制构建探索与实践[J].宁波职业技术学院学报,2023,27(4):92-97.
5李健,熊琦,胡雅婷,刘孔宇.基于Transformer和隐马尔科夫模型的中文命名实体识别方法[J].吉林大学学报（工学版）,2023,53(5):1427-1434. 被引量：7
6《数学理论与应用》编辑部.《数学理论与应用》征稿简则[J].数学理论与应用,2023,43(2).
7徐雪高,张昭,赵培芳.农业龙头企业ESG信息披露的可视化研究——基于知识图谱的分析[J].江苏农业科学,2023,51(11):241-250. 被引量：2
8黎秋艳,刘佳祎,王鹏,王杰.基于GloVe-CNN算法的英语在线考试主观题自动评分模型[J].桂林理工大学学报,2023,43(1):155-160. 被引量：3
9刘炎,袁野,沈红斌.基于图神经网络的固定骨架蛋白质设计方法研究[J].南京理工大学学报,2023,47(3):311-317.
10谢崇波.基于自然语言处理的医疗问答系统研究与实现[J].现代信息科技,2023,7(12):1-5. 被引量：1

计算机应用与软件

2023年第6期

浏览历史

内容加载中请稍等...

融合LC-Transformer XL文本分类的集成模型

参考文献7

二级参考文献47

共引文献225

相关作者

相关机构

相关主题

浏览历史