优化预训练模型的小语料中文文本分类方法被引量：1

A Small-Corpus Chinese Text Classification Method for Optimizing Pre-trained Models

下载PDF

导出

摘要针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重要意义。 Aiming at the problem of insufficient representation of word vectors generated by GloVe and BERT models in small corpora,a fusion vector pre-training model was proposed to improve the accuracy of Chinese short text classification in small corpora.Taking today’s headline public data set as the experimental object,using GloVe and BERT models through domain pretraining,vector fusion of pre-trained word vectors generated by GloVe and BERT to achieve semantic enhancement,thereby improving the short text classification effect.When the amount of data in the corpus is 500,the accuracy of the fused word vector is improved by 5 percentage points compared to the accuracy of the BERT word vector,and the accuracy of the GloVe word vector is improved by 3 percentage points.The dimension of word meaning selection needs to be further strengthened.The proposed method can accurately classify short text data in small corpus,which is of great significance for subsequent text mining work.

作者陈蓝杨帆曾桢 Chen Lan;Yang Fan;Zeng Zhen(School of Information,Guizhou University of Finance and Economics,Guiyang 550000)

机构地区贵州财经大学信息学院

出处《现代计算机》 2022年第16期1-8,15,共9页 Modern Computer

基金教育部产学合作协同育人项目(BZX1902-20):基于Jupyter Notebook的用户信息行为分析整合实验教学设计。

关键词 BERT GLOVE 向量融合小语料短文本 BERT GloVe vector fusion small corpus short text classification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1章秀华,程鉴,洪汉玉,张天序.奇异值分解域差异性度量的低景深图像显著性目标提取方法[J].电子与信息学报,2022,44(11):3987-3997. 被引量：4
2方炯焜,陈平华,廖文雄.结合GloVe和GRU的文本分类模型[J].计算机工程与应用,2020,56(20):98-103. 被引量：26
3石隽锋,李济洪,王瑞波.一种改进的GloVe词向量表示学习方法[J].中文信息学报,2021,35(4):16-22. 被引量：6
4Bin FANG,Fuchun SUN,Huaping LIU,Chuanqi TAN,Di GUO.A glove-based system for object recognition via visual-tactile fusion[J].Science China(Information Sciences),2019,62(5):11-13. 被引量：2
5段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：75
6李文亮,杨秋翔,秦权.多特征混合模型文本情感分析方法[J].计算机工程与应用,2021,57(19):205-213. 被引量：10
7邵云飞,刘东苏.基于类别特征扩展的短文本分类方法研究[J].数据分析与知识发现,2019,3(9):60-67. 被引量：12
8苏依拉,高芬,仁庆道尔吉.中文字粒度切分在蒙汉机器翻译的应用[J].中文信息学报,2019,33(12):54-60. 被引量：2
9张丽,马静.融合词语统计特征和语义信息的文本分类方法研究[J].计算机工程与科学,2021,43(7):1308-1315. 被引量：5
10李东博,黄铝文.重加权稀疏主成分分析算法及其在人脸识别中的应用[J].计算机应用,2020,40(3):717-722. 被引量：7

二级参考文献66

1夏勇其,吴祈宗.一种混合型多属性决策问题的TOPSIS方法[J].系统工程学报,2004,19(6):630-634. 被引量：169
2郑玉明,史晶蕊,廖湖声.文本分类的神经网络模型[J].计算机工程,2005,31(21):37-39. 被引量：4
3Jain A K, Duin R, Mao J. Statistical Pattern Recognition: A Review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(1) :4-37.
4Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs. Fisherfac es: Recognition Using Class Specific Linear Projection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7):711-720.
5Fisher R A. The Use of Multiple Measurements in TaxonomicProblems[J]. Annals of Eugenics, 1936,7(2):178- 188.
6Swets D, Weng J. Using Discriminant Eigenfeatures for Im age Retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18 (8) :831-836.
7Hong Z Q, Yang J Y. Optimal Discriminant Plane for a Small Number of Samples and Design Method of Classifier on the Plane[J]. Pattern Recognition, 1991, 24(4) :317-324.
8Chen I.-F, Mark Liao H Y, Ko M-T, et al. A New LDA Based Face Recognition System Which Can Solve the Small Sample Size Problem [J]. Pattern Recogniton, 2000, 33 (10) :317-324.
9Yu Hua, Yang Jie. A Direct LDA Algorithm for High-Dimensional Data with Application to Face Recognition[J]. Pattern Recognition, 2001, 34(11):2067-2070.
10Bernstein D S,So W. Some Explicit Formulas for the Matrix Exponential[J]. IEEE Transcation on Autom Control, 1993,38(8) :1228-1232.

共引文献147

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
3郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
4游新冬,杨海翔,陈海涛,孙甜,吕学强.融合术语信息的新能源专利机器翻译研究[J].中文信息学报,2021,35(12):76-83. 被引量：1
5周立俭,马妍妍,孙洁.基于能量的自适应局部Gabor特征提取的人脸识别[J].计算机应用,2013,33(3):700-703. 被引量：4
6刘忠宝,潘广贞,赵文娟.流形判别分析[J].电子与信息学报,2013,35(9):2047-2053. 被引量：13
7郑伟勇,李艳玮.降维方法在人脸图像识别中的分析与评估[J].工业控制计算机,2015,28(7):110-112. 被引量：1
8成亚玲,谭爱平,张敏.混合多距离图像的线性判别分析人脸识别算法[J].系统仿真学报,2016,28(9):2254-2259. 被引量：9
9唐晓波,高和璇.基于关键词词向量特征扩展的健康问句分类研究[J].数据分析与知识发现,2020,4(7):66-75. 被引量：10
10温超东,曾诚,任俊伟,张䶮.结合ALBERT和双向门控循环单元的专利文本分类[J].计算机应用,2021,41(2):407-412. 被引量：25

同被引文献17

1赵铁军,朱聪慧.世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J].计算机教育,2007(06S):11-14. 被引量：1
2李亚红,王素格,李德玉.使用多元语义特征的评论文本主题聚类[J].计算机工程与应用,2013,49(2):188-193. 被引量：2
3韩栋,王春华,肖敏.基于句子级学习改进CNN的短文本分类方法[J].计算机工程与设计,2019,40(1):256-260. 被引量：12
4黄春梅,王松磊.基于词袋模型和TF-IDF的短文本分类研究[J].软件工程,2020,23(3):1-3. 被引量：25
5邓丁朋,周亚建,池俊辉,李佳乐.短文本分类技术研究综述[J].软件,2020,41(2):141-144. 被引量：11
6赵晓平,黄祖源,黄世锋,王永和.一种结合TF-IDF方法和词向量的短文本聚类算法[J].电子设计工程,2020,28(21):5-9. 被引量：12
7范国凤,刘璟,姚绍文,栾桂凯.基于语义依存分析的图网络文本分类模型[J].计算机应用研究,2020,37(12):3594-3598. 被引量：10
8汤凌燕,熊聪聪,王嫄,周宇博,赵子健.基于深度学习的短文本情感倾向分析综述[J].计算机科学与探索,2021,15(5):794-811. 被引量：21
9刘硕,王庚润,李英乐,郭程远.中文短文本分类技术研究综述[J].信息工程大学学报,2021,22(3):304-312. 被引量：12
10袁自勇,高曙,曹姣,陈良臣.基于异构图卷积网络的小样本短文本分类方法[J].计算机工程,2021,47(12):87-94. 被引量：11

引证文献1

1鲁富宇,冷泳林,崔洪霞.基于多元语义特征和图卷积神经网络的短文本分类模型[J].河南科学,2024,42(5):625-630.

1石雨廷.“四川观察”抖音号爆红的原因探究[J].新闻研究导刊,2020,11(22):64-65. 被引量：5
2陈杰,马静,李晓峰.融合预训练模型文本特征的短文本分类方法[J].数据分析与知识发现,2021,5(9):21-30. 被引量：9
3李新春,詹德川.一种保持语义关系的词向量复用方法[J].中国科学：信息科学,2020,50(6):813-823. 被引量：4
4高芬,苏依拉,牛向华,赵亚平,范婷婷,仁庆道尔吉.基于Transformer的蒙汉神经机器翻译研究[J].计算机应用与软件,2020,37(2):141-146. 被引量：12
5李永飞.浅谈新闻传媒对文化传播所产生的深远影响[J].产业与科技论坛,2021,20(22):73-74. 被引量：6
6郭九霞.基于自然语言处理的空管系统危险源文本分类方法研究[J].安全与环境学报,2022,22(2):819-825. 被引量：4
7孙旭旦,吴清,赵春艳,张满囤.语义增强引导特征重建的遮挡行人检测[J].红外与激光工程,2022,51(9):371-380. 被引量：1
8马小雯,袁满,刘彦林,李臻,李慧杰.面向标准文本的词性标注集设计[J].信息技术与标准化,2022(10):36-42.
9沈安娜(文/图).欧洲最美村庄--荷兰羊角村[J].中国地名,2022(4):68-70.
10胡吉明,钱玮,文鹏,吕晓光.基于结构功能和实体识别的文本语义表示——以病历领域为例[J].数据分析与知识发现,2022,6(8):110-121. 被引量：5

现代计算机

2022年第16期

浏览历史

内容加载中请稍等...

优化预训练模型的小语料中文文本分类方法被引量：1

参考文献12

二级参考文献66

共引文献147

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

优化预训练模型的小语料中文文本分类方法 被引量：1

参考文献12

二级参考文献66

共引文献147

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

优化预训练模型的小语料中文文本分类方法被引量：1