基于预训练模型的文本分类网络TextCGA 被引量：2

Text Classification Network Based on Pre-Trained Model

下载PDF

导出

摘要文本分类问题是NLP领域的经典问题。当前大部分文本分类网络中所使用的RNN网络存在着短期记忆问题,对于长文本无法进行准确分类。为此,首先将语言模型与分类网络两部分工作解耦,将NLP预训练模型应用于文本分类的任务上,并提出TextCGA文本分类网络。网络用预训练模型作为语言模型,使用预训练模型的强大的语义表示能力对文本进行表示;同时为了解决RNN网络在序列长度较长时的短期记忆问题,使用卷积层、RNN层以及Self-At⁃tention层搭建了CGA模块,有效解决长序列建模问题;在网络中设置多个CGA模块,使得模型可以从多个感受野捕捉文本特征。实验结果表明,使用预训练模型的TextCGA文本分类网络能够达到较好的文本分类效果,在测试中比对照方法普遍提高1~2%的准确率。 Text classification is a classic task in NLP field.At present,most of the classification networks are using RNNs while they have the issue of short-term memory,which means long text will not be accurately categorized.The language model and classification network are decou⁃pled,and the NLP pre-trained model is applied to the task of text classification,and the TextCGA network is proposed.The network uses the pre-trained model the language model,and uses the strong semantic representation ability of the pre-trained model to represent the text.Besides,in order to solve the short-term memory problem of RNN when the sequence is long,the CGA block is constructed by using convolution layer,RNN layer and Self-Attention layer,which effectively solves the problem of long-sequence modeling.Multiple CGA blocks are set up in the network to capture text features from multiple receptive fields.The experimental results show that the TextCGA net⁃work using the pre-trained model can achieve better text classification result,and the accuracy is generally improved by 1-2 percentage points compared with other methods in our experiment.

作者杨玮祺杜晔 YANG Wei-qi;DU Ye(School of Computer Science and Information Technology,Beijing Jiaotong University,Beijing 100044)

机构地区北京交通大学计算机与信息技术学院

出处《现代计算机》 2020年第12期52-57,共6页 Modern Computer

关键词文本分类预训练模型 CGA模块 TextCGA Text Classification Pre-Trained Model CGA Module TextCGA

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘鑫鹏,栾悉道,谢毓湘,黄明哲.迁移学习研究和算法综述[J].长沙大学学报,2018,32(5):28-31. 被引量：39
2杨东,王移芝.基于Attention-based C-GRU神经网络的文本分类[J].计算机与现代化,2018(2):96-100. 被引量：23
3庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：471

二级参考文献85

1Ben-David S,Blitzer J,Crammer K,Pereira F.Analysis of representations for domain adaptation.In:Platt JC,Koller D,Singer Y,Roweis ST,eds.Proc.of the Advances in Neural Information Processing Systems 19.Cambridge:MIT Press,2007.137-144.
2Blitzer J,McDonald R,Pereira F.Domain adaptation with structural correspondence learning.In:Jurafsky D,Gaussier E,eds.Proc.of the Int’l Conf.on Empirical Methods in Natural Language Processing.Stroudsburg PA:ACL,2006.120-128.
3Dai WY,Xue GR,Yang Q,Yu Y.Co-Clustering based classification for out-of-domain documents.In:Proc.of the 13th ACM Int’l Conf.on Knowledge Discovery and Data Mining.New York:ACM Press,2007.210-219.[doi:10.1145/1281192.1281218].
4Dai WY,Xue GR,Yang Q,Yu Y.Transferring naive Bayes classifiers for text classification.In:Proc.of the 22nd Conf.on Artificial Intelligence.AAAI Press,2007.540-545.
5Liao XJ,Xue Y,Carin L.Logistic regression with an auxiliary data source.In:Proc.of the 22nd lnt*I Conf.on Machine Learning.San Francisco:Morgan Kaufmann Publishers,2005.505-512.[doi:10.1145/1102351.1102415].
6Xing DK,Dai WY,Xue GR,Yu Y.Bridged refinement for transfer learning.In:Proc.of the Ilth European Conf.on Practice of Knowledge Discovery in Databases.Berlin:Springer-Verlag,2007.324-335.[doi:10.1007/978-3-540-74976-9_31].
7Mahmud MMH.On universal transfer learning.In:Proc.of the 18th Int’l Conf.on Algorithmic Learning Theory.Sendai,2007.135-149.[doi:10,1007/978-3-540-75225-7_14].
8Samarth S,Sylvian R.Cross domain knowledge transfer using structured representations.In:Proc.of the 21st Conf.on Artificial Intelligence.AAAI Press,2006.506-511.
9Bel N,Koster CHA,Villegas M.Cross-Lingual text categorization.In:Proc.of the European Conf.on Digital Libraries.Berlin:Springer-Verlag,2003.126-139.[doi:10.1007/978-3-540-45175-4_13].
10Zhai CX,Velivelli A,Yu B.A cross-collection mixture model for comparative text mining.In:Proc.of the 10th ACM SIGKDD Int’l Conf.on Knowledge Discovery and Data Mining.New York:ACM,2004.743-748.[doi:10.1145/1014052.1014150].

共引文献528

1康文杰,田苗,林岚,孙珅,吴水才.深度卷积生成对抗网络对神经影像通用数据特征的学习[J].智慧健康,2020(31):1-4. 被引量：2
2杨顺辉,郭珍珍,张洪宝,高明亮.基于集成迁移学习的机械钻速预测[J].计算机系统应用,2022,31(10):270-278. 被引量：5
3张政,严哲,顾汉明.基于残差网络与迁移学习的断层自动识别[J].石油地球物理勘探,2020(5):950-956. 被引量：23
4陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
5吴锐帆,代海洋,杨坦,江颖,蔡志杰.直肠癌淋巴结转移的智能诊断研究[J].数学建模及其应用,2019,8(4):30-37. 被引量：2
6刘世晶,刘阳春,钱程,郑浩君,周捷,张成林.基于CycleGAN和注意力增强迁移学习的小样本鱼类识别[J].农业机械学报,2023,54(S01):296-302. 被引量：4
7张璐,黄琳,李备备,陈鑫,段青玲.基于多尺度融合与无锚点YOLO v3的鱼群计数方法[J].农业机械学报,2021,52(S01):237-244. 被引量：16
8张红洋,田瑞盟.基于SOLO分类理论的科学思维学业质量评价[J].湖南中学物理,2021(2):1-4. 被引量：1
9林峰,郭鹏,刘旭斌.基于叶片表面污垢预处理与CNN的风电机组叶片表面损伤识别[J].动力工程学报,2020(12):975-981. 被引量：5
10吴静,宋燕.融合迁移学习和神经网络的潜在因子模型[J].智能计算机与应用,2022,12(6):20-27.

同被引文献15

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
3王英杰,谢彬,李宁波.ALICE:一种面向中文科技文本分析的预训练语言表征模型[J].计算机工程,2020,46(2):48-52. 被引量：3
4林洋,董宝良,刘泽平.一种基于CGAN和GcForest的军事目标识别方法[J].信息技术,2020,44(3):134-138. 被引量：6
5李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173. 被引量：109
6丁龙,文雯,林强.基于预训练BERT字嵌入模型的领域实体识别[J].情报工程,2019,5(6):65-74. 被引量：9
7郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
8杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：103
9付瑶,万静,邢立栋.基于条件随机场与信息熵的特定领域概念发现[J].计算机应用研究,2020,37(3):708-711. 被引量：5
10吴俊,程垚,郝瀚,艾力亚尔·艾则孜,刘菲雪,苏亦坡.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418. 被引量：57

引证文献2

1王俊,王修来,栾伟先,叶帆.基于BERT模型的科研人才领域命名实体识别[J].计算机技术与发展,2021,31(11):21-27. 被引量：3
2孟晓龙,任正非.基于RoBERTa模型的公众留言分类研究[J].现代计算机,2021,27(28):21-26. 被引量：2

二级引证文献5

1李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
2王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：15
3杨万灵.基于RoBERTa的数据增强与代码词嵌入代码补全模型[J].软件,2022,43(11):111-116.
4朱红,牛浩然,朱彤.基于字词融合与对抗训练的行业人物实体识别[J].计算机工程,2023,49(5):56-62. 被引量：4
5卜意磊,庞文迪,吴甜甜,杜奕坤,李珊.面向食品监管领域的知识图谱构建研究[J].计算机技术与发展,2023,33(6):202-207. 被引量：2

1王展.大数据时代的计算机网络安全分析[J].信息与电脑,2020,32(6):193-195. 被引量：1
2李娇娇.小学数学教学中数学建模问题探析[J].新课程教学（电子版）,2019,0(16):77-77.
3班彩红.计算机网络安全技术与防范措施[J].新晋商,2019(10):180-181.
4孔锐,谢玮,雷泰.基于神经网络的图像描述方法研究[J].系统仿真学报,2020,32(4):601-611. 被引量：6
5赖巧芳.构建知识形成过程提升学生数学素养——《20.4课题学习最短路径问题》教学设计[J].数理化解题研究,2020,0(8):8-9.
6李豫新.基于ROS的导游机器人自主导航技术研究[J].中国周刊,2020,0(4):0199-0199. 被引量：1
7张娟,淡军.供电企业无线局域网安全性分析[J].网络安全技术与应用,2020(5):90-91.
8邓超伟,陆文哲.基于火灾情况下连体高层住宅人员疏散问题的分析[J].科学技术创新,2020(14):140-142. 被引量：1
9屈伸.抛物线与圆“相切”背景下一系列结论的探究[J].中学生数学,2020,0(9):26-28. 被引量：1
10侯星晨,王锦.基于自适应注意模型的图像描述[J].计算机与现代化,2020,0(6):95-100. 被引量：1

现代计算机

2020年第12期

浏览历史

内容加载中请稍等...