基于BERT的子词级中文文本分类方法被引量：1

Subword-Level Chinese Text Classification Method Based on BERT

下载PDF

导出

摘要随着时代的发展,网络中文本数量飞速增长,为了高效地提取和处理,对文本进行分类必不可少。该文以BERT模型为基础,提出了一种子词级的中文文本分类方法。在该方法中,使用子词级遮蔽方法改进原有遮蔽语言模型,使其能有效遮蔽完整中文单词,增加了BERT模型对中文文本的词向量表达能力。同时新加入了中文单词位置嵌入,弥补了BERT模型对中文单词位置信息的缺失。实验结果表明,使用了该文文本分类方法的BERT模型,在多个中文数据集中对比其他模型均拥有最好的分类效果。 With the development of the times, the number of text in the network is growing rapidly. In order to extract and process the text efficiently, it is necessary to classify the text. Based on the BERT model, this paper proposes a Chinese text classification method at the seed word level. In this method, the subword-level masking method is used to improve the original masking language model, so that it can effectively mask the complete Chinese words, and increase the word vector expression ability of BERT model for Chinese text. At the same time, Chinese word position embedding is added to make up for the lack of Chinese word position information in BERT model. The experimental results show that the BERT model of this text classification method has the best classification effect compared with other models in multiple Chinese data sets.

作者李思锐

机构地区成都信息工程大学

出处《计算机科学与应用》 2020年第6期1075-1086,共12页 Computer Science and Application

关键词 BERT模型子词级文本分类遮蔽语言模型 BERT Model Subword Level Text Classification Masked Language Model

分类号 G63 [文化科学—教育学]

引文网络
相关文献

参考文献1

1李思锐.字符级全卷积神经网络的文本分类方法[J].计算机科学与应用,2020,10(2):225-235. 被引量：3

二级参考文献3

1何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：129
2冯兴杰,张志伟,史金钏.基于卷积神经网络和注意力模型的文本情感分析[J].计算机应用研究,2018,35(5):1434-1436. 被引量：61
3张曼,夏战国,刘兵,周勇.全卷积神经网络的字符级文本分类方法[J].计算机工程与应用,2020,56(5):166-172. 被引量：11

共引文献2

1梁雁,刘广峰.基于卷积神经网络的人脸识别研究[J].数字通信世界,2021(1):101-102. 被引量：5
2黄尚安.基于改进ResNet残差网络模型的交通标志识别[J].科学技术创新,2021(17):67-70.

同被引文献11

1胡春涛,秦锦康,陈静梅,张亮.基于BERT模型的舆情分类应用研究[J].网络安全技术与应用,2019,0(11):41-44. 被引量：12
2王安君,黄凯凯,陆黎明.基于Bert-Condition-CNN的中文微博立场检测[J].计算机系统应用,2019,28(11):45-53. 被引量：10
3杨开漠,吴明芬,陈涛.广义文本情感分析综述[J].计算机应用,2019,39(S02):6-14. 被引量：14
4岳一峰,黄蔚,任祥辉.一种基于BERT的自动文本摘要模型构建方法[J].计算机与现代化,2020,0(1):63-68. 被引量：3
5丁龙,文雯,林强.基于预训练BERT字嵌入模型的领域实体识别[J].情报工程,2019,5(6):65-74. 被引量：9
6张翠肖,郝杰辉,刘星宇,孙月肖.基于CNN-BiLSTM的中文微博立场分析研究[J].计算机技术与发展,2020,30(7):154-159. 被引量：6
7谢腾,杨俊安,刘辉.基于BERT-BiLSTM-CRF模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55. 被引量：83
8严佩敏,唐婉琪.基于改进BERT的中文文本分类[J].工业控制计算机,2020,33(7):108-110. 被引量：12
9谌志群,鞠婷.基于BERT和双向LSTM的微博评论倾向性分析研究[J].情报理论与实践,2020,43(8):173-177. 被引量：41
10蔡鑫.基于Bert模型的互联网不良信息检测[J].电信科学,2020,36(11):121-126. 被引量：5

引证文献1

1赵姝颖,肖宁,曾华圣,王海兮,常明芳.基于RoBerta的立场检测与趋势预测模型设计[J].应用科技,2021,48(3):27-33. 被引量：4

二级引证文献4

1李俊,杨频.单目标立场检测研究综述[J].信息与电脑,2022,34(4):70-72.
2周原.基于自然语言处理的纠错系统架构设计[J].太原师范学院学报（自然科学版）,2022,21(3):37-41. 被引量：2
3杨万灵.基于RoBERTa的数据增强与代码词嵌入代码补全模型[J].软件,2022,43(11):111-116.
4鲜于波,黄伟鑫.论辩文本立场检测——基于提示模型的小样本研究[J].逻辑学研究,2023,16(2):49-65.

1李嘉,赵法强,刘旭君.浅谈配网新型绝缘隔离装置的研制与应用[J].技术与市场,2020,27(1):117-118. 被引量：2
2吴呈,王朝坤,王沐贤.基于文本化简的实体属性抽取方法[J].计算机工程与应用,2020,56(21):115-122. 被引量：2
3张文涛.命名实体识别任务针对中文的适应性研究[J].现代计算机,2020,26(28):12-16.
4崔兴凯,柏宇阳,朱福珍.一种新的强鲁棒彩色图像信息隐藏算法[J].黑龙江大学自然科学学报,2020,37(1):114-120. 被引量：3

计算机科学与应用

2020年第6期

浏览历史

内容加载中请稍等...

基于BERT的子词级中文文本分类方法被引量：1

参考文献1

二级参考文献3

共引文献2

同被引文献11

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于BERT的子词级中文文本分类方法 被引量：1

参考文献1

二级参考文献3

共引文献2

同被引文献11

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于BERT的子词级中文文本分类方法被引量：1