结合Bert字向量和卷积神经网络的新闻文本分类方法被引量：6

A Chinese news text classification method of combining Bert character vector and Convolutional Neural Networks

下载PDF

导出

摘要目前的文本分类大多使用词向量,且词向量大多由Word2vec,Glove等方法训练得到,其存在的问题是部分文本中词语的数量较多而训练速度较慢,且准确率受到切词的影响。由于中文字词和英文差异较大,提出结合Bert字向量的文本分类方法。Bert是一个由Google提出的以Transformer为基础的自然语言处理通用模型,它提供了汉语字符级别的词向量即字向量。利用Bert字向量并使用卷积神经网络对新闻进行文本分类。在准确率较高的情况下,其效率高于结合词向量的文本分类方法。 Most of the current text classification use word vectors,and the word vectors are mostly trained by Word2vec,Glove and other methods.Because of the large?difference between Chinese and English,a text classification method of combining Bert word vectors is proposed.Bert is a general-purpose model of natural language processing Based on Transformer proposed by Google.It provides Chi⁃nese character-level word vectors,called character vectors.Using the Bert character vector and Convolutional Neural Networks text clas⁃sification to classify the news text,the efficiency is higher than the text classification method combining the word vector in the case of high accuracy.

作者刘凯洋 LIU Kai-yang(Northeast Normal University,Changchun130000,China)

机构地区东北师范大学数学与统计学院

出处《电脑知识与技术》 2020年第1期187-188,共2页 Computer Knowledge and Technology

基金中央高校基本科研业务专项资金项目“利用深度学习实现多功能文本处理器”(项目编号201910200111002)

关键词 Bert CNN 文本分类字向量新闻 Bert Convolutional Neural Networks text classification character vector news

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1赵浩新,俞敬松,林杰.基于笔画中文字向量模型设计与研究[J].中文信息学报,2019,33(5):17-23. 被引量：13

共引文献12

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
3尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
4冯煜博,蔡东风,宋彦.基于知网相关概念场的中文词向量[J].中文信息学报,2020,34(3):13-22. 被引量：1
5李玉铭,朱婧.基于VR技术的多视觉动画角色模型展示系统设计[J].现代电子技术,2020,43(20):164-167. 被引量：2
6范晓明,王斌君.基于相码模型的汉字表征[J].科学技术与工程,2021,21(5):1937-1947.
7李冉冉,刘大明,刘正,常高祥.融合笔画特征的胶囊网络文本分类[J].计算机工程,2022,48(3):69-73. 被引量：5
8彭雪,赵辉,郑肇谦,庞海婷.融合多种嵌入表示的中文命名实体识别[J].长春工业大学学报,2022,43(1):81-90.
9唐善成,鲁彪,张雪,张莹,梁少君.面向汉字矢量图形特征的字向量表征方法[J].科学技术与工程,2023,23(16):6967-6973. 被引量：2
10胡为,刘伟,盛威,卢彦杰,石玉敬.融合字形特征的中医医案命名实体识别研究[J].计算机时代,2023(7):66-69.

同被引文献38

1吴剑青.民航监管的数字化转型解决方案建议[J].民航管理,2021(1):25-27. 被引量：4
2张恒,杨骁勇.智慧监管怎么管[J].大飞机,2022(1):18-22. 被引量：2
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4龚静,曾莉.用于文本分类的特征选择方法[J].湖南环境生物职业技术学院学报,2008,14(3):24-26. 被引量：2
5曾立梅.基于文本数据挖掘的硕士论文分类技术[J].重庆邮电大学学报（自然科学版）,2010,22(5):669-672. 被引量：9
6刘威,邵剑飞,张磊磊.海量信息下的文本分类研究与优化[J].新技术新工艺,2017(2):40-43. 被引量：1
7周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1736
8杨东,王移芝.基于Attention-based C-GRU神经网络的文本分类[J].计算机与现代化,2018(2):96-100. 被引量：23
9刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术（过刊）,2017,23(12X):87-91. 被引量：7
10LIU Peng,ZHAO Hui-han,TENG Jia-yu,YANG Yan-yan,LIU Ya-feng,ZHU Zong-wei.Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark[J].Journal of Central South University,2019,26(1):1-12. 被引量：21

引证文献6

1齐佳琪,迟呈英,战学刚.ERNIE-CNN文本分类模型[J].辽宁科技大学学报,2021,44(1):56-61. 被引量：4
2裘凯凯,丁伟杰,钟南江.基于ERNIE-SA-DPCNN的文本分类研究--以涉网新型犯罪案件文本为例[J].现代信息科技,2022,6(6):69-74.
3任鹏,李文杰,舒宇杰,孙航,赵旖旎.结合BERT词嵌入和双向循环卷积神经网络的新闻文本分类研究[J].信息记录材料,2022,23(6):20-23. 被引量：2
4王文娟,何晓莲,胡峰,赵伟,钟淘淘.多注意力机制BERT分类模型及其在电力运维中的应用[J].重庆邮电大学学报（自然科学版）,2023,35(1):156-163. 被引量：2
5崔雨萌,王靖亚,刘晓文,闫尚义,陶知众.融合注意力和裁剪机制的通用文本分类模型[J].计算机应用,2023,43(8):2396-2405.
6王欣,干镞锐,许雅玺,史珂,郑涛.基于字词向量融合的民航智慧监管短文本分类[J].中国安全科学学报,2024,34(2):37-44. 被引量：1

二级引证文献9

1陈国心.基于自然语言处理的评教文本分类与分析[J].西安航空学院学报,2021,39(3):91-96.
2王浩畅,孙铭泽.基于ERNIE-RCNN模型的中文短文本分类[J].计算机技术与发展,2022,32(6):28-33. 被引量：4
3胡玥.基于ERNIE-CNN模型的医患对话文本分类[J].信息与电脑,2022,34(11):43-45. 被引量：1
4张敏,唐镜雯,戴苏清,邵帅.基于深度学习的网络防火墙日志数据智能分析方法[J].电子技术与软件工程,2022(20):1-4.
5涂晨,李鑫,叶程轶.基于LDA主题模型与Apriori算法的旅游数据挖掘[J].物联网技术,2023,13(3):108-112. 被引量：3
6王治学.基于图卷积神经网络的主题模型文本分类探究[J].科技创新与应用,2023,13(36):83-86. 被引量：2
7薛俊杰.基于迁移学习技术的机器翻译优化模型研究[J].自动化与仪器仪表,2023(10):183-186. 被引量：1
8李固良,高滨,张佳喆.基于深度学习的监控简报文本分类研究[J].四川水力发电,2024,43(S01):118-124.
9王新颖,杨阳,田豪杰,陈俨,张敏.基于交叉注意力的多源数据融合的气体泄漏检测[J].中国安全科学学报,2024,34(7):91-97.

1苏依拉,高芬,仁庆道尔吉.中文字粒度切分在蒙汉机器翻译的应用[J].中文信息学报,2019,33(12):54-60. 被引量：2
2张虹,周思齐.移动社交时代新闻文本生产转型启示——以《疫苗之王》为例[J].怀化学院学报,2019,38(12):124-128.
3宁珊,严馨,周枫,王红斌,张金鹏.融合LSTM和LDA差异的新闻文本关键词抽取方法[J].计算机工程与科学,2020,42(1):153-160. 被引量：3
4南雨辰.“他者”视域下的中国形象建构——基于《联合早报》网站专题“中国改革开放四十周年”的分析[J].东南传播,2019(11):73-75.
5慈祯嘉措,桑杰端珠,孙茂松,色差甲,周毛先.融合单语语言模型的藏汉机器翻译方法研究[J].中文信息学报,2019,33(12):61-66. 被引量：5
6王长松.“结构性存款”衍生品定价通用模型[J].中国货币市场,2020(2):37-42. 被引量：1
7伍杰华,熊云艳.一个选择最大似然互信息特征的网络关系预测通用模型[J].计算机应用与软件,2020,37(1):43-52. 被引量：1
8付丹丹,王巧华,高升,马美湖.不同品种鸡蛋贮期S-卵白蛋白含量分析及其可见/近红外光谱无损检测模型研究[J].分析化学,2020,48(2):289-297. 被引量：14
9冯雁敏,张雪源,李明,黄琢.某300 MW机组水轮机调节系统参数实测及建模分析[J].长江科学院院报,2020,37(1):172-178. 被引量：3

电脑知识与技术

2020年第1期

浏览历史

内容加载中请稍等...

结合Bert字向量和卷积神经网络的新闻文本分类方法被引量：6

参考文献1

共引文献12

同被引文献38

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

结合Bert字向量和卷积神经网络的新闻文本分类方法 被引量：6

参考文献1

共引文献12

同被引文献38

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

结合Bert字向量和卷积神经网络的新闻文本分类方法被引量：6