基于BERT的唐卡文本分类研究

Research on Text Classification in Thangka Domain Based on Bert

下载PDF

导出

摘要当今经济和社会不断发展,管理和保护唐卡信息越来越重要。为更方便地管理保护唐卡文本信息,需要进行唐卡领域文本分类。对于唐卡领域文本分类任务,首先提出使用BERT进行编码获得语句的上下文特征信息,再使用卷积神经网络提取语义的局部特征,最终通过全连接层进行分类。通过在唐卡领域文本数据集上进行实验,F1值达到90.54%,比TextCNN模型高出3.22%,比BERT模型高出1.99%。实验结果证明了BERT-CNN对于唐卡文本分类的有效性。 With the continuous development of economy and society, it becomes more and more important to manage and protect Thangka information. In order to manage and protect Thangka text information more conveniently, text classification in Thangka field is necessary. For text classification tasks in the Thangka domain, this, first proposes to use BERT to encode the contextual feature information of the sentence, then use the convolutional neural network to extract the semantic local features, and finally classify through the fully connected layer. Through experiments on the Thangka domain text data set, the F1 value reached 90.54%, which is 2.33% higher than the TextCNN model and 1.99% higher than the BERT model. The experimental results prove the effectiveness of BERT;NN in Thangka text classification.

作者王昱 Wang Yu(School of Mathematics and Computer Science,Northwest University for Nationalities,Lanzhou 730030)

机构地区西北民族大学数学与计算机科学学院

出处《现代计算机》 2021年第33期99-104,共6页 Modern Computer

关键词预训练模型双向长短期记忆网络卷积神经网络 self attention mechanism bidirectional long-term and short-term memory network convolutional neural network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] J219 [艺术—美术]

引文网络
相关文献

参考文献3

1汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：38
2周洋,陈丹升,刘晓枫,汪娟玉.基于LSTM循环神经网络的电力故障挖掘研究[J].电气时代,2021(1):61-64. 被引量：2
3高丹,彭敦陆,刘丛.海量法律文书中基于CNN的实体关系抽取技术[J].小型微型计算机系统,2018,39(5):1021-1026. 被引量：16

二级参考文献7

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
2刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：59
3李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报（自然科学版）,2011,28(4):44-47. 被引量：45
4朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58
5王荣波,谌志群,周建政,李治,高飞.基于Wikipedia的短文本语义相关度计算方法[J].计算机应用与软件,2015,32(1):82-85. 被引量：15
6黄贤英,张金鹏,刘英涛,赵明军.基于词项语义映射的短文本相似度算法[J].计算机工程与设计,2015,36(6):1514-1518. 被引量：11
7唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：144

共引文献53

1李华琴,余正涛,赖华,郭军军.基于案件描述注意力机制的刑事案件要素关系抽取[J].计算机应用研究,2020,37(S02):156-157.
2李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
3秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
4闫海磊,施水才.一种面向时政新闻的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):23-26. 被引量：3
5尤垂桔,罗媛云,何月娟.Web大数据环境下P-信息聚合体生成及智能推送[J].宜春学院学报,2018,40(6):30-34.
6张诗林.基于Bi-LSTM和CRF的中文网购评论中商品属性提取[J].计算机与现代化,2019(2):93-97. 被引量：4
7曹湘,李誉坤,钱叶,闫晨阳,杨忠光.基于混合神经网络的电力短文本分类方法研究[J].计算机与数字工程,2019,47(5):1145-1150. 被引量：6
8曹彬,王峰,李诗语.面向中医领域的智能聊天机器人系统设计[J].电脑知识与技术,2019,15(4X):174-175. 被引量：1
9黑富郁,王景中,赵林浩.基于CNN和LSTM的异构数据舆情分类方法[J].计算机系统应用,2019,28(6):141-147. 被引量：12
10牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：20

1侯伟,赵耕,刘玉良,杨伟明,郭丽.基于一维卷积神经网络的糖尿病周围神经病变预测模型研究[J].中国医学物理学杂志,2022,39(1):127-132. 被引量：4
2王亚丽.计算机网络安全问题及其防范措施研究[J].无线互联科技,2021,18(24):23-24. 被引量：6
3王国泰,董晶晶,高杨,王乾.基于Bert预训练模型的虚假新闻文本检测[J].信息技术,2022,46(1):137-142. 被引量：2
4谭江华,邹鹏.云南:科学构建自然保护区[J].云岭先锋,2022(1):32-33.
5李磊,王路路,吐尔根·依布拉音,姜丽婷,艾山·吾买尔.基于词典分类器的细粒度机构名识别[J].计算机工程与设计,2022,43(1):245-251.
6栾孟孟,赵涛,卞怡倩.基于深度学习的跨社交网络用户身份识别研究[J].衡水学院学报,2022,24(1):5-9.
7无.浙江省人民政府关于新安江水库等6座大型水库管理和保护范围划定方案的批复(浙政函[2020]135号)[J].浙江省人民政府公报,2021(4):17-21.
8武雪梅.基于数据聚类算法的地理信息系统多模块化设计[J].经纬天地,2021(6):66-69.
9无.水利部办公厅关于印发2021年河湖管理工作要点的通知(办河湖[2021]132号)[J].中华人民共和国水利部公报,2021(2):39-41. 被引量：2
10颜金玲,龚家国,任政,王英,潘世兵.河北省地下水饮用水源地水质变化分析[J].水资源与水工程学报,2021,32(6):78-86. 被引量：3

现代计算机

2021年第33期

浏览历史

内容加载中请稍等...

基于BERT的唐卡文本分类研究

参考文献3

二级参考文献7

共引文献53

相关作者

相关机构

相关主题

浏览历史