融合RoBERTa的多尺度语义协同专利文本分类模型被引量：2

A multi-scale semantic collaborative patent text classification model based on RoBERTa

下载PDF

导出

摘要针对静态词向量工具(如word2vec)舍弃词的上下文语境信息,以及现有专利文本分类模型特征抽取能力不足等问题,提出了一种融合RoBERTa的多尺度语义协同(RoBERTa-MCNN-BiSRU++-AT)专利文本分类模型。RoBERTa能够学习到当前词符合上下文的动态语义表示,解决静态词向量无法表示多义词的问题。多尺度语义协同模型利用卷积层捕获文本多尺度局部语义特征,再由双向内置注意力简单循环单元进行不同层次的上下文语义建模,将多尺度输出特征进行拼接,由注意力机制对分类结果贡献大的关键特征分配更高权重。在国家信息中心发布的专利文本数据集上进行验证,与ALBERT-BiGRU和BiLSTM-ATT-CNN相比,RoBERTa-MCNN-BiSRU++-AT部级专利的分类准确率分别提升了2.7%和5.1%,大类级专利的分类准确率分别提升了6.7%和8.4%。结果表明,RoBERTa-MCNN-BiSRU++-AT能有效提升对不同层级专利的分类准确率。 For patent text classification,the existing static word vector tools such as word2vec cannot express the context information of words,and most of the models can not completely extract features.Aiming at this problem,a multi-scale semantic collaborative patent text classification model based on RoBERTa,named RoBERTa-MCNN-BiSRU++-AT,is proposed.RoBERTa can learn the context-appropriate dynamic semantic representation of the current word and solve the problem that static word vectors cannot represent polysemous words.The multi-scale semantic collaboration model uses the convolution layer to capture the multi-scale local semantic features of text,and then uses the bidirectional built-in simple attention loop unit to model the context semantics at different levels.The multi-scale output features are spliced,and the key features that contribute more to the classification result are assigned higher weight by the attention mechanism.Experiments were carried out on the patent text data set published by the National Information Center.The results show that,compared with ALBERT-BiGRU and BiLSTM-ATT-CNN,RoBERTa-MCNN-BiSRU++-AT increases the accuracy by 2.7%and 5.1%respectively in patent text classification at the department level,and by 6.7%and 8.4%respectively in patent text classification at the major class level.RoBERTa-MCNN-BiSRU++-AT can effectively improve the classification effect of different levels of patent texts.

作者梅侠峰吴晓鸰黄泽民凌捷 MEI Xia-feng;WU Xiao-ling;HUANG Ze-min;LING Jie(School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,China)

机构地区广东工业大学计算机学院

出处《计算机工程与科学》 CSCD 北大核心 2023年第5期903-910,共8页 Computer Engineering & Science

基金广东省重点领域研发计划(2019B010139002) 广州市重点领域研发计划(202007010004)。

关键词专利文本分类语义协同简单循环单元 RoBERTa模型 patent text classification semantic collaboration simple recurrent unit RoBERTa model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1廖小琴,徐杨.面向BSP-CNN的短文本情感倾向性分类研究[J].计算机工程与应用,2019,55(23):120-124. 被引量：5
2吴小华,陈莉,魏甜甜,范婷婷.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报,2019,33(6):100-107. 被引量：50
3曾诚,温超东,孙瑜敏,潘列,何鹏.基于ALBERT-CRNN的弹幕文本情感分析[J].郑州大学学报（理学版）,2021,53(3):1-8. 被引量：19
4温超东,曾诚,任俊伟,张䶮.结合ALBERT和双向门控循环单元的专利文本分类[J].计算机应用,2021,41(2):407-412. 被引量：24
5杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
6余本功,张培行.基于双通道特征融合的WPOS-GRU专利分类方法[J].计算机应用研究,2020,37(3):655-658. 被引量：11

二级参考文献41

1许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
2李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
3李生珍,王建新,齐建东,朱礼军.基于BP神经网络的专利自动分类方法[J].计算机工程与设计,2010,31(23):5075-5078. 被引量：12
4马芳.基于RBFNN的专利自动分类研究[J].现代图书情报技术,2011(12):58-63. 被引量：4
5屈鹏,王惠临.专利文本分类的基础问题研究[J].现代图书情报技术,2013(3):38-44. 被引量：15
6于红.对《国际专利分类表》第七版一些变化的研究[J].科技文献信息管理,2001,15(4):22-27. 被引量：1
7刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：31
8郑飏飏,徐健,肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用[J].现代图书情报技术,2015(11):82-90. 被引量：61
9王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：49
10刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：95

共引文献97

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2吴龙峰,于瓅,王峰.向量空间模型的文本分类研究进展与应用[J].宿州学院学报,2019,34(12):69-72. 被引量：6
3李丽华,胡小龙.基于深度学习的文本情感分析[J].湖北大学学报（自然科学版）,2020,42(2):142-149. 被引量：2
4崔昕阳,龙华,熊新,邵玉斌,杜庆治.基于并行双向门控循环单元与自注意力机制的中文文本情感分类[J].北京化工大学学报（自然科学版）,2020,47(2):115-123. 被引量：4
5胡盛伟,李弼程,林孔杰,熊尧.MaskAE:基于无监督的短文本情感迁移方法[J].中文信息学报,2020,34(2):105-112. 被引量：2
6孙敏,李旸,庄正飞,钱涛.基于BGRU和自注意力机制的情感分析[J].江汉大学学报（自然科学版）,2020,48(4):80-89. 被引量：5
7陈欢,黄勃,朱翌民,俞雷,余宇新.结合LDA与Self-Attention的短文本情感分类方法[J].计算机工程与应用,2020,56(18):165-170. 被引量：7
8刘慧敏,甄佳奇,刘勇,解洪富,许文超.基于PCA-Attention-LSTM网络的土壤氮含量监测[J].中国农机化学报,2020,41(9):190-197. 被引量：1
9柴悦,赵彤洲,江逸琪,高佩东.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(5):575-580.
10程艳,尧磊波,张光河,唐天伟,项国雄,陈豪迈,冯悦,蔡壮.基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J].计算机研究与发展,2020,57(12):2583-2595. 被引量：42

同被引文献21

1鲁强,金伟祖.基于FMM和CRFs双层分词模型的研究[J].电脑知识与技术,2008(10):166-168. 被引量：1
2胡春静,韩兆强.基于隐马尔可夫模型(HMM)的词性标注的应用研究[J].计算机工程与应用,2002,38(6):62-64. 被引量：13
3陶伟.警务应用中基于双向最大匹配法的中文分词算法实现[J].电子技术与软件工程,2016(4):153-155. 被引量：11
4周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1644
5陈希垚.关于文书档案问题分类法及工程项目档案完整性的研究——基于天津高速公路集团有限公司工程项目文书档案的实践[J].天津理工大学学报,2018,34(4):40-44. 被引量：4
6逯万辉,谭宗颖.基于深度学习的期刊分群与科学知识结构测度方法研究[J].情报学报,2020,39(1):38-46. 被引量：10
7刘艳廷,柴丽丽,刘会景,朱新超.现行专利分类系统概述及其应用场景[J].中国基础科学,2019,21(5):58-62. 被引量：3
8余本功,张培行.基于双通道特征融合的WPOS-GRU专利分类方法[J].计算机应用研究,2020,37(3):655-658. 被引量：11
9段瑞雪,巢文宇,张仰森.预训练语言模型BERT在下游任务中的应用[J].北京信息科技大学学报（自然科学版）,2020,35(6):77-83. 被引量：6
10霍光煜,张勇,孙艳丰,尹宝才.基于语义的档案数据智能分类方法研究[J].计算机工程与应用,2021,57(6):247-253. 被引量：18

引证文献2

1罗丽锦,高屹,陈颂斌,樊淼.基于改进SimBERT的藏医药专利文本分类模型研究[J].西北民族大学学报（自然科学版）,2023,44(4):53-61.
2肖雪丽,廖常辉,李惠仪.一种基于深度学习的档案文件齐全性检验方法[J].信息记录材料,2024,25(3):198-200.

1於雯.基于机器学习的网上问政文本分类方法[J].电脑知识与技术,2023,19(6):22-24.
2彭清泉,王丹.基于深度学习的医疗文本分类模型[J].电子设计工程,2023,31(5):51-54. 被引量：2
3马俊,吕璐成,赵亚娟,李聪颖.基于预训练语言模型的中文专利自动分类研究[J].中华医学图书情报杂志,2022,31(11):20-28.
4《信息系统工程》编辑部.《信息系统工程》征稿函[J].环渤海经济瞭望,2023(4).
5孙耀平,赵洁,李润伟,马强,周琰.融合ChineseBERT的电力安全隐患分类研究[J].电子设计工程,2023,31(11):16-20.
6顾紫轩,徐丽,李彤,支梦帆.基于多层次品牌认知的移动电力安全检测设备设计[J].企业科技与发展,2023(2):118-121.
7肖海艳.基于深度学习的在线教师课程评论情感分析模型[J].电子设计工程,2023,31(6):39-42. 被引量：1
8张金柱,仇蒙蒙,王秋月.基于引用内容聚类的文献被引主题识别及其演化分析[J].情报科学,2023,41(2):107-117. 被引量：5
9李瑞林,陈大庆,周国庆,李亭,莫品强,蔡尚跃,陈君,季雨坤.月球小重力及真空环境地面模拟试验系统研制[J].中国矿业大学学报,2022,51(5):823-838. 被引量：3
10Siqi Ma,Yuqi Jiang,Shuai Fu,Peigang He,Chengyue Sun,Xiaoming Duan,Dechang Jia,Paolo Colombo,Yu Zhou.3D-printed Lunar regolith simulant-based geopolymer composites with bio-inspired sandwich architectures[J].Journal of Advanced Ceramics,2023,12(3):510-525.

计算机工程与科学

2023年第5期

浏览历史

内容加载中请稍等...

融合RoBERTa的多尺度语义协同专利文本分类模型被引量：2

参考文献6

二级参考文献41

共引文献97

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合RoBERTa的多尺度语义协同专利文本分类模型 被引量：2

参考文献6

二级参考文献41

共引文献97

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合RoBERTa的多尺度语义协同专利文本分类模型被引量：2