基于标签注意力与多粒度网络的层级专利分类

Hierarchical patent classification based on label attention and multi-granularity network

下载PDF

导出

摘要针对中文专利的多层级自动分类任务中不同层级之间标签丰富语义信息及依赖关系和不同粒度大小的特征信息被忽略问题,提出一种RoBERTa-ALMG模型。通过RoBERTa预训练模型获取专利文本的高级语义表征,在标签注意力模块中借助双重多层感知机和注意力机制动态生成标签文本向量表示,通过前向传播过程实现不同层级之间的知识传递与信息共享,借助多粒度特征抽取模块捕捉层级之间的不同粒度特征和信息。在国家信息中心公布的数据集上的实验结果表明,该模型的表现优于其它模型。 In the multi-hierarchy automatic classification task of Chinese patents,the rich semantic information,dependencies of labels and the feature information of different granularities between hierarchies are ignored,and the RoBERTa-ALMG model was proposed.The advanced semantic representation of the patent text was obtained through RoBERTa pre-training model,and the label text vector representation was dynamically generated with the help of dual multilayer perceptron and attention mechanisms in the label attention module.Knowledge transfer and information sharing between different hierarchies were realized through the forward propagation process.Different granularity features and information between hierarchies were captured using the multi-granularity feature extraction module.Experimental results of the dataset published by the National Information Center show that the model outperforms other models.

作者廖列法张燕琴 LIAO Lie-fa;ZHANG Yan-qin(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China;Dean Office,Jiangxi Modern Polytechnic College,Nanchang 330095,China)

机构地区江西理工大学信息工程学院江西现代职业技术学院院长办公室

出处《计算机工程与设计》北大核心 2024年第10期3074-3080,共7页 Computer Engineering and Design

基金国家自然科学基金项目(71462018、71761018)。

关键词专利分类层级分类预训练模型标签注意力多粒度特征抽取特征信息信息共享 patent classification hierarchical classification pre-training model label attention multi-granularity feature extraction feature information information sharing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1赵海燕,曹杰,陈庆奎,曹健.层次多标签文本分类方法[J].小型微型计算机系统,2022,43(4):673-683. 被引量：9

二级参考文献6

1张春焰,李涛,刘峥.基于路径选择的层次多标签分类[J].计算机技术与发展,2018,28(10):37-43. 被引量：2
2邵清,马慧萍.融合self-attention机制的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(6):1137-1141. 被引量：20
3王弘中,刘漳辉,郭昆.一种基于混合词向量的胶囊网络文本分类方法[J].小型微型计算机系统,2020,41(1):218-224. 被引量：3
4张忠林,李林川,朱向其,马海云.ON-LSTM和自注意力机制的方面情感分析[J].小型微型计算机系统,2020,41(9):1839-1844. 被引量：13
5武高博,王黎明,柴玉梅,刘箴.基于层次模型和注意力机制的文本分类算法[J].中文信息学报,2020,34(11):84-95. 被引量：2
6罗玉杰,晏忠泰,杨科,彭德中.中文文本层次多标签分类算法研究[J].现代计算机,2021,27(9):8-14. 被引量：2

共引文献8

1门鼎,陈亮.基于改进Seq2Seq-Attention模型的文本摘要生成方法[J].电子设计工程,2022,30(23):6-10. 被引量：2
2李海艳,王文东,江丛君.机器学习下的新冠疫情新闻文本分类[J].延安大学学报（自然科学版）,2023,42(1):79-82. 被引量：1
3刘明浩,李鹍,李晨慧.基于微博大数据的居民情绪与建成环境关系研究——以武汉市为例[J].西部人居环境学刊,2023,38(2):24-29. 被引量：1
4王婷,朱小飞,唐顾.基于双向注意力和类生成器的小样本文本分类[J].小型微型计算机系统,2023,44(12):2744-2751.
5徐雪洁,王宝会.基于文本及历史数据的多标签专利分类算法研究[J].计算机科学,2024,51(5):172-178.
6陈帅朴,钱宇星,钱志强,刘政昊,张志剑.多重特征关联和图注意力网络融合的文献分类方法研究——以中文医学文献为例[J].情报学报,2024,43(4):470-490.
7刘昕雨,张琳,姜高霞,王文剑.标记相关性修正的多标记众包标签推断方法[J].小型微型计算机系统,2024,45(5):1025-1031.
8赵贺,洪宇,杨俊义,孙小磊,姚雨晨,陈洪锦.基于时间序列算法与匹配度的用电信息标签自动标识算法[J].微型电脑应用,2024,40(6):206-210.

1李永忠,吕菲,黄种标.基于BERT-Graphormer的中文专利文本分类模型研究[J].情报探索,2024(6):27-33.
2胡德虎.谈论及土建结构设计中的细节忽略问题[J].中文科技期刊数据库（全文版）工程技术,2016(11):18-18.
3柴亚武.铁路物资监管工作的实践和思考[J].铁路采购与物流,2024,19(8):17-20.
4瞿业.浅谈未成年犯罪人社区矫正中被忽略的问题[J].中文科技期刊数据库（文摘版）社会科学,2016(7):117-117.
5尹雅博,朱小飞,刘议丹.源域数据增强与多兴趣细化迁移的跨域推荐模型[J].浙江大学学报（工学版）,2024,58(8):1717-1727.
6《信息系统工程》编辑部.《信息系统工程》征稿函[J].环渤海经济瞭望,2024(9).
7陆正取,曾琪奥.“阅读与鉴赏”新解:体会、体验与整本书阅读教学[J].语文教学通讯,2024(39):60-63.
8黄河燕,袁长森,冯冲.融合实体和上下文信息的篇章关系抽取研究[J].自动化学报,2024,50(10):1953-1962.
9吕学强,梁虎,赵颖,游新冬.一种两阶段的中文专利语义检索方法[J].小型微型计算机系统,2024,45(10):2378-2383.
10行业·动态[J].中国信息界,2024(6).

计算机工程与设计

2024年第10期

浏览历史

内容加载中请稍等...

基于标签注意力与多粒度网络的层级专利分类

参考文献1

二级参考文献6

共引文献8

相关作者

相关机构

相关主题

浏览历史