基于预训练语言模型的中文专利自动分类研究被引量：1

Research on automatic classification of Chinese patents based on pre-trained language models

下载PDF

导出

摘要目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类。方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的RoBERTa模型(ZL-RoBERTa)和RoBERTa-wwm模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型BERT、RoBERTa进行对比分析。结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1值更为突出。结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础。 Objective To support the accurate automatic classification of large-scale Chinese patents,this paper explored the use of pre-trained language models that improved the text representation of Chinese patents to achieve automatic classification.Methods Based on the Chinese RoBERTa model,the RoBERTa model(ZL-RoBERTa)and RoBERTa-wwm model(ZL-RoBERTa-wwm)for improving the Chinese Patent text representation are obtained by using the Masked Language Model tasks of Single-word Masking strategy and Whole Word Masking strategy respectively for transfer learning on a large-scale Chinese invention patent corpus.The model was applied to the patent text classification tasks for experimental study and compared with typical deep learning models(Word2Vec+BiGRU+ATT+TextCNN)and current state-of-the-art pre-trained language models BERT and RoBERTa for analysis.Results The classification Precision/Recall/F1 values of ZL-RoBERTa-based and ZL-RoBERTa-wwm-based Chinese patent automatic classification models were more outstanding on patent text classification tasks.Conclusion The Chinese patent pre-trained language model with improved text representation is more effective for patent text classification,which provides a model basis for the subsequent application of pre-trained language models in patent intelligence work.

作者马俊吕璐成赵亚娟李聪颖 MA Jun;LV Lu-cheng;ZHAO Ya-juan;LI Cong-ying(Information Research Center of Military Sciences,Academy of Military Sciences,Beijing 100142,China;National Science Library,Chinese Academy of Sciences,Beijing 100190,China)

机构地区军事科学院军事科学信息研究中心中国科学院文献情报中心

出处《中华医学图书情报杂志》 CAS 2022年第11期20-28,共9页 Chinese Journal of Medical Library and Information Science

关键词中文专利文本表示预训练语言模型文本分类 Chinese patent Text representation Pre-trained language model Text classification

分类号 G254.1 [文化科学—图书馆学] G306 [文化科学]

引文网络
相关文献

参考文献8

1李斌,王璐,陈小荷,王东波.数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例[J].大学图书馆学报,2020,38(5):72-80. 被引量：35
2马俊,李聪颖.预训练词嵌入技术的演化与算法[J].中华医学图书情报杂志,2021,30(12):31-39. 被引量：2
3陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
4胡冰,张建立.基于统计分布的中文专利自动分类方法研究[J].现代图书情报技术,2013(7):101-106. 被引量：6
5缪建明,贾广威,张运良.基于摘要文本的专利快速自动分类方法[J].情报理论与实践,2016,39(8):103-105. 被引量：13
6刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：18
7佟昕瑀,赵蕊洁,路永和.基于预训练模型的多标签专利分类研究[J].数据分析与知识发现,2022,6(2):129-137. 被引量：9
8吕璐成,韩涛,周健,赵亚娟.基于深度学习的中文专利自动分类方法研究[J].图书情报工作,2020,64(10):75-85. 被引量：23

二级参考文献48

1陈筱芳.“春秋五霸”质疑与四霸之成功[J].西南民族大学学报（人文社会科学版）,1992,13(5):83-88. 被引量：2
2丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
3郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
4李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
5邓擘,樊孝忠,杨立公.基于统计分布与集合论的文本分类方法[J].北京理工大学学报,2006,26(7):589-592. 被引量：2
6Yoon B, Park Y. A Systematic Approach for Identifying Technolo Opportunities: Keyword - based Morphology Analysis[ Jl. Techno- logical Forecasting and Social Change, 2005, 72 ( 2 ) : 145 - 160.
7Shih M J, Liu D R, Hsu M L. Discovering Competitive Intelligence by Mining Changes in Patent Trends[ Jl. Expert Systems with Ap- plications, 2010, 37 (4) :2882 - 2890.
8赵环宇.中文专利自动分类技术的研究[D].沈阳:沈阳航空工业学院,2009.
9Mathiassen H, Ortiz - Arroyo D. Automatic Classification of Patent Applications Using Classifier Combinations[ C 3. in: Proceedings of the 7th International Conference on Intelligent Data Engineeriag and Automated Learning, Burgos, Spain. 2006 : 1039 - 1047.
10Sahon G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [ J 1- Communications of the ACM, 1975,18 ( 11 ) : 613 - 620.

共引文献109

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：35
2杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
3彭启宁,柳炳祥,付振康,贝汶瑜.侵权诉讼背景下标准必要专利价值分类识别体系构建[J].知识管理论坛,2023(6):461-475.
4雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
5徐丹.基于权利要求书的专利快速自动分类方法[J].图书情报导刊,2018,3(10):68-72. 被引量：1
6茹丽洁,张娴.专利技术相关性研究方法进展评述与展望[J].图书情报工作,2016,60(6):128-134. 被引量：7
7刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：18
8刘桂锋,汪满容,刘海军.基于概率超图半监督学习的专利文本分类方法研究[J].情报杂志,2016,35(9):187-191. 被引量：5
9李景民.分类算法在科研管理系统数据挖掘中的应用[J].黑龙江科学,2016,7(19):58-59.
10廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：42

同被引文献10

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
2刘玉琴,赖院根,雷孝平.基于IPC知识结构的专利自动分类模型[J].小型微型计算机系统,2007,28(12):2295-2298. 被引量：14
3肖丽,朱欣昱,杨青.钛行业专利信息分析及对我国企业的发展建议[J].中国发明与专利,2011(3):51-54. 被引量：1
4肖丽,王向红.浅析谷歌如何以专利运营应对诉讼风险[J].中国发明与专利,2017,14(8):32-35. 被引量：3
5刘嘉龙,丁晟春.产业领域前沿专利技术识别方法研究——以人工智能领域为例[J].信息资源管理学报,2021,11(6):95-104. 被引量：9
6王文川,朱全银,孙纪舟,马甲林.基于语义匹配的多标签多层级中文专利分类[J].微电子学与计算机,2022,39(4):91-99. 被引量：2
7严索,高婷,金海.基于专利分类体系我国绿色低碳技术专利布局状况研究[J].中国发明与专利,2023,20(6):30-37. 被引量：2
8孙保玉.印刷电路板行业专利技术分析——基于数字经济核心产业分类之电子电路制造[J].中国科技信息,2023(18):33-38. 被引量：1
9毕明月,杨祖国.我国高校战略性新兴产业专利与论文学科领域分析研究[J].中国发明与专利,2024,21(1):20-30. 被引量：1
10陈挺,冷伏海,李国鹏,王小梅.创新科学结构图谱对中美基础研究影响技术创新的揭示[J].中国科学院院刊,2024,39(3):588-600. 被引量：1

引证文献1

1洪群业,刘琦,刘春燕,郑路,李烨辉,杨申学.基于SimBERT+CNN的专利智能分类技术研究[J].中国发明与专利,2024,21(8):21-29.

1李小燕.农村生活垃圾分类处理存在问题及对策分析[J].农业开发与装备,2023(2):155-156. 被引量：1
2刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(2):74-90. 被引量：17
3李官河.一种新型的降水量检测方式[J].中国科技期刊数据库工业A,2022(3):153-157.
4孟庆广,李晓霞,宋玉玲,胡格吉勒,孟令桐.经皮微创骨折复位器的设计与研发[J].中文科技期刊数据库（全文版）医药卫生,2021(9):32-33.
5詹启刚.新规强度升级监管策略如何配套调整[J].中国农村金融,2023(8):21-22.
6张朋捷,王磊,马博,杨雅婷,董瑞,艾孜麦提·艾瓦尼尔.基于预训练语言模型的维吾尔语事件抽取[J].计算机工程与设计,2023,44(5):1487-1494. 被引量：3
7王亚亚,许光.我国纸质文献脱酸专利技术研究分析[J].档案学研究,2023(2):134-141.
8黎萍(文/图).《象山县生活垃圾分类工作操作手册》书籍装帧设计[J].设计,2023,36(9).
9孙晨瑜,王振琦,张宝宇,张卫山,侯召祥,陈涛.基于RoBERTa-ND的中文实词辨析[J].计算机系统应用,2023,32(5):157-163.
10杨超宇,陈雯君,耿显亚.基于改进SVM的中文专利文本分类比较研究[J].武汉理工大学学报（信息与管理工程版）,2023,45(2):292-298. 被引量：3

中华医学图书情报杂志

2022年第11期

浏览历史

内容加载中请稍等...

基于预训练语言模型的中文专利自动分类研究被引量：1

参考文献8

二级参考文献48

共引文献109

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的中文专利自动分类研究 被引量：1

参考文献8

二级参考文献48

共引文献109

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的中文专利自动分类研究被引量：1