基于深度学习的中文专利自动分类方法研究被引量：23

Research on the Method of Chinese Patent Automatic Classification Based on Deep Learning

导出

摘要 [目的/意义]面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程]针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论]实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。 [Purpose/significance]In order to meet the needs of classifying massive patent automatically in current patent examination and patent information analysis work,this paper studies a series of patent automatic classification methods based on deep learning and compares the classification effects.This will promote the efficiency and effectiveness of patent classification.[Method/process]Aiming at the shortcoming of traditional machine learning methods,7 deep learning models was designed,including Word2Vec+TextCNN,Word2Vec+GRU,Word2Vec+BiGRU,Word2Vec+BiGRU+TextCNN and so on.These models based on the deep learning technology,such as Word2Vec,CNN,RNN,Attention mechanism and so on and considered the characteristics of patent text word order,context features and other key features in classification.Selecting the‘Section’of main International Patent Classification(IPC)was as the class labels,the study classified the Chinese patents by above 7 deep learning models and 3 traditional machine learning methods.And there was a comparison about the effect of classification in different models.[Result/conclusion]The empirical research indicated that it reached the better effect of Chinese patent classification by using deep learning methods which considered the characteristics of patent text word order,context features and other key features in classification.

作者吕璐成韩涛周健赵亚娟 Lyu Lucheng;Han Tao;Zhou Jian;Zhao Yajuan(National Science Library,Chinese Academy of Sciences,Beijing 100190;Department of Library,Information and Archives Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190;Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190)

机构地区中国科学院文献情报中心中国科学院大学经济与管理学院图书情报与档案管理系中国科学院计算技术研究所

出处《图书情报工作》 CSSCI 北大核心 2020年第10期75-85,共11页 Library and Information Service

基金中国科学院青年人才项目"基于深度学习的专利所属产业分类"(项目编号:G180161001)研究成果之一。

关键词专利自动分类深度学习词嵌入专利文本挖掘 patent automatic classification deep learning word embedding patent text mining

分类号 G254.11 [文化科学—图书馆学]

引文网络
相关文献

参考文献8

1李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
2胡正银,方曙,文奕,张娴,梁田.面向TRIZ的专利自动分类研究[J].现代图书情报技术,2015(1):66-74. 被引量：14
3田创,赵亚娟.一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J].图书情报工作,2016,60(20):123-131. 被引量：16
4刘龙繁,李彦,侯超异,李文强.基于功能基的专利信息挖掘与自动分类实验研究[J].四川大学学报（工程科学版）,2016,48(5):105-113. 被引量：5
5马建红,王瑞杨,姚爽,刘双耀.基于深度学习的专利分类方法[J].计算机工程,2018,44(10):209-214. 被引量：17
6胡杰,李少波,于丽娅,杨观赐.基于卷积神经网络与随机森林算法的专利文本分类模型[J].科学技术与工程,2018,18(6):268-272. 被引量：23
7翟继强,王克奇.依据TRIZ发明原理的中文专利自动分类[J].哈尔滨理工大学学报,2013,18(3):1-5. 被引量：11
8贾杉杉,刘畅,孙连英,刘小安,彭涛.基于多特征多分类器集成的专利自动分类研究[J].数据分析与知识发现,2017,1(8):76-84. 被引量：10

二级参考文献86

1李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
2顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4LiuBing.Web数据挖掘[M].北京:清华大学出版社,2009.
5Vapnik V N.The Nature of Statistical Learning Theory[M].NY:Springer Verlag,1995
6HE Cong, HAN Tong Loh. Grouping of TRIZ Inventive Principles to Facilitate Automatic Patent Classification [ J ]. Expert Systems with Applications, 2008, 34( 1 ) :788 -795.
7WEBB Alan. TRIZ: An Inventive Approach to Invention [ J ]. Manufacturing Engineer, 2002, 81 (4) :171 - 177.
8蔡小艳,寇应展.汉语词法分析系统ICTCLAS在Nutch中的应用与实现[J].军械程学院学报,2008,20(5):63-66.
9VERHAEGEN P A. Relating Properties and Functions From Pa- tents to TRIZ Trends[ J]. CIRP Journal of Manuthcturing Science and Technology, 2009, 1 (3) :126 - 130.
10LIANG Yanhong, TAN Runhua, MA Jianhong. Patent Analysis with Text Mining for TRIZ [ C ]//Proceedings of the 4th IEEE In- ternational Conference on Management of Innovation and Technol- ogy, ICMIT, 2008 : 1147 - 1151.

共引文献99

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友.广东刀剪产业转型升级技术发展路径研究——基于专利TRIZ分析[J].数据分析与知识发现,2020,4(2):101-109. 被引量：5
3吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
4田冬阳.一种基于改进支持向量机的文本倾向性分类算法[J].微型电脑应用,2011(3):34-37. 被引量：3
5王春娟,谭显胜,袁哲明,熊洁仪.头孢菌素类抗生素的定量构效关系研究[J].现代生物医学进展,2007,7(11):1718-1722. 被引量：1
6王彦明,奉永桃,奉国和.1999-2008年我国SVM文本分类文献计量分析[J].图书情报工作,2009,53(20):106-109. 被引量：2
7于秋玲.基于改进NN-SVM算法的网络入侵检测[J].系统工程理论与实践,2010,30(1):126-130. 被引量：6
8陈志雄,曾辉.中文专利文献自动分类[J].嘉应学院学报,2010,28(2):24-29. 被引量：2
9洪智勇,刘华,邓维斌,秦克云.基于粗糙集与相关向量机的文本分类新方法[J].计算机仿真,2010,27(7):183-186. 被引量：3
10金菁.基于改进的聚类平均信息量文本数据挖掘算法研究[J].计算机应用研究,2012,29(3):981-983. 被引量：3

同被引文献304

1苏媛,李广培.绿色技术创新能力、产品差异化与企业竞争力——基于节能环保产业上市公司的分析[J].中国管理科学,2021,29(4):46-56. 被引量：67
2胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
3张金柱,王玥,胡一鸣.基于专利科学引文内容表示学习的科学技术主题关联分析研究[J].数据分析与知识发现,2019,3(12):52-60. 被引量：5
4陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
5孙迪.科技文献标引问题探析——以国家图书馆为例[J].图书馆建设,2020,0(1):101-108. 被引量：3
6蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：60
7吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
8张蕴娣,于宁,赵闯.国内图情领域区块链研究热点与展望[J].情报科学,2022,40(10):187-192. 被引量：4
9陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
10陈梅梅,刘利梅,施驰玮,戴伟辉.推荐规模对个性化推荐系统用户决策的影响研究[J].南开管理评论,2020,0(1):180-188. 被引量：11

引证文献23

1刘琦,朱欣昱.使用神经网络技术对中国专利过档数据进行CPC分类的实证研究[J].中国发明与专利,2021,18(1):71-75.
2包翔,刘桂锋,崔靖华.多示例多标签学习在中文专利自动分类中的应用研究[J].图书情报工作,2021,65(8):107-113. 被引量：5
3张玉洁,白如江,刘明月,于纯良.融合语义联想和BERT的图情领域SAO短文本分类研究[J].图书情报工作,2021,65(16):118-129. 被引量：11
4周泽聿,王昊,赵梓博,李跃艳,张小琴.融合关联信息的GCN文本分类模型构建及其应用研究[J].数据分析与知识发现,2021,5(9):31-41. 被引量：4
5程盼,徐弼军.基于word2vec和logistic回归的中文专利文本分类研究[J].浙江科技学院学报,2021,33(6):454-460. 被引量：5
6吕璐成,韩涛,陈芳,王学昭,赵亚娟,郭世杰.美国商业管制清单与专利自动映射方法及实证研究[J].情报学报,2022,41(1):50-61. 被引量：7
7吕璐成,赵亚娟,王学昭,韩涛,赵萍,张迪.基于表示学习的技术融合差异度测度方法及其效果研究[J].图书情报工作,2022,66(4):118-128. 被引量：5
8佟昕瑀,赵蕊洁,路永和.基于预训练模型的多标签专利分类研究[J].数据分析与知识发现,2022,6(2):129-137. 被引量：9
9王文川,朱全银,孙纪舟,马甲林.基于语义匹配的多标签多层级中文专利分类[J].微电子学与计算机,2022,39(4):91-99. 被引量：2
10鲍彤,罗瑞,郭婷,贵淑婷,任妮.基于BERT字向量和TextCNN的农业问句分类模型分析[J].南方农业学报,2022,53(7):2068-2076. 被引量：7

二级引证文献83

1彭启宁,柳炳祥,付振康,贝汶瑜.侵权诉讼背景下标准必要专利价值分类识别体系构建[J].知识管理论坛,2023(6):461-475.
2佟昕瑀,赵蕊洁,路永和.基于预训练模型的多标签专利分类研究[J].数据分析与知识发现,2022,6(2):129-137. 被引量：9
3荣国阳,李长玲,范晴晴,申力旭.基于多路径分析的跨学科潜在知识组合识别——以引文分析领域为例[J].情报理论与实践,2022,45(6):17-23. 被引量：4
4裘凯凯,丁伟杰,钟南江.基于ERNIE-SA-DPCNN的文本分类研究--以涉网新型犯罪案件文本为例[J].现代信息科技,2022,6(6):69-74.
5熊文静,袁蒙蒙.基于双边滤波的HDR视频图像色调映射处理方法[J].长江信息通信,2022,35(7):45-47. 被引量：1
6徐绪堪,印家伟,王晓娇.基于BERT模型的“互联网+政务”群众留言文本热点追踪研究[J].情报杂志,2022,41(9):136-142. 被引量：8
7卢小宾,鲁国轩,杨冠灿,祁天娇.政府网站开放公文主题分类自动标注方法[J].档案学通讯,2022(5):19-27. 被引量：4
8马雨萌,黄金霞,王昉,芮啸.融合BERT与多尺度CNN的科技政策内容多标签分类研究[J].情报杂志,2022,41(11):157-163. 被引量：8
9冯梦莹,白如江,张玉洁,王效岳,耿振东,王志民.面向数字人文的稷下思想自动分类研究[J].图书情报工作,2022,66(19):26-35. 被引量：1
10冯小东,惠康欣.基于异构图神经网络的社交媒体文本主题聚类[J].数据分析与知识发现,2022,6(10):9-19. 被引量：4

1陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
2郑丽霞,林卓,林静静.循证方法在专利情报分析中的应用研究[J].中国科技资源导刊,2020,52(2):7-16. 被引量：1
3唐毅,方儒.基于专利地图的中国区块链研究分析[J].内蒙古科技与经济,2020,0(7):3-6. 被引量：3
4陈丹丹,苏珊珊,虞红春,罗立.基于专利分析的丁基苯酞类化合物发展态势研究[J].医学信息学杂志,2020,41(2):39-44.
5刘希.“互联网+”模式下的新业态技术方案可专利性研究[J].法制与社会（旬刊）,2020,0(6):220-221.
6阮刚,颜值.专利侵权判定中的使用环境特征研究[J].楚天法治,2019,0(24):112-113.
7邓桦,刘志伟,陈超.全球人类表型组专利技术的发展与启示[J].世界科技研究与发展,2019,41(5):464-477. 被引量：2
8甄园宜,郑兰琴.基于深度神经网络的在线协作学习交互文本分类方法[J].现代远程教育研究,2020,32(3):104-112. 被引量：16
9茹仙古丽·艾尔西丁,裴世宇,严传波,姚娟.基于深度学习的肝包虫疾病图像分类[J].中国数字医学,2020,15(4):2-4. 被引量：3
10胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9

图书情报工作

2020年第10期

浏览历史

内容加载中请稍等...

基于深度学习的中文专利自动分类方法研究被引量：23

参考文献8

二级参考文献86

共引文献99

同被引文献304

引证文献23

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文专利自动分类方法研究 被引量：23

参考文献8

二级参考文献86

共引文献99

同被引文献304

引证文献23

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文专利自动分类方法研究被引量：23