多示例多标签学习在中文专利自动分类中的应用研究被引量：4

Application of Multi Instance Multi Label Learning in Chinese Patent Automatic Classification

导出

摘要 [目的/意义]旨在对大量的中文专利实现快速分类,满足专利审查以及情报分析等工作的要求.[方法/过程]结合专利文本的固有格式以及存在多个IPC分类号的实际情况,将多示例多标签学习应用于专利自动分类中,在介绍几种经典的多示例多标签模型的基本原理之后,将这些模型运用于中文专利IPC分类号的确定.[结果/结论]实验证明,多示例多标签模型适合运用在专利的自动分类中,并且从Average precision、Hamming Loss、Ranking Loss、One Error、Coverage、Training time等指标分析可以发现,MIMLRBF模型能快速、准确地运用在中文专利IPC分类号的确定中,为大规模专利的自动分类提供借鉴. [Purpose/significance]In order to achieve rapid classification in a large number of Chinese patentsto meet the requirements of patent examination and intelligence analysis.[Method/process]Combined with the in-herent format of patent text and the fact that there are multiple classification numbers,this paper applied multi-in-stance multi-label learning to automatic patent classification.Firstly,several classical multi-instance multi-labellearning methods were introduced,and then these methods were applied to determine IPC number of Chinese patent.[Result/conclusion]lt is experimentally demonstrated that the multi-instance multi-label learning methods are suit-able for patent automatic classification,accortling to average precision,hamming loss,ranking loss,one error,cov-erage,training time,it is found that MIMLRBF can be used to determine the IPC number of Chinese patents quicklyand accurately,which provides a new perspective for classifying large-scale patents.

作者包翔刘桂锋崔靖华 Bao Xiang;Liu Guifeng;Cui Jinghua(Institute of Science and Technology Information,Jiangsu University,Zhenjiang 212013;School of Information Management,Nanjing University,Nanjing 210093)

机构地区江苏大学科技信息研究所南京大学信息管理学院

出处《图书情报工作》 CSSCI 北大核心 2021年第8期107-113,共7页 Library and Information Service

基金江苏省高校哲学社会科学研究一般项目“主题模型在高校图书馆知识产权信息服务中的研究与实践”(项目编号:2019SJA1870) 江苏省高校自然科学研究面上项目“基于多示例多标签学习及深度神经网络的专利主题分类研究”(项目编号:19KJB52005)研究成果之一。

关键词专利分类 IPC分类号多示例多标签 patent classification IPC multi-instance multi-label

分类号 G251 [文化科学—图书馆学]

引文网络
相关文献

参考文献10

1高莉.科技创新市场化的专利制度回应[J].江苏大学学报（社会科学版）,2017,19(1):63-69. 被引量：6
2吕璐成,韩涛,周健,赵亚娟.基于深度学习的中文专利自动分类方法研究[J].图书情报工作,2020,64(10):75-85. 被引量：23
3胡杰,李少波,于丽娅,杨观赐.基于卷积神经网络与随机森林算法的专利文本分类模型[J].科学技术与工程,2018,18(6):268-272. 被引量：22
4张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40
5温超东,曾诚,任俊伟,张䶮.结合ALBERT和双向门控循环单元的专利文本分类[J].计算机应用,2021,41(2):407-412. 被引量：24
6余本功,张培行.基于双通道特征融合的WPOS-GRU专利分类方法[J].计算机应用研究,2020,37(3):655-658. 被引量：11
7胡学钢,杨恒宇,林耀进,鲍艳伟.基于协同过滤的专利TRIZ分类方法[J].情报学报,2018,37(5):512-518. 被引量：10
8周成,魏红芹.专利价值评估与分类研究——基于自组织映射支持向量机[J].数据分析与知识发现,2019,3(5):117-124. 被引量：15
9严考碧,李志欣,张灿龙.基于主题模型的多示例多标记学习方法[J].计算机应用,2015,35(8):2233-2237. 被引量：1
10包翔,刘桂锋,杨国立.基于多示例学习框架的专利文本分类方法研究[J].情报理论与实践,2018,41(11):144-148. 被引量：8

二级参考文献84

1黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
2傅林华 ,郭建峰 ,朱建阳 .图书馆图书借阅系统与单标度二元网络模型[J].情报学报,2004,23(5):571-575. 被引量：14
3陈卫中,倪宗瓒,潘晓平,刘元元,夏彦.用ROC曲线确定最佳临界点和可疑值范围[J].现代预防医学,2005,32(7):729-731. 被引量：208
4吴汉东.罗马法的“无体物”理论与知识产权制度的学理基础[J].江西社会科学,2005,25(7):33-38. 被引量：21
5郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
6戴宏斌,张敏灵,周志华.一种基于多示例学习的图像检索方法[J].模式识别与人工智能,2006,19(2):179-185. 被引量：9
7李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
8业宁,王迪,窦立君.信息熵与支持向量的关系[J].广西师范大学学报（自然科学版）,2006,24(4):127-130. 被引量：10
9Pratt W K.数字图像处理[M].邓鲁华,张延恒译.北京:机械工业出版社,2005:299-325.
10Haykin S.神经网络原理[M].叶世伟,史忠植,译.2版.北京:机械工业出版社,2004:519-525.

共引文献135

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
3王刚,龚一峰,仝慧.高校技术转移工作市场化路径探究[J].产业与科技论坛,2019,0(19):240-241. 被引量：2
4曾素梅.供给侧改革背景下企业知识产权创新路径研究[J].产业与科技论坛,2017,16(13):204-205. 被引量：3
5王正成,李丹丹.基于词向量和情感本体的短文本情感分类[J].浙江理工大学学报（社会科学版）,2018,40(1):33-38. 被引量：3
6邬明强,张奎.结合TFIDF方法与Skip-gram模型的文本分类方法研究[J].电子技术与软件工程,2018(6):162-163. 被引量：1
7李慧,王丽婷.基于词项热度的微博热点话题发现研究[J].情报科学,2018,36(4):45-50. 被引量：16
8贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：18
9逯东,朱丽.市场化程度、战略性新兴产业政策与企业创新[J].产业经济研究,2018(2):65-77. 被引量：84
10赵乐,张兴旺.面向LDA主题模型的文本分类研究进展与趋势[J].计算机系统应用,2018,27(8):10-18. 被引量：8

同被引文献27

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
2李生珍,王建新,齐建东,朱礼军.基于BP神经网络的专利自动分类方法[J].计算机工程与设计,2010,31(23):5075-5078. 被引量：12
3陈琼娣,余翔.USPTO“绿色技术”专利检索策略研究[J].现代情报,2012,32(8):27-31. 被引量：5
4屈鹏,王惠临.专利文本分类的基础问题研究[J].现代图书情报技术,2013(3):38-44. 被引量：15
5刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：18
6田创,赵亚娟.一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J].图书情报工作,2016,60(20):123-131. 被引量：16
7廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：41
8胡杰,李少波,于丽娅,杨观赐.基于卷积神经网络与随机森林算法的专利文本分类模型[J].科学技术与工程,2018,18(6):268-272. 被引量：22
9胡学钢,杨恒宇,林耀进,鲍艳伟.基于协同过滤的专利TRIZ分类方法[J].情报学报,2018,37(5):512-518. 被引量：10
10马建红,王瑞杨,姚爽,刘双耀.基于深度学习的专利分类方法[J].计算机工程,2018,44(10):209-214. 被引量：17

引证文献4

1佟昕瑀,赵蕊洁,路永和.基于预训练模型的多标签专利分类研究[J].数据分析与知识发现,2022,6(2):129-137. 被引量：9
2彭树远,吴杰,孙权,章政,马甜甜,曾泽华.金融科技专利技术分类及识别方法研究[J].中国发明与专利,2023,20(5):10-17. 被引量：1
3邓娜,何昕洋,陈伟杰,陈旭.MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型[J].数据分析与知识发现,2023,7(4):145-158.
4徐雪洁,王宝会.基于文本及历史数据的多标签专利分类算法研究[J].计算机科学,2024,51(5):172-178.

二级引证文献10

1卢小宾,鲁国轩,杨冠灿,祁天娇.政府网站开放公文主题分类自动标注方法[J].档案学通讯,2022(5):19-27. 被引量：4
2马雨萌,黄金霞,王昉,芮啸.融合BERT与多尺度CNN的科技政策内容多标签分类研究[J].情报杂志,2022,41(11):157-163. 被引量：5
3周晓燕.基于TRIZ理论的专利专题数据库分类标准研究[J].产业创新研究,2022(24):108-110. 被引量：2
4吴洁,桂亮,刘鹏,盛永祥.多维特征视角下基于图卷积网络的专利技术领域自动识别研究[J].中国管理科学,2022,30(12):185-197. 被引量：4
5马俊,吕璐成,赵亚娟,李聪颖.基于预训练语言模型的中文专利自动分类研究[J].中华医学图书情报杂志,2022,31(11):20-28.
6刘燕,闫文,张明.基于专利分析的海洋渔业全产业链创新研究[J].现代农业科技,2023(12):217-220.
7邓娜,何昕洋,陈伟杰,陈旭.MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型[J].数据分析与知识发现,2023,7(4):145-158.
8赵雪峰,吴德林,吴伟伟,孙卓荦,胡瑾瑾,廉莹,单佳宇.基于深度学习与多分类轮询机制的高质量“卡脖子”技术专利识别模型——以专利申请文件为研究主体[J].数据分析与知识发现,2023,7(8):30-45. 被引量：4
9冉从敬,田文芳.融合SVM-LDA与加权相似度的潜在新兴技术识别研究——以人工智能领域为例[J].情报学报,2024,43(5):563-574.
10易秋平,黄剑梅.数字技术与金融服务业融合度测算与分析[J].科技管理研究,2024,44(9):55-62.

1王玉梅(译),杨望(译),薛晓萱(译).开源威胁情报的数据融合——DiSIEM项目及其研究成果(六)[J].中国教育网络,2021(2):45-46.
2稿件要求[J].导航与控制,2021,20(1).
3李蒙蒙.网络安全分析中大数据技术应用分析[J].信息技术与信息化,2021(4):225-226. 被引量：3
4孙爽.基于ISM模型的汽车内饰紧固件生产系统失效因素分析[J].市场周刊·理论版,2020(69):148-150.
5马建红,张少光,曹文斌,王晨曦.面向功能信息的相似专利动态聚类混合模型[J].计算机应用与软件,2021,38(5):201-207. 被引量：2
6李恩翀,张晨洁,赵中原.基于重整化群理论的采空区群稳定性分析[J].采矿技术,2021,21(3):88-91. 被引量：1
7郭帅,苏旸.基于数据流的加密流量分类方法[J].计算机应用,2021,41(5):1386-1391. 被引量：8
8谢倩倩,耿秀丽.复杂产品制造过程人为因素分析及纠正措施决策[J].机械设计与研究,2021,37(2):139-142.
9王斌,何坤,王丹.基于图像多尺度分解的前景提取[J].四川大学学报（自然科学版）,2021,58(3):45-52. 被引量：4
10郑智,陈伟,梁宜,张雅婧.基于投入产出技术的全球生产网络时空格局演变及驱动因素分析[J].Journal of Geographical Sciences,2021,31(5):641-663. 被引量：5

图书情报工作

2021年第8期

浏览历史

内容加载中请稍等...

多示例多标签学习在中文专利自动分类中的应用研究被引量：4

参考文献10

二级参考文献84

共引文献135

同被引文献27

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

多示例多标签学习在中文专利自动分类中的应用研究 被引量：4

参考文献10

二级参考文献84

共引文献135

同被引文献27

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

多示例多标签学习在中文专利自动分类中的应用研究被引量：4