专利文本分类的基础问题研究被引量：15

Fundamental Research Questions in Patent Text Categorization

导出

摘要对专利文本分类中的基础问题进行研究,包括术语作为专利文本分类特征的适用性,主权项字段分类研究和相近主题对分类结果的影响等。研究在两种朴素贝叶斯分类器、kNN、Racchio和支持向量机等5个分类器上进行,测试主要采用交叉验证的方法。研究结果显示,在同样的设定下,采用术语作为特征的分类结果优于使用一般特征词;使用摘要训练,对主权项进行分类有助于改善主权项的分类效果;相近主题会降低分准率,有必要设计层次的分类器进行分类试验。研究结果可以为专利文本分类研究和实践提供参考数据,并可作为信息分析等工作使用专利文本分类技术的参考。 The paper focuses on some fundamental problems in patent text categorization, including the feasibility of using terms for automatic categorization, the research on claim categorization, and the effect of classes with close - related topics on the categorization result. The research is executed on two Naive Bayesian classifiers, kNN, Racchio and SVM classifier, and cross validation is used for testing. The results of the paper are that terms are better than common features under the same settings, that training a classifier with s can improve the claim categorization results, and that clas- ses with close- related topics result in low precision and hierarchical design of classifier is necessary, correspondingly. The paper provides fundamental data for patent text categorization and can be referred by information analysis and other applications using patents.

作者屈鹏王惠临

机构地区中国科学技术信息研究所

出处《现代图书情报技术》 CSSCI 北大核心 2013年第3期38-44,共7页 New Technology of Library and Information Service

基金第51批中国博士后科学基金面上资助一等资助项目"科技文本信息资源中术语抽取与基于术语的分类与聚类"(项目编号:2012M510040) 中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2012-6)的研究成果之一

关键词专利文本分类文本挖掘 Patent Text categorization Text mining

分类号 G353.1 [文化科学—情报学]

引文网络
相关文献

参考文献13

1李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：22
2丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
3郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
4蒋健安,陆介平,倪巍伟,孙志挥.一种面向专利文献数据的文本自动分类方法[J].计算机应用,2008,28(1):159-161. 被引量：14
5李生珍,王建新,齐建东,等.基于BP神经网络的专利自动分类法[J].计算机工程与没计,2010,31(23):5075-5078.
6季铎,蔡云雷,蔡东风,苗雪雷.基于共享最近邻的专利自动分类技术研究[J].沈阳航空工业学院学报,2010,27(4):41-46. 被引量：6
7Li Y Y ,Bontcheva K,Cunningham H. SVM Based Learning System for F - term Patent Classification [ C ]. In : Proceedings of the 6th NTCIR Work.hop Meeting on Ewduation of InfiJrmation Access Tech- nologies: Information Retrieval, Question Answering and CrossLing- ual Information Access. 2007.
8Fall C J, T,rcsv6ri A, Benzineb K, et al. Automated Categoriza- tion in the International Patent Classification [ J/OL]. ACM SIGIR Forum,2003,37(1 ) :10 -25. [2013 -03 -07]. http://www. sigir, org/forum/S2OO3/CJF_ Manuscript_sigir. pdf.
9Lai K K, Wu S J. Using the Patent Co - citation Approach to Es- tablish a New Patent Classification System [ J ]. Information Pro- cessing and Management, 2005. 41 (2) : 313 -330.
10Li X, Chen H, Zhang Z, et al. Automatic Patent ClassificationUsing Citation Network Information: An Experimental Study in Nanotechnology[ C ]. In: Proceedings of the 7th ACM/IEEE - CS Joint Conference on Digital Libraries. New York: ACM, 2007 : 419 - 427.

二级参考文献61

1李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
2郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
3Peters C. , Koster C. H. A. Uncertainty - based noise reduction and term selection in text categorization [A]. Advances in Information Retrieval: 24th BCS - IRSG European Colloquium on IR Research [ C ]. Glasgow, 2002 : 25 - 27.
4Larkey L.S. Some issues in the automatic classification of U. S. patents[ A]. AAAI - 98 Workshop on Learning for Text Categorization[ C]. Menlo Park, 1998:87 -90.
5Larkey L.S. A patent search and classification system [ A ]. Proceedings of the 4th ACM conference on Digital Libraries [ C ]. Berkeley, 1999 : 179 - 187.
6Larkey L. S. , Connell M. E. , Callan J. Collection selection and results merging with topically organized US patents and TREC data [A]. Proceedings of the 9th International Conference on Information and Knowledge Management (CIKM) [ C ]. Washington D. C. , 2000:282-289.
7Fall C. J. , T rcsvari A. , Benzineb K. , et al. Automated categorization in the international patent classification [ J]. ACM SIGIR Forum, 2003, 37(1):10-25.
8Iwayama M. , Fujii A. , Kando N. Overview of patent retrieval task at NTCIR-3[A]. ACL-2003 Workshop on Patent Corpus Processing[C]. Sapporo, 2003:24 - 32.
9Li Y. , Bontcheva K. , Cunningham H. SVM based learning system for f-term patent classification[ A]. Proceedings of the 6th NTCIR Workshop Meeting[ C]. Tokyo, 2007 : 15 - 18.
10Li Y. , Bontcheva K. , Cunningham H. Cost sensitive evaluation measures for f - term patent classification [A]. Proceedings of the 1 st International Workshop on Evaluating Information Access (EVIA) [C]. Tokyo, 2007:44 -53.

共引文献60

1田冬阳.一种基于改进支持向量机的文本倾向性分类算法[J].微型电脑应用,2011(3):34-37. 被引量：3
2罗海飞,吴刚,杨金生.基于贝叶斯的文本分类方法[J].计算机工程与设计,2006,27(24):4746-4748. 被引量：13
3胡中波,熊盛武.混合进制及其在贝叶斯网络结构学习中的应用[J].计算机工程与设计,2007,28(3):504-505. 被引量：1
4杜红,刘强国.贝叶斯统计识别法在录井油气评价中的应用[J].计算机工程与设计,2007,28(11):2720-2722. 被引量：1
5王春娟,谭显胜,袁哲明,熊洁仪.头孢菌素类抗生素的定量构效关系研究[J].现代生物医学进展,2007,7(11):1718-1722. 被引量：1
6刘玉琴,桂婕,朱东华.基于IPC知识结构的专利自动分类方法[J].计算机工程,2008,34(3):207-209. 被引量：15
7冯少荣,肖文俊.基于语义距离的高效文本聚类算法[J].华南理工大学学报（自然科学版）,2008,36(5):30-37. 被引量：15
8陈赣,陆庭辉,文贵华.专利文本的可视化及应用[J].计算机工程与设计,2009,30(3):759-762. 被引量：2
9王彦明,奉永桃,奉国和.1999-2008年我国SVM文本分类文献计量分析[J].图书情报工作,2009,53(20):106-109. 被引量：2
10于秋玲.基于改进NN-SVM算法的网络入侵检测[J].系统工程理论与实践,2010,30(1):126-130. 被引量：6

同被引文献171

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
3丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
4郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
5刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
6郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
7李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：22
8袁冰,朱东华,任智军.基于数据挖掘技术的专利情报分析方法及实证研究[J].情报杂志,2006,25(12):99-101. 被引量：30
9刘玉琴,赖院根,雷孝平.基于IPC知识结构的专利自动分类模型[J].小型微型计算机系统,2007,28(12):2295-2298. 被引量：13
10Kontostathis A,Pottenger W M. A Mathematical View of Latent Semantic Indexing:Tracing Term Co-occurrences[Technical Report,LU-CSE-02-006][R].Dept.of Computer Science and Engineering,Lehigh University,2002.

引证文献15

1毕臣,季铎,蔡东风.基于专利信息的潜在语义索引优化技术的研究[J].山西大学学报（自然科学版）,2014,37(1):26-33.
2赵刚,宋健豪.基于系统调用时间特征的异常行为智能检测系统[J].计算机应用与软件,2015,32(4):309-313. 被引量：4
3季铎,毕臣,蔡东风.基于类别信息优化的潜在语义分析分类技术[J].中国科学技术大学学报,2015,45(4):314-320. 被引量：5
4刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：17
5刘桂锋,汪满容,刘海军.基于概率超图半监督学习的专利文本分类方法研究[J].情报杂志,2016,35(9):187-191. 被引量：4
6廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：40
7艾楚涵,熊新,吴建德.基于LDA主题模型的专利文本分析应用研究[J].科技和产业,2019,19(3):77-82. 被引量：5
8赵阳,文庭孝.专利技术信息挖掘研究进展[J].图书馆,2018(4):28-36. 被引量：22
9李姝影,张鑫,许轶,许海云,张娴,朱月仙.核心专利集筛选及专利技术主题识别影响[J].情报学报,2019,38(1):13-20. 被引量：13
10余本功,张培行.基于双通道特征融合的WPOS-GRU专利分类方法[J].计算机应用研究,2020,37(3):655-658. 被引量：11

二级引证文献123

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：4
3吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
4张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
5陈国柱.“大洲和大洋”教学方法浅探[J].地理教学,2000(8):23-24.
6朱全银,潘禄,刘文儒,李翔,张永军,刘金岭.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24. 被引量：3
7杜隆胤.基于语义分析在计算机技术文本分类中的应用研究[J].现代电子技术,2016,39(5):147-148. 被引量：2
8聂黎生,李欣,李小红.一种高效率的主动式漏洞挖掘平台[J].现代电子技术,2016,39(9):93-98. 被引量：1
9廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：40
10贾杉杉,刘畅,孙连英,刘小安,彭涛.基于多特征多分类器集成的专利自动分类研究[J].数据分析与知识发现,2017,1(8):76-84. 被引量：10

1王梦竹.民国时期的书籍装帧与设计[J].大众文艺（学术版）,2016(15):123-123.
2常永花.市级科技情报部门开展竞争情报工作初探[J].科技情报开发与经济,2007,17(17):110-111. 被引量：1
3朱咫渝.谈中文搜索引擎对网络信息的分类[J].图书馆研究与工作,2002(4):7-8.
4朱咫渝.谈中文搜索引擎对网络信息的分类[J].大学图书情报学刊,2003,21(1):71-72. 被引量：2
5傅荣贤.《汉书·艺文志》图书分类特征论[J].图书馆工作与研究,1996(3):13-17. 被引量：2
6王立清.浅谈中文搜索引擎的分类目录[J].现代情报,2001,21(6):8-9. 被引量：4
7廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：40
8李守素,梁松.试论类书的分类体系与分类技术[J].大学图书馆学报,1989,7(5):22-28. 被引量：6
9李大明.税收筹划的分类研究[J].涉外税务,2005(4):69-71. 被引量：2
10李海燕.我国个人信息合理使用制度基础问题研究[J].金卡工程（经济与法）,2011,15(5):205-205.

现代图书情报技术

2013年第3期

浏览历史

内容加载中请稍等...

专利文本分类的基础问题研究被引量：15

参考文献13

二级参考文献61

共引文献60

同被引文献171

引证文献15

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

专利文本分类的基础问题研究 被引量：15

参考文献13

二级参考文献61

共引文献60

同被引文献171

引证文献15

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

专利文本分类的基础问题研究被引量：15