期刊文献+

中文专利文献自动分类 被引量:2

Chinese Patent Text Automatic Categorization System
下载PDF
导出
摘要 采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。 A Chinese patent texts automatic classification system based on KNN is implemented. Focus on the inef- ficient categorization, caused a huge number of patent texts, present the techniques of pruning redundant exemplars in order to improve the efficiency of classifier. In order to solve the performance degradation of KNN classification caused pruning exemplars lead to the accumulation of noisy exemplars, information gain is used to select the feature of patent texts and weaken the impact of the accumulation of noisy exemplars. The experiment result show that using the techniques of pruning exemplars can effectively reduce the size of the training set, and based on information gain of feature selection can improve KNN classification accuracy.
作者 陈志雄 曾辉
出处 《嘉应学院学报》 2010年第2期24-29,共6页 Journal of Jiaying University
基金 广东省知识产权局软科学研究计划项目(GDIP2008-C16) 梅州市科学研究项目(08KJ08)
关键词 专利文献 KNN分类 修剪样本 信息增益 patent KNN pruning exemplars information gain
  • 相关文献

参考文献9

二级参考文献37

  • 1李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量:2
  • 2丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报(自然科学版),2005,33(8):58-61. 被引量:12
  • 3郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量:17
  • 4黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 5Yiming Yang, An evaluation of statistical approaches to text categorization[J]. In:Journal of Information Retrieval,1999,1(2) :67 - 88.
  • 6Jian-yun Nie, Jianfeng Gao etc. On the Use of Words and N-grams for Chinese Information Retrieval[A]. Fifth International Workshop on Information Retrieval with Asian Languages [ C ]. Hong Kong, September 30 - October 1,2000.
  • 7JiaweiHan MichelineKambr.数据挖掘-概念与技术[M].高等教育出版社,2001..
  • 8Vapnik V N.The Nature of Statistical Learning Theory[M].NY:Springer Verlag,1995
  • 9Camus C, Brancaleon R. Intellectual Assets Management: from Patents to Knowledge. World Patent Information, 2003, 25:155-159.
  • 10Caterina Camus, Riccardo Brancaleon. Intellectual assets management: from patents to knowledge[J]. World Patent Information, 2003,(25):155-159.

共引文献328

同被引文献63

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部