期刊文献+

基于朴素贝叶斯算法的水产类专利文本分类

Aquatic patent text categorization based on Naive Bayes algorithem
下载PDF
导出
摘要 本文选取公开日从1992年1月1日到2011年12月31日的水产类的9 894条失效专利作为数据挖掘的文本。从中选出56条专利,利用分词器对其摘要进行分词,并通过卡方检验的方法过滤掉与分类相关度比较小的词,形成词组矩阵。然后采用朴素贝叶斯的方法对这些矩阵进行训练并设计程序。使用训练过后的程序对失效专利进行分类测试,合格后再对所有的专利的摘要文本进行分类,并对分类结果进行了分析和验证。验证的结果表明该程序对文本进行分类的准确率达到了85%,达到了比较好的可信度,可以用它对文本分类。如此我们就可以把失效的水产类专利文本按照设定的类别进行归类,了解一个时间段它们的分布情况,为以后做决策提供参考。 In this article,the aquatic product patents from Jan. 1,1992 to Dec. 31,2011 are selected as the data mining texts,and the total number is 9894. Firstly,56 patents are chosen,and the segmentation devices are used to segment the summary. Secondly,the words of small correlation are filtered with the category through the chi-square test. And a matrix of words is established. Thirdly,the Nave Bayes method is used to train the program according to the matrix. Fourthly,the program is tested after being trained. Lastly,after passing the test,the program is used to classify all the patent' s summaries,then to analyze and verify the results. The verification shows that the accuracy of the text classification program is 85%,Which means that we can use it to classify text. So we can categorize the lapsed aquatic patents' summaries according to the categories set by ourselves. Then we will have knowledge of the distribution of the lapsed aquatic patents in a period of time,which can provide a reference for the future decision.
出处 《渔业信息与战略》 2014年第1期54-59,共6页 Fishery Information & Strategy
基金 "十二五"国家科技支撑计划项目(2013BAD13B01) 上海市科学技术委员会资助项目(12511501200).
关键词 朴素贝叶斯 文本分类 卡方检验 Naive Bayes text classification chi-square test
  • 相关文献

参考文献10

二级参考文献35

  • 1寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量:25
  • 2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:387
  • 3郭祖超.医用数理统计方法(第3版)[M].北京:人民卫生出版社,1988.634-642.
  • 4杨树勤.中国医学百科全书.医学统计分册[M].上海:上海科技出版社,1985.137.
  • 5杨树勤.卫生部规划教材:卫生统计学(第3版)[M].北京:人民卫生出版社,1995.78.
  • 6杨启光 沈其君.高等医药院校教材:医学统计学[M].南京:江苏科学技术出版社,1995.91.
  • 7杨瑞璋 胡琳.高等医药院校选用教材:卫生管理统计学[M].哈尔滨:黑龙江科学技术出版社,1990.103.
  • 8黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 9曹志刚 钱亚生.通信原理[M].北京:清华大学出版社,2001..
  • 10谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.

共引文献327

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部