基于朴素贝叶斯算法的水产类专利文本分类

Aquatic patent text categorization based on Naive Bayes algorithem

下载PDF

导出

摘要本文选取公开日从1992年1月1日到2011年12月31日的水产类的9 894条失效专利作为数据挖掘的文本。从中选出56条专利,利用分词器对其摘要进行分词,并通过卡方检验的方法过滤掉与分类相关度比较小的词,形成词组矩阵。然后采用朴素贝叶斯的方法对这些矩阵进行训练并设计程序。使用训练过后的程序对失效专利进行分类测试,合格后再对所有的专利的摘要文本进行分类,并对分类结果进行了分析和验证。验证的结果表明该程序对文本进行分类的准确率达到了85%,达到了比较好的可信度,可以用它对文本分类。如此我们就可以把失效的水产类专利文本按照设定的类别进行归类,了解一个时间段它们的分布情况,为以后做决策提供参考。 In this article,the aquatic product patents from Jan. 1,1992 to Dec. 31,2011 are selected as the data mining texts,and the total number is 9894. Firstly,56 patents are chosen,and the segmentation devices are used to segment the summary. Secondly,the words of small correlation are filtered with the category through the chi-square test. And a matrix of words is established. Thirdly,the Nave Bayes method is used to train the program according to the matrix. Fourthly,the program is tested after being trained. Lastly,after passing the test,the program is used to classify all the patent＇ s summaries,then to analyze and verify the results. The verification shows that the accuracy of the text classification program is 85%,Which means that we can use it to classify text. So we can categorize the lapsed aquatic patents＇ summaries according to the categories set by ourselves. Then we will have knowledge of the distribution of the lapsed aquatic patents in a period of time,which can provide a reference for the future decision.

作者范秀梅张胜茂岳冬冬

机构地区中国水产科学研究院东海水产研究所

出处《渔业信息与战略》 2014年第1期54-59,共6页 Fishery Information & Strategy

基金 "十二五"国家科技支撑计划项目(2013BAD13B01) 上海市科学技术委员会资助项目(12511501200).

关键词朴素贝叶斯文本分类卡方检验 Naive Bayes text classification chi-square test

分类号 S9-5 [农业科学—水产科学]

引文网络
相关文献

参考文献10

1张浩;汪楠.文本分类技术研究进展[J]科技信息,2007(23):95-96.
2王灏,黄厚宽,田盛丰.文本分类实现技术[J].广西师范大学学报（自然科学版）,2003,21(A01):173-179. 被引量：15
3熊志斌,刘冬.朴素贝叶斯在文本分类中的应用[J].软件导刊,2013,20(2):49-51. 被引量：12
4张申亚.文本分类技术中的特征选择算法研究[J].信阳农业高等专科学校学报,2007,17(3):125-127. 被引量：5
5王玉玲,王娟.文本分类中的特征选取算法[J].孝感学院学报,2003,23(6):35-37. 被引量：5
6王洋,刘忠.贝叶斯算法实现文本分类器[J].大众科技,2011,13(2):18-20. 被引量：1
7刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137. 被引量：23
8代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
9张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
10潘兴仪.四格表卡方检验中一个值得注意的问题[J].广西医学,2002,24(6):868-869. 被引量：3

二级参考文献35

1寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3郭祖超.医用数理统计方法（第3版）[M].北京:人民卫生出版社,1988.634-642.
4杨树勤.中国医学百科全书．医学统计分册[M].上海:上海科技出版社,1985.137.
5杨树勤.卫生部规划教材：卫生统计学（第3版）[M].北京:人民卫生出版社,1995.78.
6杨启光沈其君.高等医药院校教材：医学统计学[M].南京:江苏科学技术出版社,1995.91.
7杨瑞璋胡琳.高等医药院校选用教材：卫生管理统计学[M].哈尔滨:黑龙江科学技术出版社,1990.103.
8黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
9曹志刚钱亚生.通信原理[M].北京：清华大学出版社,2001..
10谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.

共引文献327

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
3骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
7时雷,虎晓红,席磊.基于集成学习的网页分类算法[J].郑州大学学报（理学版）,2009,41(3):26-29. 被引量：1
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

1彭小明,李爱华.教好物理概念必须做到“五明确一加深”[J].复印报刊资料（中学物理教与学）,2010(2):12-13.
2石洪波,王志海,黄厚宽.贝叶斯文本分类方法研究[J].高等财经教育研究,2002,8(S1):87-88. 被引量：2
3任喜峰.基于朴素贝叶斯分类的考试成绩监测机制研究[J].统计与决策,2007,23(22):163-164. 被引量：4
4农产品市场信息专栏[J].北京农业（上旬刊）,2008(4):51-53.
5Guangren Shi.Optimal Prediction in Petroleum Geology by Regression and Classification Methods[J].信息工程期刊（中英文版）,2015,5(2):14-32. 被引量：2
6周玉敏,邓维斌.基于主成分分析的B2C客户分类方法研究[J].计算机应用与软件,2009,26(6):72-74.
7李楚进,付泽正.对朴素贝叶斯分类器的改进[J].统计与决策,2016,32(21):9-11. 被引量：11
8学好分词逻辑主语的关键点[J].中学英语之友（新教材高二版）,2013(6):25-26.
9左红江.基于样例定邻域概率的贝叶斯分类算法[J].山西财经大学学报,2012,34(S4):256-258.
10加力康,王勤贤,杨兆建,王园媛.多源融合技术在转子系统载荷类型识别中的应用[J].煤炭技术,2015,34(12):227-230. 被引量：1

渔业信息与战略

2014年第1期

浏览历史

内容加载中请稍等...

基于朴素贝叶斯算法的水产类专利文本分类

参考文献10

二级参考文献35

共引文献327

相关作者

相关机构

相关主题

浏览历史