基于二维信息增益加权的朴素贝叶斯分类算法被引量：4

Naive Bayes Classification Algorithm of Feature Weighting Based on Two-Dimensional Information Gain

下载PDF

导出

摘要由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右. Naive Bayes algorithm is based on feature-independence assumption and the traditional TF-IDF weighting algorithm, and only considers the distribution of features in the whole training set, but ignores the relationship between feature and categories or documents, so the weights given by traditional method cannot represent its performance. To solve the above problems, this study proposes a naive Bayes classification algorithm of feature weighting based on twodimensional information gain. It considers the effects of two-dimensional information gain of features, which are the information gain of category and the information gain of documents. Compared with the traditional naive Bayesian algorithm of feature weighting, the proposed algorithm can improve about 6% in the precision, recall, F1 value performance.

作者任世超黄子良 REN Shi-Chao;HUANG Zi-Liang(School of Communication Engineering,Chengdu University of Information Engineering,Chengdu 610225,China)

机构地区成都信息工程大学通信工程学院

出处《计算机系统应用》 2019年第6期135-140,共6页 Computer Systems & Applications

关键词朴素贝叶斯文本分类特征加权二维信息增益加权算法 naive Bayes text classification feature weighting two-dimensional information gain weighting algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1邸鹏,段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理,2014,29(1):71-75. 被引量：51
2李忠波,杨建华,刘文琦.基于数据填补和连续属性的朴素贝叶斯算法[J].计算机工程与应用,2016,52(1):133-140. 被引量：4
3张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
4李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
5饶丽丽,刘雄辉,张东站.基于特征相关的改进加权朴素贝叶斯分类算法[J].厦门大学学报（自然科学版）,2012,51(4):682-685. 被引量：30
6武建军,李昌兵.基于互信息的加权朴素贝叶斯文本分类算法[J].计算机系统应用,2017,26(7):178-182. 被引量：13
7贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：70
8李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法[J].计算机工程,2011,37(1):16-18. 被引量：9

二级参考文献118

1宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3杨道理,李保昌.蛋白质纯化的方法选择[J].实用医药杂志,2004,21(12):1121-1123. 被引量：11
4赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
5宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
6陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
7张其文,李明.一种缺失数据的填补方法[J].兰州理工大学学报,2006,32(2):102-104. 被引量：7
8李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
10程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40

共引文献231

1马飞虎,曾聪,金依辰,孙翠羽,陈华鹏.一种基于属性加权朴素贝叶斯算法的OTSU图像分割方法[J].应用科学学报,2022,40(2):224-232. 被引量：10
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
4李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
5葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
6呼声波,刘希玉.网页分类中特征提取方法的比较与改进[J].山东师范大学学报（自然科学版）,2008,23(3):35-37. 被引量：6
7亢俊健,杜在林,张新东,朱群英.使用信息增益方法选择分类器[J].计算机工程与应用,2009,45(14):158-160.
8余胜,李绍滋,郭锋,张帆.特征表示方法在中医食疗上的应用[J].厦门大学学报（自然科学版）,2009,48(3):354-358. 被引量：2
9陈培,高维.恶意代码行为获取的研究与实现[J].计算机应用,2009,29(B12):76-78. 被引量：7
10何玲,罗玉双.基于相对比较法的文本特征提取[J].福建电脑,2010,26(1):83-83. 被引量：1

同被引文献45

1牟永敏,李美贵,梁琦.入侵检测系统中模式匹配算法的研究[J].电子学报,2006,34(B12):2488-2490. 被引量：20
2陈丹伟,黄秀丽,任勋益.基于人工神经网络入侵检测模型的探讨[J].计算机技术与发展,2009,19(12):143-145. 被引量：2
3王晟,赵壁芳.基于模糊数据挖掘和遗传算法的网络入侵检测技术[J].计算机测量与控制,2012,20(3):660-663. 被引量：28
4边平勇,石永奎,张序萍.基于贝叶斯分类器的煤与瓦斯突出强度预测研究[J].佳木斯大学学报（自然科学版）,2013,31(6):890-894. 被引量：7
5朱克楠,尹宝林,冒亚明,胡英男.基于有效窗口和朴素贝叶斯的恶意代码分类[J].计算机研究与发展,2014,51(2):373-381. 被引量：14
6陈科,李之棠.网络入侵检测系统和防火墙集成的框架模型[J].计算机工程与科学,2001,23(2):26-28. 被引量：44
7吴应良,韦岗,李海洲.一种基于N-gram模型和机器学习的汉语分词算法[J].电子与信息学报,2001,23(11):1148-1153. 被引量：23
8谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64
9邹永洺,张占存.新型钻孔瓦斯涌出初速度测定钻杆研究[J].煤矿安全,2016,47(3):20-23. 被引量：3
10杨小健,朱月,钱景辉.基于FCM-ANN的化工储罐异常检测方法研究[J].计算机应用与软件,2017,34(2):214-219. 被引量：2

引证文献4

1阎馨,朱永浩,屠乃威,吴书文,王雨虹.基于PCA与权重贝叶斯的工作面煤与瓦斯突出预测[J].计算机工程,2021,47(8):315-320. 被引量：11
2产院东,孟剑萍,郭乔进,吴其华,梁中岩,胡杰.基于机器学习的恶意软件分析算法[J].信息化研究,2022,48(3):23-30.
3产院东,沈鸿喆,张欣怡,杨留磊,胡杰,夏爽.基于机器学习的零日攻击检测技术综述[J].信息化研究,2024,50(3):1-7.
4产院东,沈鸿喆,张欣怡,杨留磊,胡杰,夏爽.一种基于机器学习的内部威胁检测算法[J].信息化研究,2024,50(5):25-31.

二级引证文献11

1舒一飞,郭汶昇,樊博,康洁滢,许诗雨,杨林.基于实例和属性加权朴素贝叶斯的电气故障分类研究[J].计算机测量与控制,2022,30(5):169-174. 被引量：1
2鲁锦涛,贾小榕,郭昕曜.基于改进灰色预测的瓦斯突出敏感指标分析[J].中国安全科学学报,2022,32(11):74-81. 被引量：5
3胡青,曲润,胡珍,龚世才.基于PCA-IPSO-SVM的葡萄酒分类研究[J].重庆科技学院学报（自然科学版）,2023,25(2):103-109.
4温廷新,高倩.基于AE-CLSSA-ELM的煤与瓦斯突出危险性预测模型[J].中国安全生产科学技术,2023,19(5):73-79. 被引量：2
5苌延辉.基于SVM-MFOA的煤矿采掘工作面瓦斯涌出量预测方法[J].煤矿机械,2023,44(7):183-186. 被引量：1
6岳喜超,王勇,陈乐,王超群.结合主成分与熵权的关键变量筛选算法[J].中国电子科学研究院学报,2023,18(7):671-679.
7刘璐,季嘉琪,苗德俊.基于ELM-CBR的采煤工作面顶板冒落危险性预测与管理[J].山东煤炭科技,2023,41(11):166-170.
8薛生,郑晓亮,袁亮,来文豪,张玉婷.基于机器学习的煤与瓦斯突出预测研究进展及展望[J].煤炭学报,2024,49(2):664-694. 被引量：3
9李宛桐,夏方方,朱旖旎,赵胜磊,杨紫云,王金鑫.基于机器学习的煤与瓦斯突出危险性评估和预警研究进展[J].中国煤炭,2024,50(7):52-62.
10渠立秋.基于鲸鱼优化算法的神经网络在煤矿瓦斯事故风险预测中的研究[J].矿山机械,2024,52(8):68-72.

1邓时滔,干阳琳,赵乾.关键词抽取在协同管理中的应用[J].科技创新导报,2019,16(4):200-201.
2张晓雪.基于Mask R-CNN的自动驾驶目标检测分析[J].科学与信息化,2019,0(11):115-117. 被引量：1
3李晓君,刘战强,沈琦,王兵.基于加工特征的整体叶盘数控编程与加工参数优化[J].组合机床与自动化加工技术,2019,0(3):153-156. 被引量：9
4刘慧婷,刘志中,王利利,吴信东.一般间隙序列模式挖掘的关键词抽取[J].电子学报,2019,47(5):1121-1128. 被引量：3
5单良,刘欣.基于中国历史人物知识的智能问答系统构建[J].情报探索,2019,0(6):101-105. 被引量：6
6殷子彦,裴瑞光,林晨.基于图计算的企业员工异常网络行为检测方法[J].信息技术与标准化,2019(5):76-80.
7李咏豪.基于KNN有向复杂网络的图像轮廓识别[J].计算机时代,2019,0(6):31-33. 被引量：2
8陈冠衡,苏金树.基于深度神经网络的异常流量检测算法[J].信息网络安全,2019(6):68-75. 被引量：9
9郭艳君.基于查询向量的语法词条准确检索方法研究[J].周口师范学院学报,2019,0(2):110-113.
10董超,郑兵,李彬,田联房,刘蔚.改进核相关滤波器的海上船只目标跟踪[J].光学精密工程,2019,27(4):911-921. 被引量：10

计算机系统应用

2019年第6期

浏览历史

内容加载中请稍等...

基于二维信息增益加权的朴素贝叶斯分类算法被引量：4

参考文献8

二级参考文献118

共引文献231

同被引文献45

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于二维信息增益加权的朴素贝叶斯分类算法 被引量：4

参考文献8

二级参考文献118

共引文献231

同被引文献45

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于二维信息增益加权的朴素贝叶斯分类算法被引量：4