一种改进的朴素贝叶斯不平衡数据集分类算法被引量：7

An improved Naive Bayes classification algorithm for unbalanced data sets

下载PDF

导出

摘要当训练集中各个类别的样本分布不均匀且存在数据稀疏问题时,朴素贝叶斯算法分类不够准确。针对此问题,提出了一种基于数据平滑与加权补集的朴素贝叶斯文本分类算法,该算法引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率,克服数据稀疏问题;利用当前类别补集的特征来表示当前类别的特征,解决训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。实验结果表明,在样本集分布不均衡时,该算法比传统的朴素贝叶斯分类算法分类效果更好。 When training samples of each class are distributed unevenly and sparsely,the classification efficiency of Naive Bayes is not accurate enough. To solve this problem,a Naive Bayes text classification algorithm based on data smoothing and weighted complementary set was proposed,using data smoothing algorithm to calculate the compensation probability of the missing feature in Naive Bayes model,which can solve the data sparseness problem. Since training samples of each class are distributed unevenly,it uses features of current categories＇ complementary set to represent the features of current categories,which can solve the problem of recognizing the larger category and ignoring the smaller category. The experimental results show that the classification efficiency of the proposed algorithm is better than the traditional Naive Bayes when the training data set is uneven.

作者姚宇董本志陈广胜

机构地区东北林业大学信息与计算机工程学院

出处《黑龙江大学自然科学学报》 CAS 北大核心 2015年第5期681-686,共6页 Journal of Natural Science of Heilongjiang University

基金黑龙江省自然科学基金资助项目(ZD201403) 林业公益性行业科研专项经费(201504307)

关键词朴素贝叶斯文本分类数据平滑加权补集 Naive Bayes text categorization data smoothing weighted complementary set

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王祖辉,姜维.引入数据平滑的增量式贝叶斯垃圾邮件过滤方法[J].计算机工程与应用,2012,48(16):21-25. 被引量：2
2王超学,张涛,马春森.基于聚类权重分阶段的SVM解不平衡数据集分类[J].计算机工程与应用,2015,51(21):133-137. 被引量：9
3王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
4付忠良.不平衡多分类问题的连续AdaBoost算法研究[J].计算机研究与发展,2011,48(12):2326-2333. 被引量：17
5廖一星,潘雪增.面向不平衡文本的特征选择方法[J].电子科技大学学报,2012,41(4):592-595. 被引量：5

二级参考文献68

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2武勃,黄畅,艾海舟,劳世竑.基于连续Adaboost算法的多视角人脸检测[J].计算机研究与发展,2005,42(9):1612-1621. 被引量：66
3任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
4姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
5Schapire R E. The strength of weak learnability [J]. Machine Learning, 1990, 5(2): 197-227.
6Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.
7Schapire R E, Singer Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.
8Schapire R E, Freund Y, Bartlett P, et al. Boosting the margin: A new explanation for the effectiveness of voting methods [J]. The Annals of Statistics, 1998, 26 (5) : 1651- 1686.
9Viola P, Jones M. Robust real-time face detection [J]. Int Journal of Computer Vision, 2004, 57(2): 137-154.
10Breiman L, Random forests[J]. Machine Learning, 2001, 45(1), 5-32.

共引文献47

1徐飞,郑长江,杨成,陈淑燕.基于重采样的交通拥挤识别方法[J].公路交通科技,2012,29(11):140-144. 被引量：1
2何智翔,丁晓青,方驰,文迪.基于可控风险敏感AdaBoost算法的人脸检测[J].清华大学学报（自然科学版）,2012,52(12):1703-1708. 被引量：2
3付忠良.通用集成学习算法的构造[J].计算机研究与发展,2013,50(4):861-872. 被引量：13
4胡小生,钟勇.基于加权聚类质心的SVM不平衡分类方法[J].智能系统学报,2013,8(3):261-265. 被引量：4
5杨鸿骏,周亚建,郭玉翠.一种基于同义词扩展的不平衡文本分类方法[J].情报杂志,2013,32(9):204-206. 被引量：1
6刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12
7闵建.基于加权支持向量机的热轧带钢弯曲质量预测[J].热加工工艺,2018,47(23):165-167. 被引量：1
8霍玉丹,谷琼,蔡之华,袁磊.基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J].计算机应用,2015,35(1):121-124. 被引量：19
9张涛,陈万忠,李明阳.基于AdaBoost算法的癫痫脑电信号识别[J].物理学报,2015,64(12):419-425. 被引量：10
10周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10

同被引文献65

1彭晓明,郭浩然,庞建民.多核处理器——技术、趋势和挑战[J].计算机科学,2012,39(S3):320-326. 被引量：20
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
4郑勇涛,刘玉树.支持向量机解决多分类问题研究[J].计算机工程与应用,2005,41(23):190-192. 被引量：52
5曾闽山,田冬玲,郭吉民.一种基于格网划分的高效Delaunay三角网格化算法[J].微计算机信息,2006(03X):127-130. 被引量：13
6张桂香,费岚,杜喆,刘三阳.非均衡数据的去噪模糊支持向量机新方法[J].计算机工程与应用,2008,44(16):142-144. 被引量：4
7肖进,贺昌政.基于SODM的贝叶斯分类器结构学习及其在客户分类中的应用[J].管理科学,2008,21(4):54-60. 被引量：6
8巩固,张虹.决策树算法中属性缺失值的研究[J].计算机应用与软件,2008,25(9):242-244. 被引量：6
9秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37. 被引量：289
10杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14

引证文献7

1乔梁.基于贝叶斯分类的海量点集多核D-TIN并行算法[J].信息技术,2017,41(1):34-38. 被引量：1
2陈志云,商月,钱冬明.基于知识图谱的智能答疑系统研究[J].计算机应用与软件,2018,35(2):178-182. 被引量：18
3刘东启,陈志坚,徐银,李飞腾.面向不平衡数据分类的复合SVM算法研究[J].计算机应用研究,2018,35(4):1023-1027. 被引量：23
4温雪岩,赵丽影,徐克生,陆光.改进的MDSMOTE与FC-SVM在不平衡数据集分类中的应用[J].哈尔滨理工大学学报,2018,23(4):87-94. 被引量：1
5刘芬,刘秀峰.基于SMOTEboost的大肠癌不平衡数据集的症型分类研究[J].医学信息,2018,31(23):10-12.
6徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：60
7王震,佟志勇,彭美华,杨自恒.基于改进SMOTE算法的网络入侵检测研究[J].黑龙江大学自然科学学报,2024,41(4):470-476.

二级引证文献102

1姜浩,马庆,曹利,宗小兵,张亮.工程建设领域知识图谱的构建及智能问答[J].石油知识,2024(1):52-55.
2姜作利.修改CIF术语能防止上当受骗吗?[J].对外经贸实务,2000(5):22-24.
3杨亭榆,傅成华.基于信息融合和CS-SVM的学生综合能力评估方法的研究[J].四川理工学院学报（自然科学版）,2018,31(1):41-46.
4朱安安.基于过采样SVM的不平衡数据信用评价模型[J].软件导刊,2018,17(10):64-67. 被引量：7
5唐亮,罗轩,王颖.两类知识图谱差异辨析及其在科技出版中的应用[J].出版参考,2019(1):66-68. 被引量：6
6温雪岩,赵丽影,徐克生,陆光.改进的MDSMOTE与FC-SVM在不平衡数据集分类中的应用[J].哈尔滨理工大学学报,2018,23(4):87-94. 被引量：1
7李亚梦,张国鹏,刘浏,肖莉,吴浩然.智能外呼系统研究及设计[J].邮电设计技术,2018(12):77-82. 被引量：9
8李兴田,张丽萍.画法几何答疑系统的研究与开发[J].中国教育信息化,2019,25(8):89-93. 被引量：1
9郝光兆,杨静,吴迪,生龙.“Python程序设计”课程智能答疑系统的设计与实现[J].电脑知识与技术,2019,15(3):86-88. 被引量：4
10胡友呈,许洪斌,黄琳,刘洒,杨长辉.基于区域特征的成熟柑橘及枝叶的分割识别[J].现代制造工程,2019(5):70-76. 被引量：3

1王祖辉,姜维.引入数据平滑的增量式贝叶斯垃圾邮件过滤方法[J].计算机工程与应用,2012,48(16):21-25. 被引量：2
2唐俊,费耀平,李典斌.一种新的补偿概率包标记IP追踪方案[J].计算机工程与应用,2008,44(16):118-121.
3尚赵伟,肖静静,张凌峰,陈静.不完全数据的软件可靠性预测[J].计算机工程与应用,2012,48(33):68-72. 被引量：1
4庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
5周东华.平滑算法和小波变换法相融合的气井生产数据处理[J].油气田地面工程,2011,30(4):33-35. 被引量：2
6彭珍连,王健,何克清,唐明董.一种基于特征模型和协同过滤的需求获取方法[J].计算机研究与发展,2016,53(9):2055-2066. 被引量：6
7刘丹,方卫国,周泓.二元语法中文分词数据平滑算法性能研究[J].计算机工程与应用,2009,45(17):33-36. 被引量：4
8黄韵竹,韦玮,罗杨宇,李成荣.限定领域语言模型训练语料的词类扩展方法[J].计算机系统应用,2011,20(11):55-58. 被引量：1
9唐录洁.雨天井盖缺失的计算机智能识别方法研究仿真[J].计算机仿真,2013,30(10):275-278.
10刘佳,韩秀玲.拼音到汉字自动转换技术的改进与实现[J].科学技术与工程,2007,7(24):6348-6352. 被引量：4

黑龙江大学自然科学学报

2015年第5期

浏览历史

内容加载中请稍等...

一种改进的朴素贝叶斯不平衡数据集分类算法被引量：7

参考文献5

二级参考文献68

共引文献47

同被引文献65

引证文献7

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

一种改进的朴素贝叶斯不平衡数据集分类算法 被引量：7

参考文献5

二级参考文献68

共引文献47

同被引文献65

引证文献7

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

一种改进的朴素贝叶斯不平衡数据集分类算法被引量：7