基于改进朴素贝叶斯算法的文本分类研究被引量：7

Research on text classification based on improved naive Bayes algorithm

下载PDF

导出

摘要朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。 In the case of a given output class,the naive Bayes algorithm assumes that the attributes are independent of each other.However,in reality,this assumption is usually not true.When the number of attributes is large or the correlation between attributes is high,the classification effect is not very good.In order to solve this problem,an optimized fuzzy C-means clustering and weight calculation method is used to improve the naive Bayes algorithm.Firstly,an adaptive function based on JS divergence is constructed to optimize the fuzzy clustering algorithm,and the optimized algorithm is used to sort the text.Then,the TF-IDF algorithm optimized by word frequency factor is used to calculate the feature weight of each sample after classification,and the classification calculation is carried out by combining the sample weight and Bayesian formula.Finally,in order to show the effectiveness and superiority of the improved naive Bayes algorithm,it is compared with the original naive Bayes algorithm and other improved algorithms.Experimental results show that the improved algorithm effectively reduces the requirements of the naive Bayes model for the independence of feature terms,improves the accuracy of classification decision-making,and has certain advantages in classification performance and efficiency.

作者辛梓铭王芳 XIN Ziming;WANG Fang(School of Science,Yanshan University,Qinhuangdao,Hebei 066004,China)

机构地区燕山大学理学院

出处《燕山大学学报》 CAS 北大核心 2023年第1期82-88,共7页 Journal of Yanshan University

基金河北省自然科学基金资助项目(F2020203105) 河北省高等学校科学技术研究项目(ZD2022012) 国家自然科学基金资助项目(62073234)。

关键词朴素贝叶斯文本分类模糊聚类特征权重独立性假设 naive Bayes text classification fuzzy clustering feature weight independence hypothesis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张付志,伍朝辉,姚芳.基于贝叶斯算法的垃圾邮件过滤技术的研究与改进[J].燕山大学学报,2009,33(1):47-52. 被引量：12
2杨晓花,高海云.基于改进贝叶斯的书目自动分类算法[J].计算机科学,2018,45(8):203-207. 被引量：17
3丁童心,禹素萍.改进朴素贝叶斯算法的人脸表情识别[J].软件导刊,2021,20(1):68-71. 被引量：4
4李方,刘琼荪.基于改进属性加权的朴素贝叶斯分类模型[J].计算机工程与应用,2010,46(4):132-133. 被引量：12
5黄勇,罗文辉,张瑞舒.改进朴素贝叶斯算法在文本分类中的应用[J].科技创新与应用,2019,9(5):24-24. 被引量：10
6王春伟,侯方,申升,南赛,李英伟.基于文本信息的PDF文档管理系统设计与实现[J].燕山大学学报,2020,44(6):603-608. 被引量：7

二级参考文献22

1陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
2程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
3李翔鹰,叶枫.一种基于多贝叶斯算法的垃圾邮件过滤方法[J].计算机工程与应用,2006,42(31):114-116. 被引量：7
4张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10
5章舜仲,王树梅,黄河燕,陈肇雄.基于属性相关性分析的贝叶斯分类模型[J].情报学报,2007,26(2):271-274. 被引量：11
6Zhou Jianying, Chin Wee-Yung, Roman Rodrigo, et al.. An effective multi-layered defense framework against spare [J]. Information Security Technical Report, 2007,12 (3): 179-185.
7Deepak P, Parameswaran S. Spam Filtering using Spam Mail Communities [C] //Proceedings IEEE SAINT, 2005: 377-383.
8Wittern I H, Frank E. Data mining practical machine learning tools and techniques [M]. 2nd edition. San Francisco, CA: Morgan KaufmannPublisher, 2005: 88-97.
9胡珍珍.基于主动外观模型的人脸表情分析[J].淮北煤炭师范学院学报（自然科学版）,2010,31(1):56-59. 被引量：1
10靳雪茹,齐建东,王立臣,周林志.基于机器学习的类目映射方法——国际专利分类法与中国图书馆分类法[J].计算机应用,2011,31(7):1781-1784. 被引量：10

共引文献55

1刘延华,陈国龙.中文垃圾邮件多层次过滤技术的应用研究[J].计算机工程与应用,2009,45(34):94-97. 被引量：1
2李洁.垃圾邮件与反垃圾邮件技术分析[J].中国西部科技,2010,9(7):16-18. 被引量：3
3董倩,王克俭,韩宪忠,苑迎春.基于贝叶斯分类的网上书店潜在用户挖掘[J].微型机与应用,2011,30(1):47-49. 被引量：2
4陈晨,董倩,吴玉洁.基于贝叶斯分类的农作物产品质量挖掘研究[J].安徽农业科学,2011,39(12):7448-7449. 被引量：7
5张震,胡学钢.基于互信息量的分类模型[J].计算机应用,2011,31(6):1678-1680. 被引量：5
6陈晨,董倩,吴玉洁.Agricultural Product Quality Mining Based on Bayesian Classification[J].Agricultural Science & Technology,2011,12(2):157-158. 被引量：1
7王晶,张倩,朱杰.智能化的采矿工人分组策略[J].煤炭技术,2012,31(11):175-177. 被引量：1
8徐英慧,刘梅彦.基于内容的手机端垃圾短信过滤策略研究[J].北京信息科技大学学报（自然科学版）,2013,28(1):51-55. 被引量：8
9杨忠强,秦亮曦.一种基于属性加权的朴素贝叶斯改进算法[J].广西大学学报（自然科学版）,2013,38(5):1157-1161. 被引量：2
10杨忠强,秦亮曦.一种基于维规约的属性加权朴素贝叶斯算法[J].信息技术,2013,37(12):31-33.

同被引文献57

1潘泽民,覃亚丽,郑欢,王荣芳,任宏亮.基于深度神经网络的块压缩感知图像重构[J].计算机科学,2022,49(S02):510-518. 被引量：4
2罗华,胡光岷,姚兴苗.基于网络全局流量异常特征的DDoS攻击检测[J].计算机应用,2007,27(2):314-317. 被引量：13
3鞠海龙.近代中国的南海维权与中国南海的历史性权利[J].中州学刊,2010(2):198-202. 被引量：20
4曾勇.国内南海问题研究综述[J].现代国际关系,2012(8):58-65. 被引量：26
5姜巍,张莉,戴翼,蒋竞,王刚.面向用户需求获取的在线评论有用性分析[J].计算机学报,2013,36(1):119-131. 被引量：56
6刘娜,孔青青.档案信息化研究综述[J].山西档案,2013(3):61-63. 被引量：10
7曹树金,陈忆金,杨涛.基于用户需求的图书馆用户满意实证研究[J].中国图书馆学报,2013,39(5):60-75. 被引量：84
8刘淑玉.潭门渔民南海口述档案收集研究[J].档案,2014(8):54-57. 被引量：2
9宋继伟.台湾地区馆藏档案在南海问题研究中的应用探析[J].河海大学学报（哲学社会科学版）,2015,17(1):83-88. 被引量：2
10刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：965

引证文献7

1郭丽.基于朴素贝叶斯的网络异常流量攻击行为预测方法[J].信息与电脑,2023,35(9):46-48.
2邓明体.基于机器学习的网站漏洞预警研究——以代购系统为例[J].装备制造技术,2023(8):83-86. 被引量：1
3王菁驿.有声读物APP在线评论情感分析[J].智能计算机与应用,2024,14(4):180-183.
4章凯.基于朴素贝叶斯算法的联网审计系统数据过滤引擎设计[J].电子技术（上海）,2024,53(5):208-209.
5王铁君,闫悦,郭晓然,王铠杰,饶强.融合多尺度CNN与双向LSTM的唐卡问句分类模型[J].科学技术与工程,2024,24(22):9490-9497.
6苏易礌,李卫军,刘雪洋,丁建平,刘世侠,李浩南,李贯峰.基于图神经网络的文本分类方法研究综述[J].计算机工程与应用,2024,60(19):1-17.
7彭玉芳,王妍睿,杨海平,徐浩,孙宁.总体国家安全观下的南海维权档案系统构建研究[J].情报科学,2024,42(5):35-47.

二级引证文献1

1孙滨,杨民声.基于机器学习算法的网站维护告警识别系统设计与实现[J].信息与电脑,2024,36(11):99-102.

1鄂晶晶,杨丽华,冯锋.基于改进稀疏表示的大数据模糊聚类仿真研究[J].计算机仿真,2023,40(1):479-483.
2周还籍,吴钦木,任书宇.基于模糊C均值聚类和模糊逻辑的车辆信息传输组网研究[J].微处理机,2023,44(1):17-21.
3冯蓉.机器学习算法在数据挖掘中的应用[J].中国高新科技,2022(20):30-32. 被引量：3
4李佳思.XGBoost算法在乳腺癌辅助诊断中的应用[J].智能计算机与应用,2022,12(12):104-109.
5张亚坤,李龙杰,陈晓云.利用朴素贝叶斯模型进行多层网络链接预测[J].应用科学学报,2023,41(1):23-40. 被引量：1
6龚国栋,李耀斌,花向红,赵不钒,卢荣.一种探讨点云深度学习决策的PointNet++解析网络[J].测绘地理信息,2022,47(6):50-54. 被引量：4
7冷亭亭,张延彬,王法松.基于朴素贝叶斯的室内VLC网络天线选择方法[J].控制与决策,2023,38(1):67-74. 被引量：1
8叶金育,润晟泽.增值税免税规范的类型化构建——以免税制度政策化为切入点[J].税务与经济,2022(3):42-49. 被引量：3
9郝雁翔,闫明,井泉,黄建华,刘兵.基于朴素贝叶斯算法的电缆老化状态评估模型研究[J].电力系统装备,2022(12):5-10.
10王晓燕,奚琳,程普.基于大数据分析的电力信息系统安全状态监测技术研究[J].中国科技期刊数据库工业A,2022(6):280-282.

燕山大学学报

2023年第1期

浏览历史

内容加载中请稍等...

基于改进朴素贝叶斯算法的文本分类研究被引量：7

参考文献6

二级参考文献22

共引文献55

同被引文献57

引证文献7

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进朴素贝叶斯算法的文本分类研究 被引量：7

参考文献6

二级参考文献22

共引文献55

同被引文献57

引证文献7

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进朴素贝叶斯算法的文本分类研究被引量：7