一种基于TF-IDF的朴素贝叶斯算法改进被引量：17

An Improved Naive Bayes Algorithm Based on TF-IDF

下载PDF

导出

摘要目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F 1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F 1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。 At present,the text classification algorithm represented by the naive Bayes algorithm generally has the same feature weights and single index.In order to solve this problem,we propose an improved TF-IDF-based naive Bayes algorithm,TF-IDF-DL naive Bayes algorithm.Based on TF-IDF,this algorithm introduces decentralized word frequency factor and feature word position factor to enhance the accuracy of feature weights.In order to verify its effect,we use Sogou’s Sogou news dataset to conduct experiments.The experiment shows that the TF-IDF-DL algorithm is introduced into the naive Bayesian classification algorithm,which can make the algorithm perform well in the accuracy,recall and F 1 value in text classification.Compared with the domestic similar research TF-IDF-dist Bayesian scheme,the classification accuracy rate is increased by 8.6%,the recall rate is increased by 11.7%,and the F 1 value is increased to 7.4%,so the proposed algorithm can improve the classification performance better and achieve a great classification effect to some extent for the indistinguishable categories.

作者许甜华吴明礼 XU Tian-hua;WU Ming-li(School of Informatics,North China University of Technology,Beijing 100144,China)

机构地区北方工业大学信息学院

出处《计算机技术与发展》 2020年第2期75-79,共5页 Computer Technology and Development

基金国家自然科学基金(61672040)

关键词朴素贝叶斯 TF-IDF算法去中心化位置信息特征权重 naive Bayes TF-IDF algorithm decentralization location information feature weight

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1杨彬,韩庆文,雷敏,张亚鹏,刘向国,杨亚强,马雪峰.基于改进的TF-IDF权重的短文本分类算法[J].重庆理工大学学报（自然科学）,2016,30(12):108-113. 被引量：15
2李鹏鹏,范会敏.文本分类中特征权重算法改进研究[J].计算机与现代化,2018(2):66-70. 被引量：5
3周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
4叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：108
5蔡银珊,黄英铭.基于改进的TF-IDF特征权重算法的网页自动分类[J].绵阳师范学院学报,2010,29(8):106-109. 被引量：2
6龚静,胡平霞,胡灿.用于文本分类的特征项权重算法改进[J].计算机技术与发展,2014,24(9):128-132. 被引量：9
7张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：63
8陈凯,黄英来,高文韬,赵鹏.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69-74. 被引量：14
9隗中杰.文本分类中TF-IDF权重计算方法改进[J].软件导刊,2018,17(12):39-42. 被引量：12

二级参考文献72

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
4罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
7卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
8初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
9Shen D,Chen Z,Vang Q et al.Text classification:web page classification through summarization[c].27th Annual International ACM SIGIR Conference,Sheffield,UK,2004:242-249.
10Gerard S,Christopher B.Term weighting approaches in automatic text retrieval.Information Processing and Management,1988,24 (5):513-523.

共引文献218

1石梦琪,姜楠.我国国企改革政策体系的议题分布结构研究[J].企业改革与管理,2020,0(5):6-8.
2吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
3侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
4刘露.浅析TF-IDF在企业组织风险中的研究[J].硅谷,2011,4(15):97-97. 被引量：1
5何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
6马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
7李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
8菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
9佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
10郝晋清,王珺.主题-时序视域下中国图书馆学会年会主题分布及演化分析[J].图书情报工作,2019,63(2):107-119. 被引量：5

同被引文献132

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5牟永敏,李美贵,梁琦.入侵检测系统中模式匹配算法的研究[J].电子学报,2006,34(B12):2488-2490. 被引量：20
6周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
7李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型[J].计算机科学,2009,36(12):142-145. 被引量：40
8王晟,赵壁芳.基于模糊数据挖掘和遗传算法的网络入侵检测技术[J].计算机测量与控制,2012,20(3):660-663. 被引量：28
9周胜臣,瞿文婷,石英子,施询之,孙韵辰.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164. 被引量：81
10黄磊,伍雁鹏,朱群峰.关键词自动提取方法的研究与改进[J].计算机科学,2014,41(6):204-207. 被引量：22

引证文献17

1张萌萌.基于共享空间的跨语言情感分类[J].信息技术与信息化,2020(5):202-207.
2王晓龙,刘庆芳,刘海云,苏健.中国邮政云创平台点子智能分拣研究[J].邮政研究,2020,36(4):35-37.
3孙德华,孙晨.一种面向财务文本分类的TF-IDF改进算法[J].现代信息科技,2020,4(18):107-111.
4王松,刘洪基,叶晓波.一种基于Heritrix 可配置主题的聚焦爬虫方法[J].楚雄师范学院学报,2020,35(6):124-131. 被引量：1
5张晨跃,刘黎志,邓开巍,刘杰.基于MapReduce的朴素贝叶斯算法文本分类方法[J].武汉工程大学学报,2021,43(1):102-105. 被引量：6
6温超东,曾诚,任俊伟,张䶮.结合ALBERT和双向门控循环单元的专利文本分类[J].计算机应用,2021,41(2):407-412. 被引量：25
7黄琨,李建敦,何超,林婧雯,金艳艳,边泓,史敏.商品虚假评论的检测及可视化研究[J].福建电脑,2021,37(9):15-18. 被引量：1
8姚严志,李建良.基于类信息的TF-IDF权重分析与改进[J].计算机系统应用,2021,30(9):237-241. 被引量：7
9李雪婷,杨抒,赛亚热·迪力夏提,赵昀杰.融合内容与协同过滤的混合推荐算法应用研究[J].计算机技术与发展,2021,31(10):24-29. 被引量：16
10宋锐彪.基于生理行为和语言行为双层次特征维度的抑郁情绪识别[J].通信技术,2022,55(2):187-192.

二级引证文献81

1张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
2汪欣,张铭毅,刘亚萍.精准推荐技术的工作逻辑和前沿应用[J].传媒论坛,2022,5(16):16-18.
3庄良源.基于深度学习的专利自分类模型设计[J].电子技术与软件工程,2020(24):177-178.
4包翔,刘桂锋,崔靖华.多示例多标签学习在中文专利自动分类中的应用研究[J].图书情报工作,2021,65(8):107-113. 被引量：5
5邵欣欣.改进的贝叶斯算法在商品分类中的应用研究[J].软件工程,2021,24(7):28-30. 被引量：1
6黄忠祥,李明.BiGRU结合注意力机制的文本分类研究[J].北京联合大学学报,2021,35(3):47-52. 被引量：2
7于营,杨婷婷,杨博雄.混淆矩阵分类性能评价及Python实现[J].现代计算机,2021,27(20):70-73. 被引量：22
8戴振邦,江恩杰,刘力嘉,甘江伟.基于分布式管道模式的管道服务框架设计与实现[J].现代信息科技,2021,5(7):44-49.
9王颖.学术资源挖掘方法研究综述[J].现代情报,2021,41(12):164-177. 被引量：2
10高赫.基于大数据和集成学习技术构建金融企业风险评估系统[J].电子技术与软件工程,2021(22):152-154.

1陈悦.老证据问题的贝叶斯方案[J].科学中国人,2017(2Z):112-113.
2张诚忠,薛纪善,冯业荣,黄燕燕,戴光丰.基于贝叶斯方案的雷达反射率反演水汽及其同化试验[J].热带气象学报,2019,35(2):145-153. 被引量：10
3丁月,汪学明.基于改进特征加权的朴素贝叶斯分类算法[J].计算机应用研究,2019,36(12):3597-3600. 被引量：25
4王伟,汪坤,杨帆,戴超男,金继民,金宝宝.基于GBDT和新型P-GBDT算法的催化裂化装置汽油收率寻优模型的构建与应用[J].石油学报（石油加工）,2020,36(1):179-187. 被引量：6
5张启明,陆建华,徐建栋,李守智.基于朴素贝叶斯算法的客户画像分析[J].无线互联科技,2020,17(1):122-125. 被引量：2
6杨海鹏.基于信息熵的粗糙集连续属性离散检验算法[J].湖南城市学院学报（自然科学版）,2020,29(1):60-64. 被引量：2
7王现君.关于大数据挖掘中的数据分类算法技术的研究[J].电脑知识与技术,2019,15(12Z):6-7. 被引量：3
8刘福刚.一种适用于中文博客自动分类的贝叶斯算法[J].长春师范大学学报,2019,38(12):36-43. 被引量：1
9袁飞虎.云计算环境下数据分类算法的研究[J].电子工程学院学报,2020,9(2):117-117.
10王立荣.Word2vec-CNN-Bilstm短文本情感分类[J].福建电脑,2020,36(1):11-16. 被引量：1

计算机技术与发展

2020年第2期

浏览历史

内容加载中请稍等...

一种基于TF-IDF的朴素贝叶斯算法改进被引量：17

参考文献9

二级参考文献72

共引文献218

同被引文献132

引证文献17

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

一种基于TF-IDF的朴素贝叶斯算法改进 被引量：17

参考文献9

二级参考文献72

共引文献218

同被引文献132

引证文献17

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

一种基于TF-IDF的朴素贝叶斯算法改进被引量：17