改进的TF-IDF中文本特征词加权算法研究被引量：10

下载PDF

导出

摘要在自动文本分类中,TF-IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF-DFI-DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF-IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。

作者申剑博

机构地区西安工程大学计算机与信息学院

出处《软件导刊》 2015年第4期67-69,共3页 Software Guide

关键词文本分类 TF-IDF算法特征词权重特征词分布宏平均值

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1王小林,杨林,王东,镇丽华.改进的TF-IDF关键词提取方法[J].计算机科学与应用,2013,3(1):64-68. 被引量：18
2张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
3台德艺,王俊.文本分类特征权重改进算法[J].计算机工程,2010,36(9):197-199. 被引量：26
4张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37

二级参考文献25

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
5Rocchio J.The SMART Retrieval System:Experiments in Automatic Document Processing[M].Englewood Cliffs,USA:Prentice-Hall,1971.
6Salton G,Buckley C.Term Weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management,1988,24(5):513-523.
7Salton G.Developments in Automatic Text Retrieval[J].Science,1991,253(5023):974-979.
8Sebastiani F.Machine Learning in Automated Text Categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.
9Shankar S,Karypis G.A Feature Weight Adjustment Algorithm for Document Categorization[C]//Proc.of KDD'00.New York,USA:ACM Press,2000.
10Forman G.BNS Feature Scaling:An Improved Representation over TF-IDF for SVM Text Classification[C]//Proc.of the 12th ACM Conference on Information and Knowledge Management.Napa Valley,CA,USA:ACM Press,2008:26-30.

共引文献91

1刘昊.情感视域下社交媒体平台舆论分层与社群挖掘研究[J].中国网络传播研究,2018(2). 被引量：1
2卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于TF-IDF算法的公文用户画像全文替换[J].办公自动化,2020(17):61-64. 被引量：1
3李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法[J].计算机工程,2011,37(1):16-18. 被引量：9
4张玉芳,娄娟,李智星,熊忠阳.基于模糊关系的文本分类方法[J].计算机工程,2011,37(16):149-151. 被引量：2
5席程成,李文化.基于精准农户信息的农业文本数据自动挖掘模型[J].热带农业科学,2011,31(9):87-89.
6许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
7谢华,王健,林鸿飞,杨志豪.基于特征选择的质心向量构建方法[J].计算机工程,2012,38(1):195-196. 被引量：2
8赵航,杨天奇,赵小厦.基于特征噪声加权的特征权重算法改进[J].微型机与应用,2012,31(3):66-68.
9周晓庆,肖顺文,肖建琼,罗兴贤.一种基于改进的权值调整技术数据源分类算法研究[J].计算机应用研究,2012,29(3):916-918. 被引量：2
10黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5

同被引文献89

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2曾元鉴,李孝明.一个中文全文检索系统的设计与实现[J].计算机与数字工程,2004,32(3):12-15. 被引量：3
3李月锋.Matlab中的数据文件的处理[J].福建电脑,2005,21(2):41-42. 被引量：3
4宗宁.小型中文全文检索系统的设计与实现[J].电脑知识与技术,2005(5):12-14. 被引量：2
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：94
7卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
8王晓斌,闫果,基于Django开发的桥梁健康监控数据查询的Web应用[J].电子技术与软件工程,2009,24(4):23-24.
9XU W, CALLISON-BURCH C, DOLAN W B. SemEval-2015 task 1: Paraphrase and semantic similarity in Twitter (PIT) [ C ]. Proceedings of the 9th International Workshop on Semantic E- valuation (SemEval) , 2015.
10DETTINGER R D, KOLZ D P, STEVENS R J, et al. Automa- ted data model extension through data crawler approach [ P ]. US: US8165989, 2012.

引证文献10

1夏志富,王晗璐,李玉平,曹磊,夏斌.基于Django框架的智能商务监控系统的设计[J].微型机与应用,2016,35(12):21-23. 被引量：5
2王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
3韦必忠,魏红,英红.海量多媒体图像信息高效检索算法优化及仿真[J].计算机仿真,2016,33(11):280-283. 被引量：2
4叶敏,汤世平,牛振东.一种基于多特征因子改进的中文文本分类算法[J].中文信息学报,2017,31(4):132-137. 被引量：10
5陈舒.基于专属词库的网络订餐平台评论情感分析模型[J].软件导刊,2017,16(12):33-35.
6何金金,郭振波,王开西.基于TextRank的网评产品特征提取方法[J].青岛大学学报（自然科学版）,2018,31(1):109-114. 被引量：3
7费扬,杜庆治.基于matlab的文本处理系统的设计与实现[J].软件,2017,38(8):226-229. 被引量：1
8隗中杰.文本分类中TF-IDF权重计算方法改进[J].软件导刊,2018,17(12):39-42. 被引量：11
9张若琪,王涵,闫凌云,刘一辰.基于Python的词云生成研究[J].信息与电脑,2021,33(5):201-203. 被引量：2
10朱小虎,周艳平,姜涛,陈显利.一种基于主题划分及TF-IDF的文本摘要提取方法[J].计算机与数字工程,2022,50(8):1760-1765. 被引量：4

二级引证文献65

1侯雪亮,李新,陈远平.基于多神经网络混合的短文本分类模型[J].计算机系统应用,2020(10):9-19. 被引量：4
2徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
3石梦琪,姜楠.我国国企改革政策体系的议题分布结构研究[J].企业改革与管理,2020,0(5):6-8.
4黄剑波,陈方灵,张迎春,王晓峰.基于Django的2D-3D图像转换系统的设计与实现[J].电子测量技术,2020(8):112-116. 被引量：2
5姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
6何泰伯.基于大数据分析的多媒体信息检索系统设计[J].现代电子技术,2018,41(3):111-114. 被引量：12
7贾隆嘉,张邦佐.高校网络舆情安全中主题分类方法研究——以新浪微博数据为例[J].数据分析与知识发现,2018,2(7):55-62. 被引量：5
8宋呈祥,陈秀宏,牛强.文本分类中基于CHI改进的特征选择方法[J].微电子学与计算机,2018,35(9):74-78. 被引量：5
9庄美美,陈逸新,杨昔阳.基于Matlab的实验报告自动批改模块的开发[J].闽西职业技术学院学报,2018,20(3):115-118. 被引量：1
10周君,贾昆霖,蓝机满,宋艳.基于Django框架的智能图书推荐系统[J].电子科技,2018,31(12):78-80. 被引量：9

1王红玲,郑纲.改进的贝叶斯算法在垃圾邮件过滤中的应用[J].信息通信,2013,26(9):85-86. 被引量：1
2张志强,郑家恒.基于加权类轴的Web文本分类方法研究[J].计算机应用,2004,24(2):148-150. 被引量：3
3欧阳宁,罗艳.基于领域特征词加权的文本相似度计算[J].计算机工程与设计,2012,33(11):4338-4342. 被引量：2
4徐永胜,王书文,李向群.基于D-S证据理论的图像修复算法[J].计算机工程,2010,36(19):222-223. 被引量：1
5张小平,周雪忠,黄厚宽,冯奇,陈世波,焦宏官.一种改进的LDA主题模型[J].北京交通大学学报,2010,34(2):111-114. 被引量：47
6卜天然.基于WLabeled-LDA模型的文本分类研究[J].长春师范大学学报,2017,36(4):6-12.
7MIPS多线程CPU将Altair新款LTE芯片组性能推升至新水平[J].单片机与嵌入式系统应用,2013,13(5):30-30.
8严航,叶尚福,马华山,孙正波.一种基于分段融合的时／频差参数估计算法[J].电信技术研究,2006(3):26-35.
9李永昊,刘云,何德全.基于成本效用的CAN网络搜索激励模型[J].电子与信息学报,2008,30(6):1485-1488.

软件导刊

2015年第4期

浏览历史

内容加载中请稍等...

改进的TF-IDF中文本特征词加权算法研究被引量：10

参考文献4

二级参考文献25

共引文献91

同被引文献89

引证文献10

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

改进的TF-IDF中文本特征词加权算法研究 被引量：10

参考文献4

二级参考文献25

共引文献91

同被引文献89

引证文献10

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

改进的TF-IDF中文本特征词加权算法研究被引量：10