文本分类特征权重改进算法被引量：26

Improved Feature Weighting Algorithm for Text Categorization

下载PDF

导出

摘要 TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。 TF-IDF as one of feature weighting schemes in Vector Space Model（VSM） is widely used and makes good results in the realm of text categorization.Although traditional algorithms consider about term frequency and inverse document frequency,Term Frequency/Inverse Document Frequency（TF-IDF） is oblivious to the term distribution information among and inside class.A new feature weighting algorithm based on the improved IDF and distribution coefficient is put forward to enhance the feature weighting of high frequency and homogeneous distribution in the same class.Experimental results show that compared with the conventional TF-IDF algorithm,f1 based on TF-IIDF-DIC raises by 6.79%.

作者台德艺王俊

机构地区合肥学院机器视觉与智能控制技术重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2010年第9期197-199,202,共4页 Computer Engineering

基金安徽省高校省级自然科学基金资助项目(KJ2008B120)

关键词向量空间模型文本分类特征权重特征分布 Vector Space Model（VSM） text categorization feature weighting feature distribution

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Sebastiani F.Machine Learning in Automated Text Categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.
2鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
3唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
4Shankar S,Karypis G.A Feature Weight Adjustment Algorithm for Document Categorization[C]//Proc.of KDD'00.New York,USA:ACM Press,2000.
5陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
6Forman G.BNS Feature Scaling:An Improved Representation over TF-IDF for SVM Text Classification[C]//Proc.of the 12th ACM Conference on Information and Knowledge Management.Napa Valley,CA,USA:ACM Press,2008:26-30.
7Zhang Yuntao,Gong Ling,Wang Yongcheng.An Improved TF-IDF Approach for Text Classification[J].Journal of Zhejiang University,2005,6A(1):49-55.
8Rocchio J.The SMART Retrieval System:Experiments in Automatic Document Processing[M].Englewood Cliffs,USA:Prentice-Hall,1971.
9Salton G,Buckley C.Term Weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management,1988,24(5):513-523.
10Salton G.Developments in Automatic Text Retrieval[J].Science,1991,253(5023):974-979.

二级参考文献2

1Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
2李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

共引文献254

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
3赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
4徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
5姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
6李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
7施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
8李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
9鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
10许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2

同被引文献217

1孙挺,耿国华,周明全.基于词出现和信息增益的连续属性离散化方法[J].计算机应用研究,2009,26(2):485-487. 被引量：2
2唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：13
7罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
8郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
9杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
10陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79

引证文献26

1李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法[J].计算机工程,2011,37(1):16-18. 被引量：9
2张玉芳,娄娟,李智星,熊忠阳.基于模糊关系的文本分类方法[J].计算机工程,2011,37(16):149-151. 被引量：2
3谢华,王健,林鸿飞,杨志豪.基于特征选择的质心向量构建方法[J].计算机工程,2012,38(1):195-196. 被引量：2
4赵航,杨天奇,赵小厦.基于特征噪声加权的特征权重算法改进[J].微型机与应用,2012,31(3):66-68.
5周晓庆,肖顺文,肖建琼,罗兴贤.一种基于改进的权值调整技术数据源分类算法研究[J].计算机应用研究,2012,29(3):916-918. 被引量：2
6黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5
7李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
8雷军程,黄同成,柳小文.一种基于权重的文本特征选择方法[J].计算机科学,2012,39(7):250-252. 被引量：8
9李政泽,韩毅,周斌,贾焰.微博用户分类的特征词权重优化及推荐策略[J].信息网络安全,2012(8):136-139. 被引量：1
10史晶,吴庆波,杨沙洲.移动终端个性化页面显示优化技术研究[J].计算机工程,2012,38(18):277-281. 被引量：4

二级引证文献200

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
4卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于TF-IDF算法的公文用户画像全文替换[J].办公自动化,2020(17):61-64. 被引量：1
5赵航,杨天奇,赵小厦.基于特征噪声加权的特征权重算法改进[J].微型机与应用,2012,31(3):66-68.
6刘端阳,陆洋.一种有指导的文本特征加权改进算法[J].计算机工程,2012,38(8):128-130. 被引量：2
7徐勇,司凤山,吴延辉,陈建国,周善英.基于概念泛化的科技文献推荐算法[J].图书情报工作,2012,56(21):101-108. 被引量：3
8徐勇,陈建国,胡凌云,张林,周善英.基于泛化语义相似的科技文献混合推荐算法[J].情报理论与实践,2013,36(2):96-99. 被引量：1
9李勇,张克亮,李伟刚.基于微博的网络舆情分析系统设计[J].计算技术与自动化,2013,32(2):123-127. 被引量：5
10汪海涛,张卓,杨晓元,林志强.基于优化特征加权支持向量机的隐写分析方法[J].计算机应用研究,2013,30(7):2105-2107. 被引量：9

1张吴波,史旅华.C语言程序中如何正确使用feof函数[J].现代计算机,2015,21(7):53-55.
2黄瑛.C语言教材中对feof函数的常见误解与误用[J].科教文汇,2012(13):61-61. 被引量：1
3舒小松,佟君伟.C语言中文件结束符、FEOF函数与文档编码的探讨[J].福建电脑,2016,32(12):162-162.
4梁里宁.一个基于VFP的DateDiff函数的实现[J].华南金融电脑,2005,13(10):76-77.
5李广琼,蒋加伏.基于EMD和小波分析的多尺度边缘检测[J].微计算机信息,2010,26(2):213-214.
6朱冰心.DES的f函数模型在管理学领域的应用[J].商,2013(8):260-260.
7唐昉,周晓军,魏燕定.驾驶模拟器中的一种车辙可视化方法[J].浙江大学学报（工学版）,2013,47(6):1031-1035. 被引量：1
8狄冬丰.基于C++平台下实现DES算法[J].长沙通信职业技术学院学报,2013,12(2):35-38. 被引量：1
9解双建,原亮,谢方方.DES算法原理及其FPGA实现[J].计算机技术与发展,2011,21(7):158-160. 被引量：14
10狄冬丰.基于C＋＋平台下实现DES算法[J].中国科技博览,2012(19):394-395.

计算机工程

2010年第9期

浏览历史

内容加载中请稍等...

文本分类特征权重改进算法被引量：26

参考文献10

二级参考文献2

共引文献254

同被引文献217

引证文献26

二级引证文献200

相关作者

相关机构

相关主题

浏览历史

文本分类特征权重改进算法 被引量：26

参考文献10

二级参考文献2

共引文献254

同被引文献217

引证文献26

二级引证文献200

相关作者

相关机构

相关主题

浏览历史

文本分类特征权重改进算法被引量：26