文本分类中特征权重算法的改进被引量：14

Improvement of Feature Weighting Algorithm in Text Classification

下载PDF

导出

摘要 TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的. TFIDF is a kind of common methods used to measure the terms in a document. The method is easy but ig- nores the distribution of the feature in each class. So, it can not really reflect each feature＇ s contribution to each class. Aiming at this shortage, we put forward the BOR-TFIDF and use it to readjust each feature＇ s differentiation to each class, i.e. , modifies each feature＇ s weight. Then the classifier is used to check its validaty. The method is better than traditional TFIDF and proves that the BOR-TFIDF method is feasible.

作者沈志斌白清源

机构地区福州大学数学与计算机科学学院

出处《南京师范大学学报（工程技术版）》 CAS 2008年第4期95-98,149,共5页 Journal of Nanjing Normal University(Engineering and Technology Edition)

基金教育部留学回国人员启动基金中科院软件所开放课题基金(SYSKF0701) 福州大学科技发展基金(2005-XQ-13) 福建省教育厅基金(JB06023)资助项目

关键词文本分类特征权重 TFIDF 类别区分 BOR-TFIDF text classification, feature weight, TFIDF, class difference, BOR-TFIDF

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1[2]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1 -47.
2[3]Lewis D D,Na(i)ve Bayes.The independence assumption in information retrieval[C]// The 10th European Conf on Machine Learning.New York:Springer-Verlag,1998.
3[4]Yiming Yang,Xin Liu.A re-examination of text categorization methods[C]// SIGIR' 99.New York:ACM Press,1999:42-49.
4[5]Yang Y,Chute C G.An example-based mapping method for text categorization and retrieval[J].ACM Trans on Information Systems,1994,12(3):252-277.
5[6]Han E H,Karypis G.Centroid-based document classification:analysis and experimental results[C]// Proc of PKDD' 00.London:Springer-Verlag,2000:424-431.
6[7]Schapire R E,Singer Y.Improved boosting algorithms using confidence-rated predications[C]// Proc of the 11th Annual Conf on Computational Learning Theory.Madison:ACM Press,1998:80-91.
7[8]Joachims T.Text categorization with support vector machines:learning with many relevant features[C]// The 10th European Confon Machine Learning.Berlin:Springer,1998:137-142.
8[12]李荣陆.文本分类系统[DB/OL].http://www.nlp.org.cn/docs/download.php?doc_id=102.2004-08-19.Li Ronglu.Text clsssication system[DB/OL].Data Set,hap://www.nlp.org.cn/docs/download.php?doc_id=102.2004-08-19.(in Chinese)
9[13]David D,Lewis.Reuters-21578,Test Collections[R/OL].http://www.daviddlewis.com/resources/testcollections/reuters21578/.1996.

同被引文献117

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
3寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
4罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
5胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
6袁薇,高淼.搜索引擎系统中个性化机制的研究[J].微电子学与计算机,2006,23(2):68-72. 被引量：9
7杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
8刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
9刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
10王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18

引证文献14

1冯扬,罗森林,潘丽敏,刘莉莉,陈开江.基于概念簇的文本向量构建方法[J].通信学报,2010,31(S1):44-47. 被引量：2
2张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
3李力沛,罗颖.基于修正TF-IDF的搜索引擎查询扩展模型[J].福建电脑,2012,28(10):3-5.
4路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
5张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：60
6黄磊,伍雁鹏,朱群峰.关键词自动提取方法的研究与改进[J].计算机科学,2014,41(6):204-207. 被引量：22
7董跃华,郭士串.结合权重因子与特征向量改进的文本聚类算法[J].计算机工程与设计,2015,36(4):1051-1057. 被引量：1
8董跃华,郭士串.结合权重因子和特征向量改进的混合聚类方法[J].计算机应用与软件,2015,32(11):264-268. 被引量：2
9赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：8
10贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：22

二级引证文献190

1郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
2孟海东,刘小荣.基于聚类分析的图模型文档分类[J].计算机应用与软件,2012,29(1):171-174. 被引量：1
3许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
4陈剑,张冬梅,陈钊.林产品贸易信息推送梯级过滤技术[J].计算机工程与应用,2012,48(14):134-138. 被引量：1
5黄云,洪佳明,颜一鸣.基于图的特征词权重算法及其在文档排序中的应用[J].计算机系统应用,2012,21(6):216-218. 被引量：1
6李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
7路永和,何新宇.锐化高斯模板在文本特征项权重调整方法中的应用[J].现代图书情报技术,2012(12):39-44. 被引量：1
8路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
9路永和,李焰锋.多因素影响的特征选择方法[J].现代图书情报技术,2013(5):34-39. 被引量：3
10李倩茹,姚伟.基于均衡有偏支持向量机的软件缺陷预测[J].计算机工程,2013,39(8):87-91. 被引量：1

1张可,柴毅,刘建环.一类基于类别区分的多重故障诊断模型框架[J].控制理论与应用,2016,33(2):154-163. 被引量：3
2王连喜,蒋盛益.一种基于类别区分互补性的特征选择[J].小型微型计算机系统,2013,34(8):1798-1802. 被引量：3
3赛普拉斯为PSoC平台及其他领先技术推出在线设计社区[J].电子与电脑,2010(6):108-108.
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
5邢鸿雁,张倩生,张纯桂.Vague集理论及其在国画类别区分中的应用[J].计算机工程,2013,39(12):171-175.
6路永和,李焰锋.多因素影响的特征选择方法[J].现代图书情报技术,2013(5):34-39. 被引量：3
7庞彦伟,刘政凯,俞能海,张迁.融合奇异值分解和线性鉴别分析的人脸识别算法[J].电路与系统学报,2006,11(4):47-50. 被引量：8
8谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
9张强.一种利用特征选择改进的行人检测模型[J].微型机与应用,2016,35(2):43-46. 被引量：1
10路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54

南京师范大学学报（工程技术版）

2008年第4期

浏览历史

内容加载中请稍等...

文本分类中特征权重算法的改进被引量：14

参考文献9

同被引文献117

引证文献14

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

文本分类中特征权重算法的改进 被引量：14

参考文献9

同被引文献117

引证文献14

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

文本分类中特征权重算法的改进被引量：14