-
题名文本分类中特征权重算法的改进
被引量:14
- 1
-
-
作者
沈志斌
白清源
-
机构
福州大学数学与计算机科学学院
-
出处
《南京师范大学学报(工程技术版)》
CAS
2008年第4期95-98,149,共5页
-
基金
教育部留学回国人员启动基金
中科院软件所开放课题基金(SYSKF0701)
+1 种基金
福州大学科技发展基金(2005-XQ-13)
福建省教育厅基金(JB06023)资助项目
-
文摘
TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的.
-
关键词
文本分类
特征权重
TFIDF
类别区分
bor-tfidf
-
Keywords
text classification, feature weight, TFIDF, class difference, bor-tfidf
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-