-
题名文本分类中特征权重因子的作用研究
被引量:16
- 1
-
-
作者
张爱华
靖红芳
王斌
徐燕
-
机构
中国科学院计算技术研究所
北京语言大学
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期97-104,共8页
-
基金
国家自然科学基金资助项目(60873166)
国家973资助项目(2007CB311103)
国家863计划资助项目(2006AA010105)
-
文摘
在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。
-
关键词
计算机应用
中文信息处理
文本分类
权重表示
权重因子作用
VSM
-
Keywords
computer application
Chinese information processing
text categorization
term weighting
effects of weighting factors
VSM
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-