期刊文献+

向量空间模型中特征词的区分度的定量研究 被引量:5

Quantitative Studies on Degees of Distinction of the Feature Words in VSM
下载PDF
导出
摘要 本文提出了关于一个词的文本类间频率的概念 ,给出一个词在文本分类中的区分度的定义 ,讨论了区分度的性质 ,提出了选择特词新的方法 ,定义了特征词的权重 ,建立了向量空间模型的一套加权距离分类规则。实验结果表明 。 This paper presents a conception of frequencies of a word distributed all over the classes of texts,gives a definition of the degrees of distinction of a word in text categorization,discusses the properties of the degrees of distinction,puts forward a new approach to select the feature words,defines the weights of all selected feature words,and finally establishes the weighted distance categorization rules of VSM. The experiment results show that the method is effective and useful.
出处 《中文信息学报》 CSCD 北大核心 2002年第3期15-19,共5页 Journal of Chinese Information Processing
关键词 文本分类 Bayes后验概率 加权距离分类规则 信息处理 向量空间模型 特征词 区分度 定量研究 text categorization vector space model Bayes posterior probability weighted distance
  • 相关文献

参考文献4

二级参考文献13

  • 1战学刚 姚天顺.基于汉语分析的中文分类方法.1998中文信息处理国际会议论文集[M].北京:清华大学出版社,1998..
  • 2战学刚,1998中文信息处理国际会议论文集,1998年
  • 3吴立德,大规模中文文本处理,1997年
  • 4姚天顺,自然语言理解.一种让机器懂得人类语言的研究,1995年
  • 5Yang Yiming,http://www.cs.cmu.edu//yiming
  • 6Yang Yiming,ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme,1994年,12页
  • 7Jin Ling,Int Symposium on Chinese Spoken Language Processing,2000年,247页
  • 8Zheng Fang,J Comput Sci Technol,2000年,5卷,461页
  • 9Zhang Shuwu,Euro Speech'97 Proceedings.5,1997年,2699页
  • 10Chen S F,Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics,1996年,310页

共引文献168

同被引文献44

引证文献5

二级引证文献46

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部