期刊文献+

使用特征词的统计分布信息进行文本分类 被引量:1

Utilizing Term Statistical Distribution Information on Document Classification
下载PDF
导出
摘要 文本分类是文本信息处理工作中的一个重要预处理部分。对常用的文本表示模型-向量空间模型的特征词权重估计方法提出了质疑,指出该方法的两个假设前提在一些情况下是不完全正确的,并详细分析了造成这一问题的原因。在此基础上,提出了正确估计特征词权重的三个基本假设,并由此得出新的特征词权重估计方法和文本分类方式,最大限度地利用了文本信息。 Document classification is a important preprocess work in intormation task To the ordmary document describable model-the Vector Space Model,the paper brings forward the problem about its term weight estimate measure,and points out that two hypothesis precondition of this way is not always right under some instances.We clearly analysis the reason which cause this problem.Based on that,the paper presents three basal hypothesis to estimate the term weight rightly,and use them to get new term weight estimate measure and document classified algorithm,utilize the document information in the most extent.
作者 邓擘 樊孝忠
出处 《计算机工程与应用》 CSCD 北大核心 2006年第32期147-149,共3页 Computer Engineering and Applications
关键词 特征词 向量空间模型 统计分布 文本分类 训练集 term Vector Space Model statistical distribution document classification train Data
  • 相关文献

参考文献3

  • 1SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,(18):613-620.
  • 2LEWIS DD.Feature selection and feature extraction for text categorization[C]//Proceedings of Speech and Natural Language Workshop.San Francsico:Morgan Kaufmann,1992-02:212-217.
  • 3MINEAU G W.A Simple KNN Algorithm for Text Categorization[C]//Sponsored by the IEEE Computer Society,2001 IEEE International Conference on Data Mining.San Jose,California,USA:Doubletree Hotel,2001-11.

同被引文献15

  • 1王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量:5
  • 2Biber D.Variation across speech and writing[M].[S.l.]:Cambridge University Press, 1988.
  • 3Swales J M.Genre analysis,English in academic and research settings[M].Shanghai:Shanghai Foreign Language Education Press,2001.
  • 4Oakes M P.Statistics for corpus linguistics[M].[S.l.]:Edinburh University Press, 1998.
  • 5Herdan G.Quantitative linguistics[M].London:Butterworths,1964.
  • 6Huang W,Liu H.Quantitative characteristics of Chinese genres based on two corpora[J].Grkg/Humankybemetik,2008,49(4) : 163-176.
  • 7黄伟.基于语料库的汉语语体特征计量研究[D].北京:中国传媒大学,2007.
  • 8Wastholm P,Kusma A,Megyesi B B.Using linguistic data for genre classification [EB/OL]. ( 2006 ).http ://www.wastholm.net/files/ suc_genres.pdf.
  • 9Baroni M.Distribution in text[M]//Corpus Linguistics:An International Handbook.[S.l.]:Mouton de Gruyter,2009.
  • 10刘海涛.依存句法的理论与实践[M].北京:科学出版社,2009.

引证文献1

二级引证文献35

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部