期刊文献+

基于上下文关系的文本分类特征描述方法 被引量:6

Context Based Feature Description Model in Chinese Text Categorization
下载PDF
导出
摘要 文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。 Text feature description is considered as the basic problem in text classification and it aims to use computable feature to model documents. The most used feature description method treats a text as a set of words, which called "bag of words" model, under this model feature selection and weighting consider the "frequency" of single word only, ignoring the relation of words in context. But generally words in a certain context field can deliver correlative meaning for a same topic. So the "bag of words" model loses the context information that is important facts for improving classifica- tion precision. This paper presents a new feature description method based on text context. First, a commonly used feature selection method is used to get an initial set of feature words; secondly, Mutual Information (MI) is used to compute the word dependence in a concrete context, then, the feature words is selected according to the denpendence. Meanwhile, the weight of each feature is adjusted. Experiment result indicates the efficience of the new approach.
作者 何中市 刘里
出处 《计算机科学》 CSCD 北大核心 2007年第5期183-186,共4页 Computer Science
基金 国家自然科学基金项目(60173060)
关键词 特征描述 文本分类 向量空间模型 权重计算 Feature description, Text categorization, Vector space model, Weighting
  • 相关文献

参考文献7

二级参考文献91

  • 1靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量:3
  • 2刘开瑛,计算机期刊关键词标引统计分析技术报告,1996年
  • 3刘开瑛,中国人民银行××省分行《重要文件汇编》的主题词标引研究技术报告,1996年
  • 4白硕,语言学知识的计算机辅助发现,1995年
  • 5方开泰,实用多元统计分析,1989年
  • 6Lin D, Pantel P. DIRT-Discovery of Inference Rules from Text. In: Proc of ACM SIGKDD Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2001. 323-328.
  • 7Harris Z. Distributional Structure. In: Katz J J, ed. The Philosophy of Linguistics. New York, USA: Oxford University Press, 1985, 26-47.
  • 8van Rijsbergen C J. Information Retrieval. 2nd edition. London, UK: Buttersworth, 1989.
  • 9Cutting D R, Karger D R, Pedersen J O, Tukey J W. Scatter/ Gather: A Cluster-Based Approach to Browsing Large Document Collections. In: Proc of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Copenhagen, Denmark, 1992, 318-329.
  • 10Zamir O, Etzioni O, Madani O, Karp R M, Fast and Intuitive Clustering of Web Documents, In: Proc of the 3rd International Conference on Knowledge Discovery and Data Mining, San Diego, USA, 1997, 287-290.

共引文献141

同被引文献42

引证文献6

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部