期刊文献+

一个中文文本自动分类数学模型 被引量:18

A Mathematical Model for Automatic Chinese Text Categorization
下载PDF
导出
摘要 本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。 This paper proposes an example based mapping method,which uses Chinese properties of CCs for Chinese text categorization.The most distinguishable characteristics of this method is introducing the LLSF(Linear Least Square Fit) technique to build the categorization model.By learning the relevance information from manually categorized training corpus,this model ultimately generates a mapping function from CC space to category space based on global least mapping error and uses this mapping function to predict the categories of arbitrary texts.
机构地区 山西大学
出处 《情报学报》 CSSCI 北大核心 1999年第1期27-32,共6页 Journal of the China Society for Scientific and Technical Information
关键词 中文文本 自动分类 字频向量 映射函数 automatic Chinese text categorization,Chinese character frequency vector,example based mapping method.
  • 相关文献

参考文献9

二级参考文献8

  • 1诸青,郁亦明.文献自动分类的分析与研究[J].现代图书情报技术,1985(4):40-46. 被引量:8
  • 2吴军,第三届全国人机语音通信学术会议,1994年
  • 3刘开瑛,第二届全国计算语言学联合学术会议论文集,1993年
  • 4王永成,第二届全国计算语言学联合学术会议论文集,1993年
  • 5苑春法,第二届全国计算语言学联合学术会议论文集,1993年
  • 6施水才,1993年
  • 7郭进,第一届全国计算语言学联系学术会议,1991年
  • 8叶新明,徐进鸿.中文文献自动分类研究[J].情报科学,1992,13(5):31-34. 被引量:17

共引文献37

同被引文献190

引证文献18

二级引证文献97

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部