期刊文献+

独立于语种的文本分类方法 被引量:52

Language Independent Text Categorization
下载PDF
导出
摘要 文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。 Text categorization is defined as the task of assigning pre defined category labels to new documents.This paper proposes a language independent text categorization model based on machine learning,and describes the feature extraction,classifier and evaluation method in detail.This model has been implemented on two news corpus of Chinese and Japanese and satisfactory categorization effectiveness has been achieved.
出处 《中文信息学报》 CSCD 北大核心 2000年第6期1-7,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金!(6 98730 11) 86 3项目!(86 3 - 30 6 -ZD0 2 - 0 2 - 4)
关键词 文本分类 特征抽取 机器学习 分类器 语种 text categorization feature selection machine learning
  • 相关文献

参考文献3

二级参考文献15

  • 1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量:24
  • 2黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量:24
  • 3吴军,第三届全国人机语音通信学术会议,1994年
  • 4刘开瑛,第二届全国计算语言学联合学术会议论文集,1993年
  • 5王永成,第二届全国计算语言学联合学术会议论文集,1993年
  • 6苑春法,第二届全国计算语言学联合学术会议论文集,1993年
  • 7施水才,1993年
  • 8郭进,第一届全国计算语言学联系学术会议,1991年
  • 9Chen H,IEEE Trans PAMI,1996年,18卷,8期,771页
  • 10王开铸,计算语言进展与应用,1995年,359页

共引文献79

同被引文献281

引证文献52

二级引证文献641

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部