摘要
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。
Text categorization is defined as the task of assigning pre defined category labels to new documents.This paper proposes a language independent text categorization model based on machine learning,and describes the feature extraction,classifier and evaluation method in detail.This model has been implemented on two news corpus of Chinese and Japanese and satisfactory categorization effectiveness has been achieved.
出处
《中文信息学报》
CSCD
北大核心
2000年第6期1-7,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金!(6 98730 11)
86 3项目!(86 3 - 30 6 -ZD0 2 - 0 2 - 4)