-
题名基于Rough集约简算法的中文文本自动分类系统
被引量:8
- 1
-
-
作者
盛晓炜
江铭虎
-
机构
清华大学中文系计算语言学实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2005年第7期1047-1052,共6页
-
基金
教育部优秀青年教师资助计划教育部归国人员启动基金模式识别国家重点实验室开放基金清华大学基础研究基金资助课题
-
文摘
现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度。该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高。
-
关键词
自动分类
ROUGH集
决策表
约简算法
-
Keywords
Automatic classification, Rough set, Decision table, Reduction algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-