-
题名基于Rough集约简算法的中文文本自动分类系统
被引量:8
- 1
-
-
作者
盛晓炜
江铭虎
-
机构
清华大学中文系计算语言学实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2005年第7期1047-1052,共6页
-
基金
教育部优秀青年教师资助计划教育部归国人员启动基金模式识别国家重点实验室开放基金清华大学基础研究基金资助课题
-
文摘
现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度。该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高。
-
关键词
自动分类
ROUGH集
决策表
约简算法
-
Keywords
Automatic classification, Rough set, Decision table, Reduction algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名甲骨文字库与智能知识库的建立
被引量:20
- 2
-
-
作者
江铭虎
邓北星
廖盼盼
张博
严峻
丁晔
-
机构
清华大学中文系计算语言学实验室
清华大学电子工程系
清华大学自动化系
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第4期45-47,60,共4页
-
基金
教育部优秀青年教师资助计划支持
教育部归国人员启动基金支持
清华大学SRT计划和清华大学基础研究基金支持
-
文摘
文章介绍了用于计算机处理的甲骨文字库、句法分析和综合智能知识库的建立方法以及计算机甲骨文辅助辨识分析的工作原理,论述了计算机信息处理技术在甲骨文研究中的重要作用。目前的字库已收入三千多甲骨文字,可采用区位码和拼音输入,对与现代汉字有对应关系的一千多甲骨文字进行现代汉字、音、意、词性、属性等方面作出详尽的标注解释,用VC++实现了它们之间的互查功能。
-
关键词
甲骨文
字库
智能知识库
-
Keywords
Oracle-bone inscriptions,Word-base,Intelligence repository
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-