-
题名一种基于向量空间模型的多层次文本分类方法
被引量:75
- 1
-
-
作者
刘少辉
董明楷
张海俊
李蓉
史忠植
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2002年第3期8-14,26,共8页
-
基金
国家自然科学基金 (6 0 1730 17)
北京自然科学基金 (40 110 0 3)支持
-
文摘
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。
-
关键词
多层次文本分类方法
向量空间模型
信息增益
特征提取
词语权重
层次关系
文档分类
-
Keywords
Text Classification
Vector Space Model
Information Gain
Feature Selection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SMO的多层次文本分类法研究
被引量:3
- 2
-
-
作者
何建兵
何清
史忠植
-
机构
中国科学院研究生院软件学院
中科院计算技术研究所智能信息处理重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第13期152-154,167,共4页
-
基金
国家自然科学基金资助项目(编号:60435010)
国家863高技术研究发展计划资助项目(编号:2003AA115220)
+1 种基金
中澳科技合作特别基金项目
北京市自然科学基金资助项目(编号:4052025)
-
文摘
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。
-
关键词
文本分类
多层次文本分类
支持向量机
SMO算法
多层支持向量机
-
Keywords
text categorization,multi-layer text categorization,SVM,SMO algorithm,multi-layer SVM
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-