-
题名多类多标签汉语文本自动分类的研究
被引量:11
- 1
-
-
作者
施彤年
卢忠良
荣融
王家云
-
机构
上海交通大学计算机与工程系
国防科技大学电子科学与工程学院
解放军
-
出处
《情报学报》
CSSCI
北大核心
2003年第3期306-309,共4页
-
文摘
本文提出了一种高效的汉语文本分类方法,并在实验中收到了良好的效果.由于汉语文本的特殊性,在训练前对训练文本进行自动分词和降维预处理.许多文本往往可能归到多个类,分类算法采用改进的Boosting算法.实验表明,在多类多标签的汉语文本特征提取和文档分类中,该算法收敛快、准确性高、综合效果较好.
-
关键词
汉语文本
特征提取
自动分类
自动分词
降维预处理
BOOSTING算法
多类多标签
-
分类号
G254.361
[文化科学—图书馆学]
-
-
题名BOOSTING算法在多类多标签文本分类中的应用
被引量:1
- 2
-
-
作者
刘茂旺
林世平
-
机构
中国人民解放军
福州大学数学与计算机学院
-
出处
《福建电脑》
2006年第3期103-104,100,共3页
-
文摘
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别,本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重对迭代次数和判定阈值的选择进行研究。实验表明,该分类器对多类多标签的文本分类是有效的。
-
关键词
文本分类
多类多标签
BOOSTING算法
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-