-
题名基于无标记Web数据的层次式文本分类
- 1
-
-
作者
何力
谭霜
贾焰
韩伟红
-
机构
国防科学技术大学计算机学院
-
出处
《智能系统学报》
CSCD
北大核心
2014年第3期330-335,共6页
-
基金
国家"863"计划资助项目(2010AA012505
2011AA010702
+7 种基金
2012AA01A401
2012AA01A402)
国家重点基础研究发展计划资助项目(2013CB329601
2013CB329602)
国家自然科学基金资助项目(60933005
91124002)
国家科技支撑计划资助项目(2012BAH38B04)
国家242信息安全计划资助项目(2011A010)
-
文摘
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。
-
关键词
层次式文本分类
主题层次
无标记数据分类
支持向量机
-
Keywords
hierarchical text classification
topic hierarchy
classification without labeled data
support vector machine
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-