-
题名大规模层次分类中的候选类别搜索
被引量:19
- 1
-
-
作者
何力
丁兆云
贾焰
韩伟红
-
机构
国防科学技术大学计算机学院
国防科学技术大学信息系统与管理学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第1期41-49,共9页
-
基金
国家"八六三"高技术研究发展计划项目基金(2010AA012505
2011AA010702
+7 种基金
2012AA01A401
2012AA01A402)
国家自然科学基金(60933005
91124002
61303265)
国家科技支撑计划项目(2012BAH38B04
2012BAH38B06)
国家242信息安全计划项目(2011A010)资助~~
-
文摘
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%.
-
关键词
文本分类
大规模层次分类
类别层次
候选类别
候选搜索问题
社交网络
-
Keywords
text categorization
large scale hierarchical classification
class hierarchy
category candidate
candidate search problem
social networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-