-
题名大规模层次分类中的候选类别搜索
被引量:19
- 1
-
-
作者
何力
丁兆云
贾焰
韩伟红
-
机构
国防科学技术大学计算机学院
国防科学技术大学信息系统与管理学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第1期41-49,共9页
-
基金
国家"八六三"高技术研究发展计划项目基金(2010AA012505
2011AA010702
+7 种基金
2012AA01A401
2012AA01A402)
国家自然科学基金(60933005
91124002
61303265)
国家科技支撑计划项目(2012BAH38B04
2012BAH38B06)
国家242信息安全计划项目(2011A010)资助~~
-
文摘
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%.
-
关键词
文本分类
大规模层次分类
类别层次
候选类别
候选搜索问题
社交网络
-
Keywords
text categorization
large scale hierarchical classification
class hierarchy
category candidate
candidate search problem
social networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名深层次分类中候选类别搜索算法
被引量:1
- 2
-
-
作者
张忠林
刘述昌
江粉桃
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2017年第3期635-639,672,共6页
-
基金
国家自然科学基金资助项目(61662043)~~
-
文摘
针对深层次分类中分类准确率低、处理速度慢等问题,提出一种待分类文本的候选类别搜索算法。首先,引入搜索、分类两阶段的处理思想,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类树层次结构的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别;最后,在候选类别的基础上应用经典的K最近邻(KNN)分类算法和支持向量机(SVM)分类算法进行分类测试和对比分析。实验结果显示,所提算法的总体分类性能优于传统的分类算法,而且使平均F1值较基于贪心策略的启发式搜索算法提高了6%左右。该算法显著提高了深层次文本分类的分类准确度。
-
关键词
深层文本分类
类别层次
类别层次树
深度优先搜索
候选类别
-
Keywords
deep text classification
class hierarchy
tree-structured class hierarchy
depth first search
candidate category
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于标题类别语义识别的文本分类算法研究
被引量:6
- 3
-
-
作者
王强
关毅
王晓龙
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2007年第12期2885-2890,共6页
-
基金
国家自然科学基金(60435020
60504021)资助课题
-
文摘
本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。
-
关键词
标题类别语义识别
候选类别
类别空间表示效率
-
Keywords
Title Category Semantic Recognition(TCSR)
Candidate category
Category space representation efficiency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-