-
题名大规模层次分类中的候选类别搜索
被引量:19
- 1
-
-
作者
何力
丁兆云
贾焰
韩伟红
-
机构
国防科学技术大学计算机学院
国防科学技术大学信息系统与管理学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第1期41-49,共9页
-
基金
国家"八六三"高技术研究发展计划项目基金(2010AA012505
2011AA010702
+7 种基金
2012AA01A401
2012AA01A402)
国家自然科学基金(60933005
91124002
61303265)
国家科技支撑计划项目(2012BAH38B04
2012BAH38B06)
国家242信息安全计划项目(2011A010)资助~~
-
文摘
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%.
-
关键词
文本分类
大规模层次分类
类别层次
候选类别
候选搜索问题
社交网络
-
Keywords
text categorization
large scale hierarchical classification
class hierarchy
category candidate
candidate search problem
social networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大规模层次分类问题研究及其进展
被引量:14
- 2
-
-
作者
何力
贾焰
韩伟红
谭霜
陈志坤
-
机构
国防科学技术大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2012年第10期2101-2115,共15页
-
基金
国家"八六三"高技术研究发展计划项目基金(2010AA012505
2011AA010702
+4 种基金
2012AA01A401
2012AA01A402)
国家自然科学基金(60933005)
国家科技支撑计划(2012BAH38B04)
国家242信息安全计划(2011A010)资助~~
-
文摘
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向.
-
关键词
文本分类
大规模层次分类
类别层次
类别层次树
-
Keywords
text categorization
large scale hierarchical classification
class hierarchy
tree-struc tured class hierarchy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于全路径相似度的大规模层次分类算法
- 3
-
-
作者
朱建林
陈忠阳
张永俊
孙存一
-
机构
中国人民大学财政金融学院
中国人民大学信息学院
北京大学光华管理学院
-
出处
《计算机工程与设计》
北大核心
2019年第5期1300-1304,1333,共6页
-
基金
国家自然科学基金项目(71271209)
北京市自然科学基金项目(4132067)
-
文摘
为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个目标类别的全路径相似度,确定分类类别。实验结果表明,该方法分类效果优于传统算法,其基于文本类全路径相似度的策略明显改善了单纯基于词类区分度的分类算法。
-
关键词
词类区分度
全路径相似度
大规模层次分类
文本分类
化繁为简策略
-
Keywords
word-class discrimination
full-path similarity
large-scale hierarchical classification
text classification
simplify strategy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-