-
题名基于后缀树的Web检索结果聚类标签生成方法
被引量:9
- 1
-
-
作者
骆雄武
万小军
杨建武
吴於茜
-
机构
北京大学计算机科学技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2009年第2期83-88,共6页
-
基金
国家十一五资助项目(2006BAH02A10)
国家863计划资助项目(2008AA01Z421)
-
文摘
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。
-
关键词
计算机应用
中文信息处理
检索结果聚类
聚类标签生成
后缀树
-
Keywords
computer application
Chinese information processing
search results clustering
cluster label generation
suffix tree
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-