-
题名一种新的加权后缀树Web文档聚类方法
被引量:2
- 1
-
-
作者
杨瑞龙
朱庆生
谢洪涛
屈洪春
-
机构
重庆大学计算机学院
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2011年第3期474-479,共6页
-
基金
国家科技支撑计划(2007BAH08B04)
重庆市科技支撑计划(2008AC20084)
-
文摘
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。
-
关键词
后缀树
后缀树聚类
web文档聚类
web文档结构
权重计算
-
Keywords
suffix tree
suffix tree clustering
web document clustering
web document structure
weight computing
-
分类号
TP397.2
[自动化与计算机技术—计算机应用技术]
-