期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种新的加权后缀树Web文档聚类方法 被引量:2
1
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树聚类 web文档聚类 web文档结构 权重计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部