期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于CURE算法的网页分块及正文块提取研究 被引量:1
1
作者 王超 徐杰锋 《微型机与应用》 2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信... 研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 展开更多
关键词 WEB信息抽取 聚类算法 页面分 正文块提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部